购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.2.2 机器学习分类

根据算法类型,机器学习可以分为4类,即监督学习(Supervised Learning)、无监督学习(Unsupervised Learning)、半监督学习(Semi-Supervised Learning)和强化学习(Reinforcement Learning)。机器学习分类示意图如图1-11所示,图中用灰色圆点代表没有标签的数据,其他颜色的圆点代表不同类别的有标签数据。

图1-11 机器学习分类

1.监督学习

监督学习使用标记过的数据进行训练。所谓标记过的数据,指的是包含已知输入和输出的原始数据。其中输入数据中的每个变量都称为一个特征(Feature)值,而输出数据则是针对这些输入数据的对应输出的期望值,也称标签值。在监督学习中,计算机使用输入数据计算输出值,然后对比标签值计算误差,最后通过迭代寻找最佳模型参数。监督学习通常用于基于历史数据的未来事件预测,主要解决两类问题,即回归(Regression)和分类(Classification)。例如在天气预报中使用历史数据预测未来几天的温度、湿度和降雨量等就是典型的回归问题,其输出的数据是连续的。而分类问题的输出是不连续的离散值,例如,使用历史数据判断航班是否晚点就是一种二元分类问题,其输出值只有“是”和“非”两种。在实际情况中,有些场景既可以看作回归问题,也可以看作分类问题,例如在天气预报中将利用回归计算得到的温度值转换为“炎热”和“凉爽”的分类问题。

简单来说,监督学习是指我们给算法一个数据集,并且给定正确答案,机器通过数据集来学习正确答案的计算方法。

举例来说,我们准备了一大堆猫和狗的照片,想让机器学会识别猫和狗。当使用监督学习的时候,我们需要给这些照片打上标签,如图1-12所示。

图1-12 给猫和狗的照片打标签

给照片打的标签就是“正确答案”,机器通过大量学习,就可以学会如何识别出猫和狗,如图1-13所示。

图1-13 识别猫和狗的机器学习过程

这种通过大量人工打标签来帮助机器学习的方式就是监督学习。这种学习方式效果非常好,但是成本也非常高。

常用的监督学习算法包括K邻近算法(K-Nearest Neighbors,KNN)、线性回归(Linear Regression)、逻辑回归(Logistic Regression)、支持向量机(Support Vector Machine,SVM)、朴素贝叶斯(Naive Bayes)、决策树(Decision Tree)、随机森林(Random Forest)、神经网络(Neural Network)和卷积神经网络(Convolutional Neural Networks,CNN)等。

2.半监督学习

半监督学习与监督学习的应用场景相同,主要面向分类和回归。但半监督学习使用的原始数据只有一部分有标签,因为无标签数据的获取成本更低。在实际场景中,用户会倾向于使用少量的标签数据与大量的无标签数据进行训练。例如,在图像识别领域,先在大量含有特定物体的原始图像中挑选部分图像进行手工标注,然后就可以使用半监督学习对数据集进行训练,从而得到能够从图像中准确识别物体的模型。

常用的半监督学习算法包括协同训练(Co-Training)和转导支持向量机(Transductive Support Vector Machine,TSVM)等。

3.无监督学习

与监督学习不同,无监督学习所使用的原始数据的输出部分没有标签,也就是说,在训练的时候并不知道期望的输出是什么。所以,无监督学习并不像监督学习那样预测输出结果,而是解决输入数据的聚类(Clustering)和特征关联(Correlation)问题,目标是通过训练来发现输入数据中存在的共性特征,或者发现特征值之间的关联关系。其中,聚类算法根据对象属性进行分组。

简单来说,无监督学习中,给定的数据集没有“正确答案”,所有的数据都是一样的,无监督学习的任务是从给定的数据集中挖掘出潜在的结构。

举个例子,我们把一堆猫和狗的照片给机器,不给这些照片打任何标签,但是我们希望机器能够将这些照片分类,如图1-14所示。

图1-14 数据输入机器

通过学习,机器会把这些照片分为两类,一类都是猫的照片,另一类都是狗的照片,如图1-15所示。虽然跟监督学习的结果看上去差不多,但二者有着本质的差别:无监督学习中,虽然照片分为了猫和狗,但是机器并不知道哪个是猫,哪个是狗。对于机器来说,相当于分成了A、B两类。

图1-15 机器分类

常用的无监督学习算法包括K均值聚类(K-Means Clustering)、主成分分析(Principal Component Analysis,PCA)算法、自组织映射(Self-Organizing Map,SOM)神经网络和受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)等。

4.强化学习

强化学习主要由智能体(Agent)、环境(Environment)、状态(State)、动作(Action)、奖励(Reward)组成。智能体执行了某个动作后,环境将会转换到一个新的状态,并对该新的状态给出奖励信号(正奖励或者负奖励),随后,智能体根据新的状态和环境反馈的奖励,按照一定的策略执行新的动作。上述过程为智能体和环境通过状态、动作、奖励进行交互的方式。

智能体通过强化学习,可以知道自己在什么状态下,应该采取什么样的动作,使得自身获得最大奖励。由于智能体与环境的交互方式与人类与环境的交互方式类似,因此可以认为强化学习是一套通用的学习框架,可以用来解决通用人工智能的问题。由此,强化学习也被称为通用人工智能的机器学习方法。

强化学习面向决策链问题,在不断变化的状态下,强化学习的目的是确定当前状态下的最佳决策。因为当前的决策往往无法立刻被验证和评估,所以强化学习往往没有大量的原始数据,计算机需要进行大量的试错学习,基于错误发现哪些行动能产生最大的回报,再根据规则找到生成最佳结果的最优路径。强化学习的目标是学习最好的策略,通常用于机器人、自动驾驶、游戏和棋类等,最典型的场景就是打游戏。例如《王者荣耀》里面的那些人机,都是训练出来的,我们不同段位的玩家遇到的人机的能力也是有区别的。 D61GeEoDzJuTMy1BPJWnpllsdUQZXzWNWZkGDKVQjZZTDi/DLdQduKi49v+RFwQj

点击中间区域
呼出菜单
上一章
目录
下一章
×