机器学习实战：视频教学版最新章节_迟殿委著

1.2.2 机器学习分类

根据算法类型，机器学习可以分为4类，即监督学习（Supervised Learning）、无监督学习（Unsupervised Learning）、半监督学习（Semi-Supervised Learning）和强化学习（Reinforcement Learning）。机器学习分类示意图如图1-11所示，图中用灰色圆点代表没有标签的数据，其他颜色的圆点代表不同类别的有标签数据。

图1-11 机器学习分类

1.监督学习

监督学习使用标记过的数据进行训练。所谓标记过的数据，指的是包含已知输入和输出的原始数据。其中输入数据中的每个变量都称为一个特征（Feature）值，而输出数据则是针对这些输入数据的对应输出的期望值，也称标签值。在监督学习中，计算机使用输入数据计算输出值，然后对比标签值计算误差，最后通过迭代寻找最佳模型参数。监督学习通常用于基于历史数据的未来事件预测，主要解决两类问题，即回归（Regression）和分类（Classification）。例如在天气预报中使用历史数据预测未来几天的温度、湿度和降雨量等就是典型的回归问题，其输出的数据是连续的。而分类问题的输出是不连续的离散值，例如，使用历史数据判断航班是否晚点就是一种二元分类问题，其输出值只有“是”和“非”两种。在实际情况中，有些场景既可以看作回归问题，也可以看作分类问题，例如在天气预报中将利用回归计算得到的温度值转换为“炎热”和“凉爽”的分类问题。

简单来说，监督学习是指我们给算法一个数据集，并且给定正确答案，机器通过数据集来学习正确答案的计算方法。

举例来说，我们准备了一大堆猫和狗的照片，想让机器学会识别猫和狗。当使用监督学习的时候，我们需要给这些照片打上标签，如图1-12所示。

图1-12 给猫和狗的照片打标签

给照片打的标签就是“正确答案”，机器通过大量学习，就可以学会如何识别出猫和狗，如图1-13所示。

图1-13 识别猫和狗的机器学习过程

这种通过大量人工打标签来帮助机器学习的方式就是监督学习。这种学习方式效果非常好，但是成本也非常高。

常用的监督学习算法包括K邻近算法（K-Nearest Neighbors，KNN）、线性回归（Linear Regression）、逻辑回归（Logistic Regression）、支持向量机（Support Vector Machine，SVM）、朴素贝叶斯（Naive Bayes）、决策树（Decision Tree）、随机森林（Random Forest）、神经网络（Neural Network）和卷积神经网络（Convolutional Neural Networks，CNN）等。

2.半监督学习

半监督学习与监督学习的应用场景相同，主要面向分类和回归。但半监督学习使用的原始数据只有一部分有标签，因为无标签数据的获取成本更低。在实际场景中，用户会倾向于使用少量的标签数据与大量的无标签数据进行训练。例如，在图像识别领域，先在大量含有特定物体的原始图像中挑选部分图像进行手工标注，然后就可以使用半监督学习对数据集进行训练，从而得到能够从图像中准确识别物体的模型。

常用的半监督学习算法包括协同训练（Co-Training）和转导支持向量机（Transductive Support Vector Machine，TSVM）等。

3.无监督学习

与监督学习不同，无监督学习所使用的原始数据的输出部分没有标签，也就是说，在训练的时候并不知道期望的输出是什么。所以，无监督学习并不像监督学习那样预测输出结果，而是解决输入数据的聚类（Clustering）和特征关联（Correlation）问题，目标是通过训练来发现输入数据中存在的共性特征，或者发现特征值之间的关联关系。其中，聚类算法根据对象属性进行分组。

简单来说，无监督学习中，给定的数据集没有“正确答案”，所有的数据都是一样的，无监督学习的任务是从给定的数据集中挖掘出潜在的结构。

举个例子，我们把一堆猫和狗的照片给机器，不给这些照片打任何标签，但是我们希望机器能够将这些照片分类，如图1-14所示。

图1-14 数据输入机器

通过学习，机器会把这些照片分为两类，一类都是猫的照片，另一类都是狗的照片，如图1-15所示。虽然跟监督学习的结果看上去差不多，但二者有着本质的差别：无监督学习中，虽然照片分为了猫和狗，但是机器并不知道哪个是猫，哪个是狗。对于机器来说，相当于分成了A、B两类。

图1-15 机器分类

常用的无监督学习算法包括K均值聚类（K-Means Clustering）、主成分分析（Principal Component Analysis，PCA）算法、自组织映射（Self-Organizing Map，SOM）神经网络和受限玻尔兹曼机（Restricted Boltzmann Machine，RBM）等。

4.强化学习

强化学习主要由智能体（Agent）、环境（Environment）、状态（State）、动作（Action）、奖励（Reward）组成。智能体执行了某个动作后，环境将会转换到一个新的状态，并对该新的状态给出奖励信号（正奖励或者负奖励），随后，智能体根据新的状态和环境反馈的奖励，按照一定的策略执行新的动作。上述过程为智能体和环境通过状态、动作、奖励进行交互的方式。

智能体通过强化学习，可以知道自己在什么状态下，应该采取什么样的动作，使得自身获得最大奖励。由于智能体与环境的交互方式与人类与环境的交互方式类似，因此可以认为强化学习是一套通用的学习框架，可以用来解决通用人工智能的问题。由此，强化学习也被称为通用人工智能的机器学习方法。

强化学习面向决策链问题，在不断变化的状态下，强化学习的目的是确定当前状态下的最佳决策。因为当前的决策往往无法立刻被验证和评估，所以强化学习往往没有大量的原始数据，计算机需要进行大量的试错学习，基于错误发现哪些行动能产生最大的回报，再根据规则找到生成最佳结果的最优路径。强化学习的目标是学习最好的策略，通常用于机器人、自动驾驶、游戏和棋类等，最典型的场景就是打游戏。例如《王者荣耀》里面的那些人机，都是训练出来的，我们不同段位的玩家遇到的人机的能力也是有区别的。