1.3 机器学习可以解决的问题
大多数机器学习问题属于以下3个主要类别之一:
-
在监督学习中,我们有一个数据点的标签。目前,这个标签可以是图像中捕获的一个对象的类、一张脸周围的边框、图像中出现的数字,或其他任何内容。把监督学习想象成老师,它不仅教你学习,而且还告诉你一个问题的正确答案。此时,学生可以尝试设计一个把所有问题及其正确答案都考虑进去的模型或方程,并找到一个问题的答案——该问题有(或没有)正确答案。用于学习模型的数据称为
训练数据
,用于测试过程/模型的数据称为
测试数据
。这些预测有两种类型,例如:识别新图片有正确的动物(称为
分类问题
),或为其他二手车设定准确的销售价格(称为
回归问题
)。如果现在这对你来说看起来有点难的话,不必担心——我们将在本书中进行详细的介绍。
-
在无监督学习中,没有与数据点相关的标签(第8章)。考虑无监督学习就像在课堂上,老师给你一个复杂的难题,让你自己去求解。此处,最常见的结果就是集群,包含具有相似特征的对象。无监督学习还可以以不同的方式查看更高维的数据(复杂数据),使其看起来更简单。
-
强化学习是有关最大化回报的一个问题。因此,如果你每答对一个题老师就给你一块糖,每答错一个题,老师就惩罚你,那么他是通过增加你收到糖果的次数而不是增加惩罚你的次数来强化这些概念。
机器学习问题的3个主要类别如图1-2所示。
图1-2 机器学习问题的3个主要类别
既然我们已经介绍了机器学习的主要类别,就让我们重温一下Python中的一些概念吧,在本书的学习过程中,这些内容非常有用。
E1NJXYilODf2g1Z3ovz8p0C+qk7/8Q0Q0vGD9TzFG1olWzsetlKIX6gBfhuPGoim