购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.3 机器学习的任务

根据学习任务的不同,机器学习算法大致可分为3类:监督学习、无监督学习和半监督学习。

1.3.1 监督学习

监督学习(Supervised Learning)是从给定的训练数据集中学习出一个模型参数,然后根据这个模型对未知样本进行预测。在监督学习中,样本同时包含特征(输入)和标签(输出)。本质上,监督学习的目标是构建一个从输入到输出的映射,该映射用模型来表示。常见的监督学习算法有k近邻、朴素贝叶斯、决策树、随机森林、SVM等。根据预测结果输出的类别,可分为分类和回归。若预测值是连续的,则属于回归问题;若预测值是离散的,则属于分类问题。分类和回归如图1-8所示。

图1-8 分类与回归

1.3.2 无监督学习

无监督学习(Unsupervised Learning)也称为非监督学习,输入的样本只包含特征,而不包含标签。学习模型是数据内在结构的推断,并不知道分类结果是否正确。常见的无监督学习算法有k均值聚类、层次聚类、GMM聚类。例如,利用层次聚类算法对西瓜数据集进行聚类的散点图如图1-9所示。

图1-9 基于密度的聚类

1.3.3 半监督学习

半监督学习(Semi-supervised Learning)是一种介于监督和无监督学习之间的学习方式,通过使用带标签数据及大量不带标签的数据进行模型学习。在监督学习中,样本的类别标签是已知的,对于无监督学习,样本是无标签的。实际上,有标签的样本是极少量的,绝大部分数据都是没有标签的,这是因为人工标记样本的成本很高,导致有标签的数据十分稀少。与此相应,不带标签的样本更容易获得。使用半监督学习,只需要少量带标签的数据,同时又能够带来较高的准确性,因此,在今天的大数据时代,半监督学习逐渐受到更多的关注。 k1JqAwOoZPudkKBgDjvhxQ5lS1Y6h7gf1C3oDx6Hl9S8ZmoMtx/CQQ8HjFFAeaO1

点击中间区域
呼出菜单
上一章
目录
下一章
×