购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第2章
简单的机器学习分类算法

在机器学习和统计中,分类算法通过对已知类别训练集的计算和分析,从中发现类别规则并预测新数据的类别。分类被认为是监督学习的一个特例,即学习可以获得正确识别的、可观察的训练集的情况。分类算法在具体实现中被称为分类器。

机器学习分类算法一般应用在以下几方面。

(1)分类用于提炼规则。

以决策树为例,决策树分类节点表示局部最优化的显著特征值、每个节点下的特征变量及对应的值的组合构成规则。

(2)分类用于提取特征。

从大量的输入变量中获得重要性特征,然后提取权重最高的几个特征。

(3)分类处理缺失值。

· 如果缺失值是分类变量,即基于模型法填补缺失值;

· 基于已有其他字段,将缺失字段作为目标变量进行预测。

(4)分类算法的选取。

在不同的训练集中,分类算法的选取也是不相同的。

· 文本分类时用到最多的是朴素贝叶斯。

· 训练集比较小,那么选择如朴素贝叶斯、支持向量机这些算法不容易过拟合。

· 训练集比较大,选取何种方法都不会显著影响准确度。

· 省时的操作选用支持向量机,不要使用神经网络。

· 如果重视算法准确度,那么选择算法精度高的算法,例如支持向量机、随机森林。

· 想得到有关预测结果的概率信息,应使用逻辑回归。

· 需要清洗的决策规则,应使用决策树。 UvLuUumchVykUmMnh5XqZzHWI0QhlqXXfmJGQawu6l7/y+4gRy47ypHR1w9E6YVW

点击中间区域
呼出菜单
上一章
目录
下一章
×