在机器学习和统计中,分类算法通过对已知类别训练集的计算和分析,从中发现类别规则并预测新数据的类别。分类被认为是监督学习的一个特例,即学习可以获得正确识别的、可观察的训练集的情况。分类算法在具体实现中被称为分类器。
机器学习分类算法一般应用在以下几方面。
(1)分类用于提炼规则。
以决策树为例,决策树分类节点表示局部最优化的显著特征值、每个节点下的特征变量及对应的值的组合构成规则。
(2)分类用于提取特征。
从大量的输入变量中获得重要性特征,然后提取权重最高的几个特征。
(3)分类处理缺失值。
· 如果缺失值是分类变量,即基于模型法填补缺失值;
· 基于已有其他字段,将缺失字段作为目标变量进行预测。
(4)分类算法的选取。
在不同的训练集中,分类算法的选取也是不相同的。
· 文本分类时用到最多的是朴素贝叶斯。
· 训练集比较小,那么选择如朴素贝叶斯、支持向量机这些算法不容易过拟合。
· 训练集比较大,选取何种方法都不会显著影响准确度。
· 省时的操作选用支持向量机,不要使用神经网络。
· 如果重视算法准确度,那么选择算法精度高的算法,例如支持向量机、随机森林。
· 想得到有关预测结果的概率信息,应使用逻辑回归。
· 需要清洗的决策规则,应使用决策树。