购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

3.1 分类器的选择

在机器学习中,分类器的作用是在标记好类别的训练数据基础上判断一个新的观察样本所属的类别。分类器依据学习的方式可以分为无监督学习和监督学习。

本节的目的是分类器的选择。可以依据下面四个要点来选择合适的分类器。

1.泛化能力和拟合之间的权衡

分类器在训练样本上的性能是过拟合评估,如果一个分类器在训练样本上的正确率很高,这说明分类器能够很好地拟合训练数据。但一个好的拟合训练数据的分类器会存在很大的偏置,所以在测试数据上不一定能够得到好的效果。如果一个分类器在训练数据上能够得到很好的效果,但在测试数据上效果下降严重,这说明分类器过拟合了训练数据。从另一个方面分析,如果分类器在测试数据上能够取得好的效果,那么就说明分类器的泛化能力强。分类器的泛化和拟合是一个此消彼长的过程,泛化能力强的分类器拟合能力一般很弱,反之则相反。所以分类器需要在泛化能力和拟合能力间取得平衡。

2.分类函数的复杂度和训练数据的大小

分类器对于训练数据大小的选择也是至关重要的,如果是一个简单的分类问题,那么拟合能力强、泛化能力弱的分类器就可以通过很小的一部分训练数据来得到。反之,如果是一个复杂的分类问题,那么分类器学习就需要大量的训练数据和泛化能力强的学习算法。一个好的分类器应该能够根据问题的复杂度和训练数据的大小自动地调整拟合能力和泛化能力之间的平衡。

3.输入的特征空间的维数

如果输入特征空间的向量维数很高,就会造成分类问题变得复杂,即使最后的分类函数只需几个特征来决定。这是因为过高的特征维数会混淆学习算法并会导致分类器的泛化能力过强,而泛化能力过强会使得分类器变化太大,性能下降。因此,一般高维特征向量输入的分类器都需要调节参数,使其泛化能力变弱,拟合能力变强。

4.输入的特征向量之间的均一性和相互之间的关系

如果特征向量包含多种类型的数据(如离散、连续),那么如SVM、线性回归、逻辑回归等多分类就不适用。这些分类器要求输入的特征必须是数字而且要归一化到相似的范围内。但是决策树分类器却能够很好地处理这些不归一的数据。如果有多个输入特征向量,每个特征向量之间相互独立,即当前特征向量的分类器输出仅仅和当前的特征向量输入有关,那么最优的分类器即是基于线性函数和距离函数的分类器,如线性回归、SVM、朴素贝叶斯等。反之,如果特征向量之间存在复杂的相互关系,那么决策树和神经网络更加适合于这类问题。 drHoJr6WUztjWx5JtWASLZPzqlcQnOn89VBF9IppmjPkAFPlCq59XB72mBDv+upg

点击中间区域
呼出菜单
上一章
目录
下一章
×