因为每一种分类算法都基于某些假设而且有各自的特点,所以为特定的问题或任务选择合适的分类算法需要经验和实践。David H.Wolpert提出的无免费午餐定理表明不存在一个分类算法在所有情况下都最优(David H.Wolpert.The Lack of A Priori Distinctions Between Learning Algorithms,Neural Computation 8(7):1341-1390,1996)。在实践中,存在各式各样的情况,如特征或样本数量不同、数据集存在噪声、数据集是否线性可分等,所以建议比较几种不同类型机器学习算法的性能,选择适合特定问题的最佳算法。
分类器的计算性能、预测能力在很大程度上取决于训练数据。监督机器学习算法训练过程中涉及如下五个主要步骤:
1.选择特征并收集标记的训练样本;
2.选择机器学习算法性能度量指标;
3.选择机器学习算法并训练模型;
4.评估模型的性能;
5.更改算法参数并调优模型。
由于本书的思路是逐步建立机器学习的知识,因此本章主要关注各种算法的基本概念,并回顾诸如特征选择、数据预处理、模型性能度量、超参数调优等话题。本书的后续章节也会更详细地讨论这些话题。