人工智能原理及MATLAB实现最新章节_许国根著

2.4 机器学习算法

机器学习算法是一些算法的总称，这些算法从大量历史数据中挖掘出隐含的规律，用于预测或分类。更具体地说，机器学习算法可以看作是寻找一个函数，其输入是样本数据，输出是期望的结果，只是这个函数过于复杂，以至于没有明确的数学表达式。机器学习算法的目标是使寻找到的函数不仅能在训练样本上表现很好，而且能很好地适用于新样本，即具有很好的泛化能力。

机器学习算法的基本训练步骤如下。

① 选择一个合适的模型。模型就是一个或一组函数的集合，通常需根据实际问题而定。不同的问题和任务需要选取恰当的模型，才能更易获得正确的结果。

② 判断函数的好坏。这需要确定一个衡量标准，也就是通常所说的损失函数。损失函数也需要依据具体问题而定，如回归问题一般采用欧氏距离，分类问题一般采用交叉熵代价函数。

③ 找到最好的函数。通过训练样本数据，机器学习算法从众多函数中以较快的速度找到最好的函数。要又快又准地完成这个过程往往不是一件容易的事，完成这个过程常用的算法有梯度下降算法、最小二乘算法等。

④ 检验。找到最好的函数后，还需要在新的样本上进行检验，函数只有在新样本上表现很好，才算是一个好的函数。

机器学习算法包括决策树算法、贝叶斯网络算法、支持向量机算法、 k 近邻分类算法、模糊聚类算法、随机森林算法、集成学习、KM算法等。