机器学习的算法分析和实践最新章节_孙健著

3.1 最小二乘法原理

在监督式学习的模式下，给出样本内的一组数据，总共有 n 个数据点，每个数据点都由数据和标签组成，即

（ x ₁ ，y ₁ ），（ x ₂ ，y ₂ ），···，（ x _n ，y _n ）

其中，代表了具有 k 个特征的数据，代表了连续变量的标签。寻找线性函数，使得

f （ x ）= w ^T x + b = x ^T w + b

在 L ² 意义下逼近原来的函数，即让

达到最小，其中，参数。如果使用扩展的向量

那么就可以使用简化的符号，而不需要引进单独的常数 b 。从而优化问题就变为

然后使用矩阵的语言，令 X 是一个 n × k 的矩阵， w 是一个 k ×1的向量， y 是一个 n 维向量，有

采用线性代数中矩阵乘法的写法可以把上述问题重新表述为

展开可得

f （ w ）=（ w ^T X ^T - y ^T ）（ Xw - y ）= w ^T XX ^T w - y ^T Xw - w ^T X ^T y + y ^T y

根据本书最后一章线性代数基础内容可知，此函数 f （ w ）如果取到极小值，其梯度函数就可以通过将上式右边对 w 求导得到，即

∇ f （ w ）=2 XX ^T w -2 X ^T y =0

从而最小值在

XX ^T w = X ^T y

取得，所以有

w =（ X ^T X ） ^-1 X ^T y

这样，对于任意由给出点集构成的矩阵 X ，都有

作为原来 y 的 L ² 的最佳逼近。

在上述推导过程中，其实用到了以下两个梯度的计算方法

那么就有梯度的计算

∇ _w f = x ，∇ _w g =2 Ωw

读者也可以自行验证。

线性回归的效果如图3.1所示。

图3.1 线性回归