购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

3.1 最小二乘法原理

在监督式学习的模式下,给出样本内的一组数据,总共有 n 个数据点,每个数据点都由数据和标签组成,即

x 1 ,y 1 ),( x 2 ,y 2 ),···,( x n ,y n

其中, 代表了具有 k 个特征的数据, 代表了连续变量的标签。寻找线性函数,使得

f x )= w T x + b = x T w + b

L 2 意义下逼近原来的函数,即让

达到最小,其中,参数 。如果使用扩展的向量

那么就可以使用简化的符号,而不需要引进单独的常数 b 。从而优化问题就变为

然后使用矩阵的语言,令 X 是一个 n × k 的矩阵, w 是一个 k ×1的向量, y 是一个 n 维向量,有

采用线性代数中矩阵乘法的写法可以把上述问题重新表述为

展开可得

f w )=( w T X T - y T )( Xw - y )= w T XX T w - y T Xw - w T X T y + y T y

根据本书最后一章线性代数基础内容可知,此函数 f w )如果取到极小值,其梯度函数就可以通过将上式右边对 w 求导得到,即

f w )=2 XX T w -2 X T y =0

从而最小值在

XX T w = X T y

取得,所以有

w =( X T X -1 X T y

这样,对于任意由给出点集构成的矩阵 X ,都有

作为原来 y L 2 的最佳逼近。

在上述推导过程中,其实用到了以下两个梯度的计算方法

那么就有梯度的计算

w f = x ,∇ w g =2 Ωw

读者也可以自行验证。

线性回归的效果如图3.1所示。

图3.1 线性回归 8/1AmcyaPS88dp3h+XKc2yaUSU7zz6LR4upuiSqIGY8uNtKAfFqS5Tu4mbHRK5zy

点击中间区域
呼出菜单
上一章
目录
下一章
×