在上述线性回归方法中可以看到,通过给出的一组数据 x 1 ,x 2 ,··· ,x n 决定了一个数据格式的矩阵 X ,而且这个矩阵连同其转置,就得到线性回归意义下的最佳逼近
显然在矩阵 X 是方阵且可逆时,有
X ( X T X ) -1 X T = XX -1 X T ( X T ) -1 = I
I 为单位矩阵,从而 ,所以最佳逼近本身(没有任)何误差。在其他情况下,最佳线性逼近会产生误差。上述等式中的矩阵 X T X -1 X T 称为“伪逆”矩阵。一般来讲,如果 X 是一个 n × k 的矩阵,且
H = X ( X T X ) -1 X T
则有下列性质:
(1) H 是一个对称矩阵。
(2) H k = H 对于任意正整数 k 都成立。
(3)( I - H ) k = I - H 成立。
(4)有Tr( H )= k 。
下面简单加以证明。首先,因为
所以, H 是一个对称矩阵。其次,因为
H 2 = X ( X T X ) -1 X T X ( X T X ) -1 X T = X ( X T X ) -1 X T = H
所以, H 是一个幂等矩阵。从而有
( I - H ) 2 = I -2 H + H 2 = I - H
所以, I - H 也是幂等矩阵。最后来看矩阵 H 的迹。
这里利用了线性代数中的一个性质,即Tr AB =Tr BA 。下面来考虑样本内外的区别问题。例如,整个样本由
( x 1 ,y 1 ),( x 2 ,y 2 ),···,( x n ,y n )
这 n 个点组成。其中所有的 x i 已经固定,但是标签 y 按照一定正态分布构成随机变量。假设从数据到标签都是由函数 所生成的,但是数据产生过程中具有相对独立的白噪声。有一些样本内的数据,如给出的
( x 1 ,y 1 ),( x 2 ,y 2 ),···,( x n ,y n )
如果数据本身具有一定的噪声,即 y i 是满足下面关系的随机变量
同样利用矩阵的语言,可以写成 y = Xw + ϵ ,其中 ϵ ∼ N (0 ,σ 2 ),是独立的白噪声。因为看不到没有噪声的数据,所以只能通过带有噪声的数据得到新的逼近值
显然,这个新的逼近函数在样本内的误差函数为
如果选择平方和作为损失函数,则有 。当抽样选取样本点时,可以计算期望,即
这就是在线性回归算法中样本内的期望损失函数。通过该表达式可以看到,当数据 n 增加时,误差增加;当特征 k 增加时,误差减少。
下面考虑在样本外的误差。对于任何随机的一组数据,其中
这里的噪声 ϵ ′和样本内的噪声 ϵ 是独立的。逼近函数和真实函数的损失函数为
这就是机器学习线性回归样本外的损失函数。比较样本内的损失函数和样本外的损失函数,可以发现,随着样本点的增加,样本内的损失函数在增加,而样本外的损失函数在减少。一般来讲,给定一组数据集合 D ,可以学习到的最佳假设记为 f D ( x )。如果真实函数为 f ( x ),那么它们之间的差 f ( x )- f D ( x )则是一个随着 D 变化而变化的量。如果针对所有的 D 求均值,且记为
那么,其样本外的损失函数可以得到分解,即
其中,第一项描述了方差,第二项描述了误差。方差描述的是学习到的函数对于样本的敏感程度,而误差反映了学习的平均水平对于原始函数的偏离程度。一般情况下,随着样本点的增加,方差会增加,误差会减少。假设空间的复杂程度也有影响,当空间的自由度增加时,方差会增加,误差会减少;相反,自由度减少时,方差会减少,但误差会增加。