机器学习的算法分析和实践最新章节_孙健著

3.3 误差和方差

在上述线性回归方法中可以看到，通过给出的一组数据 x ₁ ，x ₂ ，··· ，x _n 决定了一个数据格式的矩阵 X ，而且这个矩阵连同其转置，就得到线性回归意义下的最佳逼近

显然在矩阵 X 是方阵且可逆时，有

X （ X ^T X ） ^-1 X ^T = XX ^-1 X ^T （ X ^T ） ^-1 = I

I 为单位矩阵，从而，所以最佳逼近本身（没有任）何误差。在其他情况下，最佳线性逼近会产生误差。上述等式中的矩阵 X ^T X ^-1 X ^T 称为“伪逆”矩阵。一般来讲，如果 X 是一个 n × k 的矩阵，且

H = X （ X ^T X ） ^-1 X ^T

则有下列性质：

（1） H 是一个对称矩阵。

（2） H ^k = H 对于任意正整数 k 都成立。

（3）（ I - H ） ^k = I - H 成立。

（4）有Tr（ H ）= k 。

下面简单加以证明。首先，因为

所以， H 是一个对称矩阵。其次，因为

H ² = X （ X ^T X ） ^-1 X ^T X （ X ^T X ） ^-1 X ^T = X （ X ^T X ） ^-1 X ^T = H

所以， H 是一个幂等矩阵。从而有

（ I - H ） ² = I -2 H + H ² = I - H

所以， I - H 也是幂等矩阵。最后来看矩阵 H 的迹。

这里利用了线性代数中的一个性质，即Tr AB =Tr BA 。下面来考虑样本内外的区别问题。例如，整个样本由

（ x ₁ ，y ₁ ），（ x ₂ ，y ₂ ），···，（ x _n ，y _n ）

这 n 个点组成。其中所有的 x _i 已经固定，但是标签 y 按照一定正态分布构成随机变量。假设从数据到标签都是由函数所生成的，但是数据产生过程中具有相对独立的白噪声。有一些样本内的数据，如给出的

（ x ₁ ，y ₁ ），（ x ₂ ，y ₂ ），···，（ x _n ，y _n ）

如果数据本身具有一定的噪声，即 y _i 是满足下面关系的随机变量

同样利用矩阵的语言，可以写成 y = Xw + ϵ ，其中 ϵ ∼ N （0 ，σ ² ），是独立的白噪声。因为看不到没有噪声的数据，所以只能通过带有噪声的数据得到新的逼近值

显然，这个新的逼近函数在样本内的误差函数为

如果选择平方和作为损失函数，则有。当抽样选取样本点时，可以计算期望，即

这就是在线性回归算法中样本内的期望损失函数。通过该表达式可以看到，当数据 n 增加时，误差增加；当特征 k 增加时，误差减少。

下面考虑在样本外的误差。对于任何随机的一组数据，其中

这里的噪声 ϵ ′和样本内的噪声 ϵ 是独立的。逼近函数和真实函数的损失函数为

这就是机器学习线性回归样本外的损失函数。比较样本内的损失函数和样本外的损失函数，可以发现，随着样本点的增加，样本内的损失函数在增加，而样本外的损失函数在减少。一般来讲，给定一组数据集合 D ，可以学习到的最佳假设记为 f _D （ x ）。如果真实函数为 f （ x ），那么它们之间的差 f （ x ）- f _D （ x ）则是一个随着 D 变化而变化的量。如果针对所有的 D 求均值，且记为

那么，其样本外的损失函数可以得到分解，即

其中，第一项描述了方差，第二项描述了误差。方差描述的是学习到的函数对于样本的敏感程度，而误差反映了学习的平均水平对于原始函数的偏离程度。一般情况下，随着样本点的增加，方差会增加，误差会减少。假设空间的复杂程度也有影响，当空间的自由度增加时，方差会增加，误差会减少；相反，自由度减少时，方差会减少，但误差会增加。