购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

3.3 误差和方差

在上述线性回归方法中可以看到,通过给出的一组数据 x 1 ,x 2 ,··· ,x n 决定了一个数据格式的矩阵 X ,而且这个矩阵连同其转置,就得到线性回归意义下的最佳逼近

显然在矩阵 X 是方阵且可逆时,有

X X T X -1 X T = XX -1 X T X T -1 = I

I 为单位矩阵,从而 ,所以最佳逼近本身(没有任)何误差。在其他情况下,最佳线性逼近会产生误差。上述等式中的矩阵 X T X -1 X T 称为“伪逆”矩阵。一般来讲,如果 X 是一个 n × k 的矩阵,且

H = X X T X -1 X T

则有下列性质:

(1) H 是一个对称矩阵。

(2) H k = H 对于任意正整数 k 都成立。

(3)( I - H k = I - H 成立。

(4)有Tr( H )= k

下面简单加以证明。首先,因为

所以, H 是一个对称矩阵。其次,因为

H 2 = X X T X -1 X T X X T X -1 X T = X X T X -1 X T = H

所以, H 是一个幂等矩阵。从而有

I - H 2 = I -2 H + H 2 = I - H

所以, I - H 也是幂等矩阵。最后来看矩阵 H 的迹。

这里利用了线性代数中的一个性质,即Tr AB =Tr BA 。下面来考虑样本内外的区别问题。例如,整个样本由

x 1 ,y 1 ),( x 2 ,y 2 ),···,( x n ,y n

n 个点组成。其中所有的 x i 已经固定,但是标签 y 按照一定正态分布构成随机变量。假设从数据到标签都是由函数 所生成的,但是数据产生过程中具有相对独立的白噪声。有一些样本内的数据,如给出的

x 1 ,y 1 ),( x 2 ,y 2 ),···,( x n ,y n

如果数据本身具有一定的噪声,即 y i 是满足下面关系的随机变量

同样利用矩阵的语言,可以写成 y = Xw + ϵ ,其中 ϵ N (0 ,σ 2 ),是独立的白噪声。因为看不到没有噪声的数据,所以只能通过带有噪声的数据得到新的逼近值

显然,这个新的逼近函数在样本内的误差函数为

如果选择平方和作为损失函数,则有 。当抽样选取样本点时,可以计算期望,即

这就是在线性回归算法中样本内的期望损失函数。通过该表达式可以看到,当数据 n 增加时,误差增加;当特征 k 增加时,误差减少。

下面考虑在样本外的误差。对于任何随机的一组数据,其中

这里的噪声 ϵ ′和样本内的噪声 ϵ 是独立的。逼近函数和真实函数的损失函数为

这就是机器学习线性回归样本外的损失函数。比较样本内的损失函数和样本外的损失函数,可以发现,随着样本点的增加,样本内的损失函数在增加,而样本外的损失函数在减少。一般来讲,给定一组数据集合 D ,可以学习到的最佳假设记为 f D x )。如果真实函数为 f x ),那么它们之间的差 f x )- f D x )则是一个随着 D 变化而变化的量。如果针对所有的 D 求均值,且记为

那么,其样本外的损失函数可以得到分解,即

其中,第一项描述了方差,第二项描述了误差。方差描述的是学习到的函数对于样本的敏感程度,而误差反映了学习的平均水平对于原始函数的偏离程度。一般情况下,随着样本点的增加,方差会增加,误差会减少。假设空间的复杂程度也有影响,当空间的自由度增加时,方差会增加,误差会减少;相反,自由度减少时,方差会减少,但误差会增加。 nbe4/8BhmsyL0eeS9W0+WjCXvNx8sPoy7AdTyIVPKBfW4DBWYpFSZkjYrLLB1AlG

点击中间区域
呼出菜单
上一章
目录
下一章
×