统计领域为我们提供了很多工具来实现机器学习目标,不仅可以解决训练集上的任务,还可以泛化。基本的概念如参数估计、偏差和方差,对于正式地刻画泛化、欠拟合和过拟合都非常有帮助。
点估计试图为一些感兴趣的量提供单个最优预测。一般情况下,感兴趣的量可以是单个参数,或是某些参数模型中的一个向量参数,例如线性回归中的权重,但是也有可能是整个函数。
为了区分参数估计和真实值,我们习惯将参数
θ
的点估计表示为
。
令{ x (1) …, x ( m ) }是 m 个独立同分布的数据点。点估计(Point Estimator)或统计量(Statistics)是这些数据的任意函数:
这个定义不要求 g 返回一个接近真实 θ 的值,或者 g 的值域恰好是 θ 的允许取值范围。点估计的定义非常宽泛,给了估计量的设计者极大的灵活性。虽然几乎所有的函数都可以称为估计量,但是一个良好的估计量的输出会接近生成训练数据的真实参数 θ 。
现在,我们采取频率派在统计上的观点。换言之,我们假设真实参数
θ
是固定但未知的,而点估计
是数据的函数。由于数据是随机过程采样出来的,数据的任何函数都是随机的。因此,
是一个随机变量。点估计也可以指输入和目标变量之间关系的估计。我们将这种类型的点估计称为函数估计。
有时我们会关注函数估计(或函数近似),试图从输入向量
x
预测变量
y
。假设有一个函数
f
(
x
)表示
y
和
x
之间的近似关系,例如假设
y
=
f
(
x
)+
ϵ
,其中
ϵ
是
y
中未能从
x
预测的一部分。在函数估计中,我们感兴趣的是用模型估计去近似
f
,或者估计
。函数估计和估计参数
θ
是一样的,函数估计
是函数空间中的一个点估计。线性回归和多项式回归都既可以被解释为估计参数
w
,又可以被解释为估计从
x
到
y
的函数映射
。现在我们回顾点估计最常研究的性质,并探讨这些性质说明了估计的哪些特点。
估计的偏差被定义为:
其中期望作用在所有数据(看作是从随机变量采样得到的)上,
θ
是用于定义数据生成分布的真实值。如果
,那么估计量
被称为是无偏(Unbiased)的,这意味着
。如果
,那么估计量
被称为是渐近无偏(Asymptotically Unbiased)的,这意味着
。
1. 伯努利分布
考虑一组服从均值为 θ 的伯努利分布的独立同分布的样本{ x (1) …, x ( m ) }:
这个分布中,参数 θ 的常用估计量是训练样本的均值:
判断这个估计量是否有偏,我们将公式2.30代入公式2.28:
因为
,所以我们称估计
是无偏的。
2. 均值的高斯分布估计
现在,考虑一组独立同分布的样本{ x (1) …, x ( m ) }服从高斯分布 p ( x ( i ) )= N ( x ( i ) ; µ , σ 2 ),其中 i ∈{1…, m }。回顾高斯概率密度函数如下:
高斯均值参数的常用估计量被称为样本均值(Sample Mean):
判断样本均值是否有偏,我们再次计算它的期望:
因此,我们发现样本均值是高斯均值参数的无偏估计量。
3. 高斯分布方差估计
我们比较高斯分布方差参数 σ 2 的两个不同估计,探讨是否有一个是有偏的。我们考虑的第一个方差估计被称为样本方差(Sample Variance):
其中
是样本均值。则方差的偏估计:
我们首先估计项
:
我们可以得出
的偏差是−
σ
2
/
m
,因此样本方差是有偏估计。
4. 无偏样本方差估计
公式如下:
对于无偏样本方差估计,正如名字所言,这个估计是无偏的,换言之,我们会发现
:
我们有两个估计量:一个是有偏的,另一个是无偏的。尽管无偏估计总是令人满意,但它并不总是“最好”的估计。我们将看到,经常会使用其他具有重要性质的有偏估计。
我们有时会考虑估计量的另一个性质,即它作为数据样本的函数,期望的变化程度是多少。正如可以计算估计量的期望来决定它的偏差,我们也可以计算它的方差。估计量的方差(Variance):
其中随机变量是训练集。另外,方差的平方根被称为标准差(Standard Error),记作
。
估计量的方差或标准差告诉我们,当独立地从潜在的数据生成过程中重采样数据集时,如何期望估计的变化。正如我们希望估计的偏差较小,我们也希望其方差较小。当我们使用有限的样本计算任何统计量时,真实参数的估计都是不确定的,在这个意义下,从相同的分布得到其他样本时,它们的统计量也会不一样。任何方差估计量的期望程度是我们想量化的误差的来源。
均值的标准差被记作:
其中
σ
2
是样本
x
(
i
)
的真实方差。标准差通常被记作
σ
。可惜,样本方差的平方根和方差无偏估计的平方根都不是标准差的无偏估计。这两种计算方法都倾向于低估真实的标准差,但仍用于实际中。相较而言,方差无偏估计的平方根较少被低估。对于较大的
m
,这种近似非常合理。均值的标准差在机器学习实验中非常有用。我们通常用测试集样本的误差均值来估计泛化误差。测试集中样本的数量决定了这个估计的精确度。中心极限定理告诉我们均值会接近一个高斯分布,我们可以用标准差计算出真实期望落在选定区间的概率。例如,以均值
为中心的95%置信区间是:
以上区间是基于均值
和方差
的高斯分布。在机器学习实验中,我们通常说算法
A
比算法
B
好,是指算法
A
的误差的95%置信区间的上界小于算法
B
的误差的95%置信区间的下界。
伯努利分布示例
我们再次考虑从伯努利分布(回顾
)中独立同分布采样出来的一组样本{
x
(1)
…,
x
(
m
)
}。这次关注估计
的方差:
估计量方差的下降速率是关于数据集样本数目 m 的函数。这是常见的估计量的普遍性质。