购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.5 最大似然估计

之前,我们已经看过常用估计的定义,并分析了它们的性质。但是这些估计是从哪里来的呢?我们希望有些准则可以让我们从不同模型中得到特定函数作为好的估计,而不是猜测某些函数可能是好的估计,然后分析其偏差和方差。

最常用的准则是最大似然估计。

考虑一组含有 m 个样本的数据集 X ={ x (1) …, x ( m ) },独立地由未知的真实数据生成分布 p data ( x )。

p model ( x ; θ )是一族由 θ 确定在相同空间上的概率分布。换言之, p model ( x ; θ )将任意输入 x 映射到实数来估计真实概率 p data ( x )。

θ 的最大似然估计被定义为:

多个概率的乘积会因很多原因不便于计算。例如,计算中很可能会出现数值下溢。为了得到一个便于计算的等价优化问题,我们观察到似然对数不会改变其argmax,但是将乘积转化成了便于计算的求和形式:

因为当我们重新缩放代价函数时,argmax不会改变,我们可以除以 m 得到和训练数据经验分布 相关的期望作为准则:

一种解释最大似然估计的观点是将它看作最小化训练集上的经验分布 和模型分布之间的差异,两者之间的差异程度可以通过KL散度度量。KL散度被定义为:

左边一项仅涉及数据生成过程,和模型无关。这意味着当我们训练模型最小化KL散度时,我们只需要最小化:

当然,这和公式2.46中的最大化是相同的。

最小化KL散度其实就是在最小化分布之间的交叉熵。许多作者使用术语“交叉熵”特定表示伯努利或softmax分布的负对数似然,但那是用词不当。任何一个由负对数似然组成的损失都是定义在训练集上的经验分布和定义在模型上的概率分布之间的交叉熵。例如,均方误差是经验分布和高斯模型之间的交叉熵。

我们可以将最大似然看作是使模型分布尽可能和经验分布 相匹配的尝试。理想情况下,我们希望匹配真实的数据生成分布 p data ,但我们没法直接知道这个分布。

虽然最优 θ 在最大化似然或是最小化KL散度时是相同的,但目标函数值是不一样的。在软件中,我们通常将两者都称为最小化代价函数。因此,最大化似然变成了最小化负对数似然(NLL),或者等价的是最小化交叉熵。将最大化似然看作最小化KL散度在这个情况下是有帮助的,因为已知KL散度最小值是零。当 x 取实数时,负对数似然是负值。

2.5.1 条件对数似然和均方误差

最大似然估计很容易扩展到估计条件概率 P ( y | x ; θ ),从而给定 x 预测 y 。实际上,这是最常见的情况,因为这构成了大多数监督学习的基础。如果 X 表示所有的输入, Y 表示我们观测到的目标,那么条件最大似然估计是:

如果假设样本是独立同分布的,那么这可以分解成:

线性回归作为最大似然

线性回归可以被看作是最大似然过程,将线性回归作为学习从输入 x 映射到输出 的算法。从 x 的映射选自最小化均方误差。现在,我们以最大似然估计的角度审视线性回归。我们现在希望模型能够得到条件概率 p ( y | x ),而不只是得到一个单独的预测 。想象有一个无限大的训练集,我们可能会观测到几个训练样本有相同的输入 x ,但是有不同的 y 。现在学习算法的目标是拟合分布 p ( y | x )到和 x 相匹配的不同的 y 。为了得到我们之前推导出的相同的线性回归算法,我们定义 ( x ; w ), σ 2 )。函数 预测高斯的均值。在这个例子中,我们假设方差是用户固定的某个常量 σ 2 。这种函数形式 p ( y | x )会使得最大似然估计得出和之前相同的学习算法。由于假设样本是独立同分布的,条件对数似然如下:

其中 是线性回归在第 i 个输入 x ( i ) 上的输出, m 是训练样本的数目。对比均方误差和对数似然:

我们立刻可以看出最大化关于 w 的对数似然和最小化均方误差会得到相同的参数估计 w 。但是对于相同的最优 w ,这两个准则有着不同的值。这验证了MSE可以用于最大似然估计。正如我们即将看到的,最大似然估计有几个理想的性质。

2.5.2 最大似然的性质

最大似然估计最吸引人的地方在于,它被证明当样本数目 m →∞时,就收敛率而言是最好的渐近估计。在合适的条件下,最大似然估计具有一致性,意味着训练样本数目趋向于无穷大时,参数的最大似然估计会收敛到参数的真实值。这些条件是:

(1)真实分布 p data 必须在模型族 p model (·; θ )中,否则没有估计可以还原 p data

(2)真实分布 p data 必须刚好对应一个 θ 值,否则最大似然估计恢复出真实分布 p data 后,也不能决定数据生成过程使用哪个 θ

除了最大似然估计外,还有其他的归纳准则,其中许多共享一致估计的性质。然而,一致估计的统计效率(Statistic Efficiency)可能区别很大。有些一致估计可能会在固定数目的样本上获得一个较低的泛化误差,或者等价地,可能只需要较少的样本就能达到一个固定程度的泛化误差。

统计效率通常用于有参情况(Parametric Case)的研究中(例如线性回归)。在有参情况中,我们的目标是估计参数值(假设有可能确定真实参数),而不是函数值。一种度量我们和真实参数相差多少的方法是计算均方误差的期望,即计算 m 个从数据生成分布中出来的训练样本上的估计参数和真实参数之间差值的平方。有参均方误差估计随着 m 的增加而减少,当 m 较大时,Cramér-Rao下界(Rao,1945;Cramér,1946)表明不存在均方误差低于最大似然估计的一致估计。因为这些原因(一致性和统计效率),最大似然通常是机器学习中的首选估计。当样本数目小到会发生过拟合时,正则化策略(如权重衰减)可用于获得训练数据有限时方差较小的最大似然有偏版本。 cB1u/GTSdFt/6kbtCnE55HPVfqJTRW8AfAhE6Vbxvta8OFnqjSCnS67UfYyLuR+4

点击中间区域
呼出菜单
上一章
目录
下一章
×