机器学习原理与Python实践最新章节_卓泽滨著

5.1　风险函数

本节将在2.3.1节内容的基础上进一步介绍3种风险函数的原理。

5.1.1　最小二乘法

根据2.3.1节的介绍，我们知道，最小二乘法是线性回归中最有效的无偏估计。从数学公式上看，最小二乘法旨在选择未知的参数，使得模型的预测值与实际值之间的方差达到最小：

其中， m 为样本容量。从概率论的角度来解释，实际上，最小二乘法与极大似然法类似，也是基于概率最大的角度寻找参数的，证明如下。假设噪声 ε _i ~ N (0, σ ² )：

在 ω , x _i 确定的情况下，观测量 y _i 的随机因素来源于噪声项，因此 P ( y _i | ω , x _i )= P ( ε _i )，通过极大似然估计：

对上式取自然对数可得：

由于 σ 属于常数，于是，最大化似然函数可看成：

注意，代入上式即可得到最小二乘的形式。因此最小二乘法是噪声服从正态分布的一种特殊情况，本质上也是为了找寻 P ( y _i | ω , x _i )的最大化。从这个角度来说，证明了极大似然法求得的参数 ω _MLE 也是线性回归中的最优无偏估计。

5.1.2　极大似然法

极大似然法可以从概率论的角度直观解释，即选择参数 ω _MLE ，使得最大。但从另一个角度来说，极大似然法本质上是相对熵的最小化过程。为了便于读者理解，这里有必要介绍信息论中有关熵的概念。

1．信息熵

2.3.1节曾经谈到一个事件的最优编码长度为：

L ( X )=−log ₂ P ( X )

对于一个随机变量 x ，其取值是随机的。如果 x 为连续变量，则可以用概率密度函数 P ( x )来表示；如果为离散变量，则用分布列表示。应用编码长度的概念，可以将随机变量 x 的编码长度用平均最优编码长度来表示：

例如，有一枚具有8个面的骰子，其结果点数是一个离散随机变量，平均最优编码长度为：

也就是说，结果点数可以用三位二进制数表示，如(111) ₂ 表示8。在通信领域，称为随机变量 x 的信息量，也叫信息熵：

实际上，期望编码长度为信息熵 H ( x )的一种信道编码解释，信息熵的定义不止如此。例如，信息熵在热力学中表示混乱程度。但另一种常见的解释是不确定性公理化解释，即信息熵越大，不确定性越大。

假设 p ( x ), q ( x )是随机变量 x 取值的两个概率密度函数，则 q ( x )已知，想知道 p ( x )需要的信息熵为：

称 D _KL ( p || q )为分布 p ( x )相对 q ( x )的相对熵或KL散度，可以很容易地证明两个分布的KL散度 D _KL ( p || q )≥0。在上式中，第一项为在 p ( x )分布下的平均编码长度，第二项为 q ( x )的编码长度在分布 p ( x )中的均值，相对熵即为两个编码长度之差。或者说，度量使用基于 q ( x )的编码来表示来自 p ( x )的样本平均所需的额外的比特数，即两个分布的不相似度。可以看出，如果 p ( x ), q ( x )完全相同，则KL散度为 D _KL ( p || q )=0。

2．极大似然法的相对熵解释

对于一个机器学习问题，记特征向量为 x ，模型的参数为 ω ，因变量为 y 。模型的理想参数为 ω ，应使得预测分布 p ( y | ω , x )接近实际分布 p ( y | x )。换句话说，参数 ω 要让 D _KL ( p ( y | x )|| p ( y | ω , x ))接近0或取得最小值。为了方便表述，用 p 表示数据的观测分布 p ( y | x )，用 q 表示模型的预测分布 p ( y | ω , x )，用 p _i 表示 p ( y _i | x _i )，用 q _i 表示 p ( y _i | ω , x _i )，于是目标转换为找到一个参数 ω ，使得：

由于 H ( p ), p _i 与参数 ω 无关，于是上式可化为：

由此可见，KL散度最小与极大似然法是等价的。

*3．极大似然与Fisher信息量

通过前面的分析，我们知道最小二乘法属于极大似然法的特殊情况。极大似然从概率论来看是要找到参数 ω ，使得 p ( y _i | ω , x _i )总体最大，从信息论的角度看，是要让相对熵最小。这里只是主观地分析极大似然的合理性，下面结合Fisher信息量讨论极大似然法的优越性。

我们知道，一个函数在某点的导数表示函数在该点的斜率。斜率越大，表明函数越陡峭，极值也就越容易被区分。因此，对数似然函数 l ( ω )=ln L ( ω )取得最小值的难易程度，可以用函数的导数来度量。为此定义score函数如下：

注意： l ( ω )是 x , ω 的函数，实际上应写作 l ( x , ω )， l ( ω )是简化写法， L ( ω )亦然。

很明显，函数 S ( x , ω )是一个列向量，其对 x 的均值为：

对于任意参数 ω ，由于概率的总和为1，所以∫ L ( x , ω )d x =1，因此score函数对 x 均值（期望）为：

鉴于score函数的均值恒为 0 ，因此无法有效衡量 L ( x , ω )对 ω 的斜率。为了衡量不同参数 ω 下似然函数的波动情况，可以考虑使用score平方的均值来衡量，于是定义Fisher信息量矩阵如下：

信息量矩阵中的每个元素( i , j )为：

其中， ω ⁱ 表示向量 ω 的第 i 个元素， i ∈（1，2，…, n ）。如果似然函数对于参数 ω 存在连续的二阶偏导数，为了方便表示，这里把二阶偏导矩阵记为 l ''( x , ω )，由于：

对于第一项，结合∫ L ( x , ω )d x =1，所以：

所以：

因此，Fisher信息量也可以用似然函数的二阶导来表示。在高等数学中，二阶导数表示凹度。很容易证明 F ( ω )≥ 0 _nxn ，因此Fisher信息量表示似然函数在 ω 处的起伏程度。如果 F ( ω _True )值越大，则意味着似然函数在参数真实值 ω _True （最值点）处起伏越大。换句话说，似然函数对参数 ω 越敏感，那么就越容易找到真实值或逼近真实值的点。反之，似然函数在参数 ω _True 越平缓，其值对 ω 不敏感，那么就很难找到逼近于 ω _True 的 ω 。

记极大似然法得出的参数为 ω _MLE 。由于最值点或极值点的导数为0，所以一般有。根据泰勒公式，将 S ( x , ω _MLE )= 0 表示为：

把 ω _True 代入上式，整理可得：

其中， m 为样本容量，在 m →∞时，可忽略泰勒余项，于是：

由于 l ( x , ω _True )本为累加形式，所以根据大数定律：

根据中心极限定理：

同时：

于是，藉由极大似然估计得出的参数 ω _MLE 应满足：

这说明，当样本容量足够大时，极大似然估计得到的参数 ω _MLE 服从正态分布，根据中心极限定律， ω _MLE 的均值为 ω _True ，因此也称 ω _MLE 为 ω _True 的渐进无偏估计，其协方差矩阵为。

根据Cramer-Rao不等式，一个无偏估计的方差存在下界，即：

因此，渐进无偏估计 ω _MLE 为参数真实值 ω _True 的最有效估计。

综上所述，对于极大似然估计，得出的参数 ω _MLE 是真实参数 ω _True 渐进无偏估计且为无偏估计中的最有效估计。同时，在 ω _MLE 估计下，取得最大值、KL散度和相对熵的最小值。

5.1.3　极大后验假设法

2.3.1节曾经简略地介绍了极大后验假设，其目的是找到一个 ω _MAP ，使得 P ( ω , x _i | y _i )总体最大。根据贝叶斯定理，可转化为：

同样，定义函数PL( x , ω )：

对函数Pl( x , ω )取自然对数：

注意，上式第一项为似然函数，因此极大后验假设实际上是最大化：

就像Ridge回归与普通线性回归一样，上式相当于给似然函数增添了补偿项，因此也叫Pl( x , ω )为补偿似然函数（Penalized max-likelihood function），将极大后验假设称为补偿极大似然法。

令Pl( x , ω )对 ω 求偏导并令其为0，可得：

由于上述等式右边第二项不是一个常数，因此根据该方程求解得出的参数。而 ω _MLE 是参数真实值的渐进无偏估计，所以 ω _MAP 必然不是无偏的。

在3.3.4节中我们谈到，引入补偿项是为了防止过拟合。在这里也是如此，正因为MLE是渐进无偏且最有效的估计，在少数样本的情况下得到的分布 P ( y | ω , x )过分依赖少量的、无法正确反映总体的样本，进而导致无法接近真实的分布 P ( y | ω , x )。通过引入补偿项，可以防止这种情况发生。但在大样本中，MAP的效果往往不如MLE，这也是引入补偿项使得最优解 ω _MAP 偏离真实值的原因。

5.1.4　基于信息论的风险函数

由于最小二乘法是极大似然法的特殊情况，所以无论最小二乘法还是极大似然法，其本质都是为了令KL散度或相对熵最小。除了相对熵以外，度量相似度的尺度还有交叉熵（Cross Entropy）：

用 p 表示 p ( y | x )，用 q 表示 p ( y | ω , x )，结合相对熵的定义，用相对熵表示交叉熵：

H ( p , q )= D _KL ( p || q )+ H ( p )

在神经网络、决策树中，有时候采用交叉熵作为风险函数。因为 H ( p )与参数无关，所以最小化交叉熵也是最小化相对熵的过程，也属于极大似然法的范畴。

除此之外，在深度学习中，生成对抗网络（GAN）经常采用另一种风险函数，定义JS散度为：

JS散度区别于KL散度，它可以作为距离度量，因为 D _JS ( p || q )= D _JS ( q || p )，而 D _KL ( p || q )≠ D _KL ( q || p )。换句话说，JS散度具有交换性，而KL散度直观上是一个距离，不具有交换性。另外，KL散度在 q →0时趋于无穷大，容易导致内存溢出（overflow）。

5.1 风险函数

5.1.1 最小二乘法

5.1.2 极大似然法