本节将在2.3.1节内容的基础上进一步介绍3种风险函数的原理。
根据2.3.1节的介绍,我们知道,最小二乘法是线性回归中最有效的无偏估计。从数学公式上看,最小二乘法旨在选择未知的参数,使得模型的预测值与实际值之间的方差达到最小:
其中, m 为样本容量。从概率论的角度来解释,实际上,最小二乘法与极大似然法类似,也是基于概率最大的角度寻找参数的,证明如下。假设噪声 ε i ~ N (0, σ 2 ):
在 ω , x i 确定的情况下,观测量 y i 的随机因素来源于噪声项,因此 P ( y i | ω , x i )= P ( ε i ),通过极大似然估计:
对上式取自然对数可得:
由于 σ 属于常数,于是,最大化似然函数可看成:
注意
,代入上式即可得到最小二乘的形式。因此最小二乘法是噪声服从正态分布的一种特殊情况,本质上也是为了找寻
P
(
y
i
|
ω
,
x
i
)的最大化。从这个角度来说,证明了极大似然法求得的参数
ω
MLE
也是线性回归中的最优无偏估计。
极大似然法可以从概率论的角度直观解释,即选择参数
ω
MLE
,使得
最大。但从另一个角度来说,极大似然法本质上是相对熵的最小化过程。为了便于读者理解,这里有必要介绍信息论中有关熵的概念。
2.3.1节曾经谈到一个事件的最优编码长度为:
L ( X )=−log 2 P ( X )
对于一个随机变量 x ,其取值是随机的。如果 x 为连续变量,则可以用概率密度函数 P ( x )来表示;如果为离散变量,则用分布列表示。应用编码长度的概念,可以将随机变量 x 的编码长度用平均最优编码长度来表示:
例如,有一枚具有8个面的骰子,其结果点数是一个离散随机变量,平均最优编码长度为:
也就是说,结果点数可以用三位二进制数表示,如(111)
2
表示8。在通信领域,称
为随机变量
x
的信息量,也叫信息熵:
实际上,期望编码长度
为信息熵
H
(
x
)的一种信道编码解释,信息熵的定义不止如此。例如,信息熵在热力学中表示混乱程度。但另一种常见的解释是不确定性公理化解释,即信息熵越大,不确定性越大。
假设 p ( x ), q ( x )是随机变量 x 取值的两个概率密度函数,则 q ( x )已知,想知道 p ( x )需要的信息熵为:
称
D
KL
(
p
||
q
)为分布
p
(
x
)相对
q
(
x
)的相对熵
或KL散度,可以很容易地证明两个分布的KL散度
D
KL
(
p
||
q
)≥0。在上式中,第一项为
在
p
(
x
)分布下的平均编码长度,第二项为
q
(
x
)的编码长度在分布
p
(
x
)中的均值,相对熵即为两个编码长度之差。或者说,度量使用基于
q
(
x
)的编码来表示来自
p
(
x
)的样本平均所需的额外的比特数,即两个分布的不相似度。可以看出,如果
p
(
x
),
q
(
x
)完全相同,则KL散度为
D
KL
(
p
||
q
)=0。
对于一个机器学习问题,记特征向量为 x ,模型的参数为 ω ,因变量为 y 。模型的理想参数为 ω ,应使得预测分布 p ( y | ω , x )接近实际分布 p ( y | x )。换句话说,参数 ω 要让 D KL ( p ( y | x )|| p ( y | ω , x ))接近0或取得最小值。为了方便表述,用 p 表示数据的观测分布 p ( y | x ),用 q 表示模型的预测分布 p ( y | ω , x ),用 p i 表示 p ( y i | x i ),用 q i 表示 p ( y i | ω , x i ),于是目标转换为找到一个参数 ω ,使得:
由于 H ( p ), p i 与参数 ω 无关,于是上式可化为:
由此可见,KL散度最小与极大似然法是等价的。
通过前面的分析,我们知道最小二乘法属于极大似然法的特殊情况。极大似然从概率论来看是要找到参数 ω ,使得 p ( y i | ω , x i )总体最大,从信息论的角度看,是要让相对熵最小。这里只是主观地分析极大似然的合理性,下面结合Fisher信息量讨论极大似然法的优越性。
我们知道,一个函数在某点的导数表示函数在该点的斜率。斜率越大,表明函数越陡峭,极值也就越容易被区分。因此,对数似然函数 l ( ω )=ln L ( ω )取得最小值的难易程度,可以用函数的导数来度量。为此定义score函数如下:
注意: l ( ω )是 x , ω 的函数,实际上应写作 l ( x , ω ), l ( ω )是简化写法, L ( ω )亦然。
很明显,函数 S ( x , ω )是一个列向量,其对 x 的均值为:
对于任意参数 ω ,由于概率的总和为1,所以∫ L ( x , ω )d x =1,因此score函数对 x 均值(期望)为:
鉴于score函数的均值恒为 0 ,因此无法有效衡量 L ( x , ω )对 ω 的斜率。为了衡量不同参数 ω 下似然函数的波动情况,可以考虑使用score平方的均值来衡量,于是定义Fisher信息量矩阵如下:
信息量矩阵中的每个元素( i , j )为:
其中,
ω
i
表示向量
ω
的第
i
个元素,
i
∈(1,2,…,
n
)。如果似然函数对于参数
ω
存在连续的二阶偏导数,为了方便表示,这里把二阶偏导矩阵
记为
l
''(
x
,
ω
),由于:
对于第一项,结合∫ L ( x , ω )d x =1,所以:
所以:
因此,Fisher信息量也可以用似然函数的二阶导来表示。在高等数学中,二阶导数表示凹度。很容易证明 F ( ω )≥ 0 nxn ,因此Fisher信息量表示似然函数在 ω 处的起伏程度。如果 F ( ω True )值越大,则意味着似然函数在参数真实值 ω True (最值点)处起伏越大。换句话说,似然函数对参数 ω 越敏感,那么就越容易找到真实值或逼近真实值的点。反之,似然函数在参数 ω True 越平缓,其值对 ω 不敏感,那么就很难找到逼近于 ω True 的 ω 。
记极大似然法得出的参数为
ω
MLE
。由于最值点或极值点的导数为0,所以一般有
。根据泰勒公式,将
S
(
x
,
ω
MLE
)=
0
表示为:
把 ω True 代入上式,整理可得:
其中, m 为样本容量,在 m →∞时,可忽略泰勒余项,于是:
由于 l ( x , ω True )本为累加形式,所以根据大数定律:
根据中心极限定理:
同时:
于是,藉由极大似然估计得出的参数 ω MLE 应满足:
这说明,当样本容量足够大时,极大似然估计得到的参数
ω
MLE
服从正态分布,根据中心极限定律,
ω
MLE
的均值为
ω
True
,因此也称
ω
MLE
为
ω
True
的渐进
无偏估计,其协方差矩阵为
。
根据Cramer-Rao不等式,一个无偏估计的方差存在下界,即:
因此,渐进无偏估计 ω MLE 为参数真实值 ω True 的最有效估计。
综上所述,对于极大似然估计,得出的参数
ω
MLE
是真实参数
ω
True
渐进无偏估计且为无偏估计中的最有效估计。同时,在
ω
MLE
估计下,
取得最大值、KL散度和相对熵的最小值。
2.3.1节曾经简略地介绍了极大后验假设,其目的是找到一个 ω MAP ,使得 P ( ω , x i | y i )总体最大。根据贝叶斯定理,可转化为:
同样,定义函数PL( x , ω ):
对函数Pl( x , ω )取自然对数:
注意,上式第一项为似然函数,因此极大后验假设实际上是最大化:
就像Ridge回归与普通线性回归一样,上式相当于给似然函数增添了补偿项,因此也叫Pl( x , ω )为补偿似然函数(Penalized max-likelihood function),将极大后验假设称为补偿极大似然法。
令Pl( x , ω )对 ω 求偏导并令其为0,可得:
由于上述等式右边第二项不是一个常数,因此根据该方程求解得出的参数
。而
ω
MLE
是参数真实值的渐进无偏估计,所以
ω
MAP
必然不是无偏的。
在3.3.4节中我们谈到,引入补偿项是为了防止过拟合。在这里也是如此,正因为MLE是渐进无偏且最有效的估计,在少数样本的情况下得到的分布 P ( y | ω , x )过分依赖少量的、无法正确反映总体的样本,进而导致无法接近真实的分布 P ( y | ω , x )。通过引入补偿项,可以防止这种情况发生。但在大样本中,MAP的效果往往不如MLE,这也是引入补偿项使得最优解 ω MAP 偏离真实值的原因。
由于最小二乘法是极大似然法的特殊情况,所以无论最小二乘法还是极大似然法,其本质都是为了令KL散度或相对熵最小。除了相对熵以外,度量相似度的尺度还有交叉熵(Cross Entropy):
用 p 表示 p ( y | x ),用 q 表示 p ( y | ω , x ),结合相对熵的定义,用相对熵表示交叉熵:
H ( p , q )= D KL ( p || q )+ H ( p )
在神经网络、决策树中,有时候采用交叉熵作为风险函数。因为 H ( p )与参数无关,所以最小化交叉熵也是最小化相对熵的过程,也属于极大似然法的范畴。
除此之外,在深度学习中,生成对抗网络(GAN)经常采用另一种风险函数,定义JS散度为:
JS散度区别于KL散度,它可以作为距离度量,因为 D JS ( p || q )= D JS ( q || p ),而 D KL ( p || q )≠ D KL ( q || p )。换句话说,JS散度具有交换性,而KL散度直观上是一个距离,不具有交换性。另外,KL散度在 q →0时趋于无穷大,容易导致内存溢出(overflow)。