模型的训练过程是指模型在提出后,根据样本和风险函数,从而求出模型参数的过程。如2.1.1节所述,在提出模型之后,还需要根据风险函数最小求解模型的参数。因此,模型的训练过程实际上是提出风险函数、求解优化问题的过程。本节将介绍风险函数的3种形式,并简要地列举求解参数的方法。
在2.1节中,我们使用最小二乘法作为训练模型的方法,其风险函数的形式为最小二乘,如式(2.14)所示:
善于思考的读者可能会存在疑问,为什么要选择
作为模型的风险函数呢?这是因为最小二乘法是线性最优无偏估计。
首先什么是无偏估计?如果点估计
是实际数
θ
的无偏估计,则满足:
。对线性回归而言,我们用
ω
LSE
=(
X
T
X
)
−1
X
T
y
去估计
ω
True
,由于:
E ( ω LSE )= E [( X T X ) −1 X T y ]
因为 y = Xω True + ε ,在一般情况下,噪声项 ε ~ N (0, σ 2 ),于是上式可写作:
由于 X 是常量,常数的期望等于自身,且( X T X ) −1 X T X =1,噪声项的均值一般为 E ( ε )= 0 ,所以:
所以 ω LSE 是 ω True 的无偏估计。
所谓有效性,是指在
θ
的无偏估计
、
中,若
,则称估计
的有效性大于
。现证明
ω
LSE
的有效性是所有无偏估计中最高的:
由于 E ( ω LSE )= ω True ,所以在所有 ω True 的无偏估计中,应满足:
ω unbias =[( X T X ) −1 X T + C ] y
直观地看出,若常数项 C ≠0,则必有Var( ω unbias )>Var( ω LSE ),因此, ω LSE 是所有无偏估计中最有效的估计。综上,最小二乘法是线性回归中的最优无偏估计。
极大似然法(MLE)估计参数是基于“最有可能出现”的思想的方法。举个例子,假设有2个盒子,其中一个盒子中有99个黑球、1个白球;另一个盒子中有99个白球、1个黑球。已知某人摸出了一个黑球,读者认为该黑球来自于哪个盒子?
显然,人们一般选择前者。推广到机器学习中,假设有一个个体为( x i , y i ),在参数为 ω 1 ,特征取值为 x i 的条件下, y i 出现的概率为 P ( y i | ω 1 , x i ),其是一个条件概率;在参数为 ω 2 时, y i 出现的概率为 P ( y i | ω 2 , x i ),假如 P ( y i | ω 1 , x i )> P ( y i | ω 2 , x i ),那么读者会选取哪个参数作为模型的参数呢?显然选取 ω 1 。一般情况下,假设有 m 个个体构成的样本( x i , y i ),其中 i ∈(1,2,…, m ),令:
简记为:
称 L ( ω )为似然函数。显然,为了取得最优的参数估计量,要使似然函数的值最大,即:
我们通常对似然函数取自然对数,将乘法转化为加法,即:
极大似然法的另一个问题是 P ( y i | ω , x i )如何求取?实际上,不同的机器学习模型中对应的 P ( y i | ω , x i )的表达式亦不同。例如逻辑回归时, y i 服从伯努利分布;线性回归时服从正态分布。下面以线性回归为例,说明 y i 为何服从正态分布。
在线性回归中,每一个个体的理论值为:
y i = ω 1 x i + ω 0 + ε i
对于每一个 ε i , i ∈(1,2,…, m ),由于抽样是随机的,则应有 ε i 相互独立。在大样本情况下,随机项应满足正态分布,并且 E ( ε i )=0:
其中, σ 2 为噪声项 ε 的方差。在线性回归中,预测值为:
从而:
将式(2.17)代入式(2.16)中可得:
因为
y
i
为观测值,实际上
,所以
可以写成
P
(
y
i
|
ω
,
x
i
)。
因此在线性回归中:
即在同一 x i , ω 下, y i 满足正态分布。
假设同样有一个容量为 m 的样本( x i , y i ), i ∈(1,2,…, m )。区别于极大似然法的似然函数,极大后验假设是找到参数 ω MAP 让 P ( ω , x i | y i )最大:
根据贝叶斯公式:
由于分母项 P ( y i )与参数无关,所以对式(2.18)而言可以忽略:
P ( ω , x i | y i )= P ( y i | ω , x i ) P ( ω , x i )
代入式(2.18)可得:
上式为极大后验假设的一般方法。结合编码长度的概念,我们引入MAP的另一种表达方式。
最佳编码长度: 香农提出,对一个事件的最优编码长度为:
L ( X )=−log 2 P ( X )
例如,投掷一枚均匀硬币,设事件
X
“出现正面”的最优编码长度为
=1 b(bit)。也就是说,在不影响其他事件的情况下,可以用一位二进制数0或1表示。例如0代表正面,1代表反面。
再如,投掷一个骰子,事件
X
“出现6”的最优编码长度为
。也就是说可以用3个二进制数表示事件
X
,如用110代表“出现6”。
从上述例子中也可以看出,事件 X 出现的概率 P ( X )越低,即事件不确定度越大,所用的编码长度越大。当 P ( X )=1时,事件 X 为确定事件(概率为1),此时可不需要编码。
将式(2.19)中的概率替换为编码长度,可以得到极大后验假设法的另一种表达形式,即选取参数 ω MAP ,使得:
注意,式(2.20)只是式(2.19)的另一种表达形式。为了取得最优的参数,应该让 P ( ω , x i | y i )的值总体最大,即不确定性最小,编码长度最小,因此式(2.20)亦称为最小描述法。式(2.20)在编码领域有深远的意义,在此不再赘述。
本节介绍了3种常见的风险函数,其原理如表2.5所示。
表2.5 3种风险函数
机器学习的发展是不断向前的,以上3种风险函数并非全部。随着数学、信息论与机器学习的深度融合,相信学者们会提出更加高效的风险函数。
说明: 带*的内容为扩展内容,读者可根据需要选择阅读。
无论哪种风险函数,为了求解模型的参数,均需要找到风险函数的极大或极小值。因此,参数求解的问题可以视为最优化问题。在优化理论中,求解最优化问题的方法称为参数寻优方法。
在2.1.2节中,可以直接得出优化问题的最优解:
ω
=(
X
T
X
)
−1
X
T
y
。但在一般情况下,优化问题并没有解析解。例如在
的情况下,便不能直接得出解析解。此时,必须用数值逼近的方法才能找出风险函数
c
(
ω
)最值点。常见的参数寻优方法如表2.6所示,详细内容会在第5章介绍。
表2.6 常见的参数寻优方法