购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.3 模型的训练过程

模型的训练过程是指模型在提出后,根据样本和风险函数,从而求出模型参数的过程。如2.1.1节所述,在提出模型之后,还需要根据风险函数最小求解模型的参数。因此,模型的训练过程实际上是提出风险函数、求解优化问题的过程。本节将介绍风险函数的3种形式,并简要地列举求解参数的方法。

2.3.1 风险函数

1.最小二乘法

在2.1节中,我们使用最小二乘法作为训练模型的方法,其风险函数的形式为最小二乘,如式(2.14)所示:

善于思考的读者可能会存在疑问,为什么要选择 作为模型的风险函数呢?这是因为最小二乘法是线性最优无偏估计。

首先什么是无偏估计?如果点估计 是实际数 θ 的无偏估计,则满足: 。对线性回归而言,我们用 ω LSE =( X T X ) −1 X T y 去估计 ω True ,由于:

E ( ω LSE )= E [( X T X ) −1 X T y ]

因为 y = True + ε ,在一般情况下,噪声项 ε ~ N (0, σ 2 ),于是上式可写作:

由于 X 是常量,常数的期望等于自身,且( X T X ) −1 X T X =1,噪声项的均值一般为 E ( ε )= 0 ,所以:

所以 ω LSE ω True 的无偏估计。

所谓有效性,是指在 θ 的无偏估计 中,若 ,则称估计 的有效性大于 。现证明 ω LSE 的有效性是所有无偏估计中最高的:

由于 E ( ω LSE )= ω True ,所以在所有 ω True 的无偏估计中,应满足:

ω unbias =[( X T X ) −1 X T + C ] y

直观地看出,若常数项 C ≠0,则必有Var( ω unbias )>Var( ω LSE ),因此, ω LSE 是所有无偏估计中最有效的估计。综上,最小二乘法是线性回归中的最优无偏估计。

2.极大似然法

极大似然法(MLE)估计参数是基于“最有可能出现”的思想的方法。举个例子,假设有2个盒子,其中一个盒子中有99个黑球、1个白球;另一个盒子中有99个白球、1个黑球。已知某人摸出了一个黑球,读者认为该黑球来自于哪个盒子?

显然,人们一般选择前者。推广到机器学习中,假设有一个个体为( x i , y i ),在参数为 ω 1 ,特征取值为 x i 的条件下, y i 出现的概率为 P ( y i | ω 1 , x i ),其是一个条件概率;在参数为 ω 2 时, y i 出现的概率为 P ( y i | ω 2 , x i ),假如 P ( y i | ω 1 , x i )> P ( y i | ω 2 , x i ),那么读者会选取哪个参数作为模型的参数呢?显然选取 ω 1 。一般情况下,假设有 m 个个体构成的样本( x i , y i ),其中 i ∈(1,2,…, m ),令:

简记为:

L ( ω )为似然函数。显然,为了取得最优的参数估计量,要使似然函数的值最大,即:

我们通常对似然函数取自然对数,将乘法转化为加法,即:

极大似然法的另一个问题是 P ( y i | ω , x i )如何求取?实际上,不同的机器学习模型中对应的 P ( y i | ω , x i )的表达式亦不同。例如逻辑回归时, y i 服从伯努利分布;线性回归时服从正态分布。下面以线性回归为例,说明 y i 为何服从正态分布。

在线性回归中,每一个个体的理论值为:

y i = ω 1 x i + ω 0 + ε i

对于每一个 ε i , i ∈(1,2,…, m ),由于抽样是随机的,则应有 ε i 相互独立。在大样本情况下,随机项应满足正态分布,并且 E ( ε i )=0:

其中, σ 2 为噪声项 ε 的方差。在线性回归中,预测值为:

从而:

将式(2.17)代入式(2.16)中可得:

因为 y i 为观测值,实际上 ,所以 可以写成 P ( y i | ω , x i )。

因此在线性回归中:

即在同一 x i , ω 下, y i 满足正态分布。

*3.极大后验假设(MAP)与最小描述长度法

假设同样有一个容量为 m 的样本( x i , y i ), i ∈(1,2,…, m )。区别于极大似然法的似然函数,极大后验假设是找到参数 ω MAP P ( ω , x i | y i )最大:

根据贝叶斯公式:

由于分母项 P ( y i )与参数无关,所以对式(2.18)而言可以忽略:

P ( ω , x i | y i )= P ( y i | ω , x i ) P ( ω , x i )

代入式(2.18)可得:

上式为极大后验假设的一般方法。结合编码长度的概念,我们引入MAP的另一种表达方式。

最佳编码长度: 香农提出,对一个事件的最优编码长度为:

L ( X )=−log 2 P ( X )

例如,投掷一枚均匀硬币,设事件 X “出现正面”的最优编码长度为 =1 b(bit)。也就是说,在不影响其他事件的情况下,可以用一位二进制数0或1表示。例如0代表正面,1代表反面。

再如,投掷一个骰子,事件 X “出现6”的最优编码长度为 。也就是说可以用3个二进制数表示事件 X ,如用110代表“出现6”。

从上述例子中也可以看出,事件 X 出现的概率 P ( X )越低,即事件不确定度越大,所用的编码长度越大。当 P ( X )=1时,事件 X 为确定事件(概率为1),此时可不需要编码。

将式(2.19)中的概率替换为编码长度,可以得到极大后验假设法的另一种表达形式,即选取参数 ω MAP ,使得:

注意,式(2.20)只是式(2.19)的另一种表达形式。为了取得最优的参数,应该让 P ( ω , x i | y i )的值总体最大,即不确定性最小,编码长度最小,因此式(2.20)亦称为最小描述法。式(2.20)在编码领域有深远的意义,在此不再赘述。

本节介绍了3种常见的风险函数,其原理如表2.5所示。

表2.5 3种风险函数

机器学习的发展是不断向前的,以上3种风险函数并非全部。随着数学、信息论与机器学习的深度融合,相信学者们会提出更加高效的风险函数。

说明: 带*的内容为扩展内容,读者可根据需要选择阅读。

2.3.2 参数寻优方法简介

无论哪种风险函数,为了求解模型的参数,均需要找到风险函数的极大或极小值。因此,参数求解的问题可以视为最优化问题。在优化理论中,求解最优化问题的方法称为参数寻优方法。

在2.1.2节中,可以直接得出优化问题的最优解: ω =( X T X ) −1 X T y 。但在一般情况下,优化问题并没有解析解。例如在 的情况下,便不能直接得出解析解。此时,必须用数值逼近的方法才能找出风险函数 c ( ω )最值点。常见的参数寻优方法如表2.6所示,详细内容会在第5章介绍。

表2.6 常见的参数寻优方法 qrXracpcfUxiBOdy5kqfwFfeoSK27/EUnHcfFCTbi1/7bNI297omG80yrCxsEuaC

点击中间区域
呼出菜单
上一章
目录
下一章
×