机器学习原理与Python实践最新章节_卓泽滨著

2.3　模型的训练过程

模型的训练过程是指模型在提出后，根据样本和风险函数，从而求出模型参数的过程。如2.1.1节所述，在提出模型之后，还需要根据风险函数最小求解模型的参数。因此，模型的训练过程实际上是提出风险函数、求解优化问题的过程。本节将介绍风险函数的3种形式，并简要地列举求解参数的方法。

2.3.1　风险函数

1．最小二乘法

在2.1节中，我们使用最小二乘法作为训练模型的方法，其风险函数的形式为最小二乘，如式（2.14）所示：

善于思考的读者可能会存在疑问，为什么要选择作为模型的风险函数呢？这是因为最小二乘法是线性最优无偏估计。

首先什么是无偏估计？如果点估计是实际数 θ 的无偏估计，则满足：。对线性回归而言，我们用 ω _LSE =( X ^T X ) ⁻¹ X ^T y 去估计 ω _True ，由于：

E ( ω _LSE )= E [( X ^T X ) ⁻¹ X ^T y ]

因为 y = Xω _True + ε ，在一般情况下，噪声项 ε ~ N (0, σ ² )，于是上式可写作：

由于 X 是常量，常数的期望等于自身，且( X ^T X ) ⁻¹ X ^T X =1，噪声项的均值一般为 E ( ε )= 0 ，所以：

所以 ω _LSE 是 ω _True 的无偏估计。

所谓有效性，是指在 θ 的无偏估计、中，若，则称估计的有效性大于。现证明 ω _LSE 的有效性是所有无偏估计中最高的：

由于 E ( ω _LSE )= ω _True ，所以在所有 ω _True 的无偏估计中，应满足：

ω _unbias =[( X ^T X ) ⁻¹ X ^T + C ] y

直观地看出，若常数项 C ≠0，则必有Var( ω _unbias )>Var( ω _LSE )，因此， ω _LSE 是所有无偏估计中最有效的估计。综上，最小二乘法是线性回归中的最优无偏估计。

2．极大似然法

极大似然法（MLE）估计参数是基于“最有可能出现”的思想的方法。举个例子，假设有2个盒子，其中一个盒子中有99个黑球、1个白球；另一个盒子中有99个白球、1个黑球。已知某人摸出了一个黑球，读者认为该黑球来自于哪个盒子？

显然，人们一般选择前者。推广到机器学习中，假设有一个个体为( x _i , y _i )，在参数为 ω ₁ ，特征取值为 x _i 的条件下， y _i 出现的概率为 P ( y _i | ω ₁ , x _i )，其是一个条件概率；在参数为 ω ₂ 时， y _i 出现的概率为 P ( y _i | ω ₂ , x _i )，假如 P ( y _i | ω ₁ , x _i )> P ( y _i | ω ₂ , x _i )，那么读者会选取哪个参数作为模型的参数呢？显然选取 ω ₁ 。一般情况下，假设有 m 个个体构成的样本( x _i , y _i )，其中 i ∈(1,2,…, m )，令：

简记为：

称 L ( ω )为似然函数。显然，为了取得最优的参数估计量，要使似然函数的值最大，即：

我们通常对似然函数取自然对数，将乘法转化为加法，即：

极大似然法的另一个问题是 P ( y _i | ω , x _i )如何求取？实际上，不同的机器学习模型中对应的 P ( y _i | ω , x _i )的表达式亦不同。例如逻辑回归时， y _i 服从伯努利分布；线性回归时服从正态分布。下面以线性回归为例，说明 y _i 为何服从正态分布。

在线性回归中，每一个个体的理论值为：

y _i = ω ₁ x _i + ω ₀ + ε _i

对于每一个 ε _i , i ∈(1,2,…, m )，由于抽样是随机的，则应有 ε _i 相互独立。在大样本情况下，随机项应满足正态分布，并且 E ( ε _i )=0：

其中， σ ² 为噪声项 ε 的方差。在线性回归中，预测值为：

从而：

将式（2.17）代入式（2.16）中可得：

因为 y _i 为观测值，实际上，所以可以写成 P ( y _i | ω , x _i )。

因此在线性回归中：

即在同一 x _i , ω 下， y _i 满足正态分布。

*3．极大后验假设（MAP）与最小描述长度法

假设同样有一个容量为 m 的样本( x _i , y _i )， i ∈(1,2,…, m )。区别于极大似然法的似然函数，极大后验假设是找到参数 ω _MAP 让 P ( ω , x _i | y _i )最大：

根据贝叶斯公式：

由于分母项 P ( y _i )与参数无关，所以对式（2.18）而言可以忽略：

P ( ω , x _i | y _i )= P ( y _i | ω , x _i ) P ( ω , x _i )

代入式（2.18）可得：

上式为极大后验假设的一般方法。结合编码长度的概念，我们引入MAP的另一种表达方式。

最佳编码长度： 香农提出，对一个事件的最优编码长度为：

L ( X )=−log ₂ P ( X )

例如，投掷一枚均匀硬币，设事件 X “出现正面”的最优编码长度为 =1 b(bit)。也就是说，在不影响其他事件的情况下，可以用一位二进制数0或1表示。例如0代表正面，1代表反面。

再如，投掷一个骰子，事件 X “出现6”的最优编码长度为。也就是说可以用3个二进制数表示事件 X ，如用110代表“出现6”。

从上述例子中也可以看出，事件 X 出现的概率 P ( X )越低，即事件不确定度越大，所用的编码长度越大。当 P ( X )=1时，事件 X 为确定事件（概率为1），此时可不需要编码。

将式（2.19）中的概率替换为编码长度，可以得到极大后验假设法的另一种表达形式，即选取参数 ω _MAP ，使得：

注意，式（2.20）只是式（2.19）的另一种表达形式。为了取得最优的参数，应该让 P ( ω , x _i | y _i )的值总体最大，即不确定性最小，编码长度最小，因此式（2.20）亦称为最小描述法。式（2.20）在编码领域有深远的意义，在此不再赘述。

本节介绍了3种常见的风险函数，其原理如表2.5所示。

表2.5　3种风险函数

机器学习的发展是不断向前的，以上3种风险函数并非全部。随着数学、信息论与机器学习的深度融合，相信学者们会提出更加高效的风险函数。

说明： 带*的内容为扩展内容，读者可根据需要选择阅读。

2.3.2　参数寻优方法简介

无论哪种风险函数，为了求解模型的参数，均需要找到风险函数的极大或极小值。因此，参数求解的问题可以视为最优化问题。在优化理论中，求解最优化问题的方法称为参数寻优方法。

在2.1.2节中，可以直接得出优化问题的最优解： ω =( X ^T X ) ⁻¹ X ^T y 。但在一般情况下，优化问题并没有解析解。例如在的情况下，便不能直接得出解析解。此时，必须用数值逼近的方法才能找出风险函数 c ( ω )最值点。常见的参数寻优方法如表2.6所示，详细内容会在第5章介绍。

表2.6　常见的参数寻优方法

2.3 模型的训练过程