对机器学习模型的参数直接进行估计是一种最简单、最直观的模型求解思路。显然,机器学习模型的参数估计需要给出的是参数具体估计值,而不仅仅是参数的大致取值范围。因此,机器学习模型的参数估计方法均为点估计方法。对于给定的机器学习任务,同一种模型结构在采用不同模型参数时的性能一般会存在一定的差异,如何选择一组参数使得模型对具体任务的表现达到最优是参数估计要解决的关键问题。本节简要介绍最小二乘、最大似然和最大后验这三种机器学习中最常用的参数估计方法。
最小二乘估计是一种基于误差平方和最小化的参数估计方法。对于线性模型,其最小二乘估计量是一种具有最小方差的无偏估计量,由最小二乘法求得的参数估计值是最优估计值。此外,最小二乘法计算简单、易于理解且具有良好的实际意义。因此,最小二乘法是对线性统计模型进行参数估计的基本方法。
如前所述,对于任意一个给定的示例 X ,可将其表示为表征向量或特征向量的形式。不失一般性,将样本集合中的每个示例分别看成是一个特征向量。假设训练样本集为
可将其中的示例 X i 表示为特征向量 X i =( x 1 i , x 2 i ,…, x ki ) T , x si 为示例 X i 的第 s 个特征。
线性模型的初始模型一般可写成
f
(
X
)=
X
T
β
,其中
β
=(
β
1
,
β
2
,…,
β
k
)
T
为待求的参数向量,
X
为某个示例的特征向量。对于训练样本集合中任意给定的一个示例
X
i
,模型参数
β
的真实值应该尽可能使得模型对示例
X
i
的输出
f
(
X
i
)与该示例标注值
y
i
之间的误差达到最小。因此,从整体上看,如果存在参数向量的一组取值
,线性模型能够在该组参数取值下获得模型输出与标注值之间在训练样本集上最小的整体误差,则将
作为
β
的估计值最为合理。
最小二乘法正是基于上述思想。用 f ( X i )- y i 表示模型 f 对示例 X i 的输出与该示例的真实值之间的误差。为防止误差正负值相互抵消和便于数学上的求导运算,最小二乘法将优化目标函数定义为样本个体误差的平方和,即有
当目标函数取得最小值时,所对应模型参数为最优。由于函数极值点处对所有参数的偏导均为0,故可由此求得最小二乘估计值。使用一个 n × k 的矩阵 X =( X 1 , X 2 ,…, X n ) T 表示训练样本集,则线性模型可表示为 f ( X )= Xβ ,由此可得如下目标函数
其中,
F
(
β
)为向量形式的误差平方;
y
=(
y
1
,
y
2
,…,
y
n
)
T
为训练样本集的标注值向量。
F
(
β
)取得最小值时所对应的参数向量
即为最小二乘法的估计值,即有
令 F ( β )对 β 的偏导数为0,可得方程组: X T ( y - Xβ )=0。解此方程组可得参数向量 β 的最小二乘估计值为
【例题2.1】 已知某工厂产值 Q 与其劳动力投入 L 之间满足关系 Q = aL b ,其中 a 、 b 为未知参数。试根据表2-1中的数据确定劳动力投入 L 与工厂产值 Q 之间的关系。
表2-1 劳动力投入与产值关系表
【解】 工厂产值 Q 与其劳动力投入 L 和资金投入 K 之间并不满足线性关系,但可在等式两边同时取对数将其转化为线性关系:ln Q =ln a + b ln L 。令
将示例 X i 定义为一个包含两个元素的列向量,其中第一个元素恒为1,第二个元素为 x i =ln L ,即 X i =(1, x i ) T ,则可将原方程转化为线性统计模型 f ( X )= βX ,其中 β =( β 0 , β 1 )为参数向量。依据最小二乘估计方法构造优化目标如下
将目标函数 F ( β )分别对参数向量中的元素 β 0 和 β 1 求偏导并令导数值为0,有
代入数据算得
,
。故有
a
=e
4.1952
≈66.37,
b
=0.2835。由此得到该工厂产值
Q
与其劳动力投入
L
之间满足数量关系:
Q
=66.37
L
0.2835
。
在机器学习领域,为了能够有效计算和表达样本出现的概率,通常假定面向同一任务的样本服从相同的、带有某种或某些参数的概率分布。如果能够求出样本概率分布的所有未知参数,则可使用该分布对所有样本进行分析。最大似然估计是一种基于概率最大化的概率分布参数估计方法。该方法将当前已出现的样本类型看作一个已发生事件。既然该事件已经出现,就可假设其出现的概率最大。因此,样本概率分布的参数估计值应使得该事件出现的概率最大。这就是最大似然估计方法的基本思想。
假设样本 X 为离散随机变量,其概率分布函数为 p ( X ; β ),即有 p ( X i | β )= P ( X = X i )。其中 β =( β 1 , β 2 ,…, β k ) T 为未知参数向量。假设从样本总体中随机抽取 n 个样本 X 1 , X 2 ,…, X n ,则可将“从总体中随机抽取到 X 1 , X 2 ,…, X n 这 n 个样本”记为一个事件 A 。事件 A 发生的概率可用下列函数度量
上述函数是一个关于未知参数向量 β 的函数,通常称为 似然函数 。既然事件 A 已经发生,那么该事件发生的概率应该最大。故可将未知参数向量 β 的估计问题转化为求似然函数 L ( β )最大值的优化问题,即最大似然估计值为
【例2.2】 假设一个不透明的盒里装有3颗围棋子,现用有放回抽样法随机抽取三次,每次拿一颗,得到白子2次,黑子1次。试用最大似然估计法估计盒中白子个数。
【解】 设盒中有 θ ( θ =0,1,2,3)枚白子, p (白 θ )为在一次采样中抽到白子的概率分布,则有
由于三次采样中抽到了两次白子,故似然函数为
L
(
θ
)=[
p
(白
θ
)]
2
[1-
p
(白
θ
)]。分别取
θ
=0,1,2,3,可得
L
(0)=0,
L
(1)=2/27,
L
(2)=4/27,
L
(3)=0。为使得事件“三次采样抽中两次白子”发生概率最大,应取
作为参数
θ
的最大似然估计,此时似然函数取最大值4/27。
当样本 X 为连续随机变量时,可用其概率密度函数 f ( X ; β )构造似然函数 L ( β ),即有
对似然函数
L
(
β
)进行最大优化计算即可得到对参数
β
的估计值,即
。由于
L
(
β
)为多个函数连乘,难以求解,故取自然对数运算将其转化为累加形式的对数似然函数ln
L
(
β
)。自然对数函数为严格单调递增函数,
L
(
β
)与ln
L
(
β
)具有相同的极值点,故
L
(
β
)与ln
L
(
β
)具有相同的优化效果。对数似然函数ln
L
(
β
)的具体形式为
可通过对数似然ln L ( β )的优化计算获得似然函数 L ( β )的最优解,即有
。
【例题2.3】 已知某校学生的身高服从正态分布 N ( μ , σ 2 ),现从全体学生中随机抽取10位同学,测得他们的身高如表2-2所示。试根据表中数据估计该校学生身高的均值和方差。
表2-2 学生身高表
【解】 已知正态分布的概率密度函数为
其中 μ 和 σ 2 分别为方差, X k 表示 k 号学生的身高。由此可得如下似然函数
对数似然为
对ln L ( μ , σ 2 )分别求 μ 和 σ 2 的偏导并令导数值为0,可得
解得
代入数据可算得学生身高均值和方差的最大似然估计分别为
,
。
最大后验估计是一种结合过往经验的参数估计方法。与最大似然估计认为待求参数是某个固定未知取值不同,最大后验估计认为待求参数服从某一未知概率分布,参数以一定的概率取某一特定值。在进行参数估计时,最大后验估计依据过往经验和已经出现的样本共同确定参数的可能取值。以抛掷硬币试验为例,现在希望估计硬币正面向上的概率 θ ,依据过往经验,硬币正面向上的概率 θ 一般为0.5,但考虑到硬币个体可能会存在某些特点,故没有将 θ 值确定为0.5,而是给出关于 θ 取值的一个概率分布函数 g ( θ ),比如令
g ( θ )被称为对参数 θ 的 先验概率分布 或 先验概率 ,表示根据过往经验得到 θ 取值的概率。假如抛掷完成10次硬币,其中7次正面向上,3次反面向上,则最大后验估计希望根据样本出现情况对参数取值进行估计,即考虑在样本取值已经出现的情况下计算 θ 取值的条件概率 f ( θX ),其中 X 表示已经出现的样本取值情况, f ( θ | X )被称为 后验概率 ,可看成是根据样本数据出现的实际情况对先验概率 g ( θ )的某种修正。后验概率最大时所对应的参数取值即为所求的最大后验估计值,即有
由贝叶斯公式可知后验概率 f ( θ | X )的计算公式如下
其中, f ( X | θ )为现有样本所表现出的信息;分母 p ( X )为样本分布。
显然, p ( X )与参数 θ 无关且恒大于零,故可直接通过最大化 f ( X | θ ) g ( θ )的优化方式实现最大后验估计,即有
由以上分析可知,最大后验估计通过综合考虑参数 θ 的先验信息 g ( θ )和现有样本信息 f ( X | θ )来确定参数的估计值。
继续讨论对上述抛掷硬币试验的概率估计问题,由于 g ( θ =0.5)=0.9,故在 θ =0.5的条件下,抛掷10次硬币发生事件“7次正面向上,3次反面向上”的概率为
其中,“ X =7,3”表示抛掷10次硬币发生事件“7次正面向上,3次反面向上”。
由此可得
由于 f ( X =7,3| θ ≠0.5)是一个概率值,故有 f ( X =7,3| θ ≠0.5)≤1,从而有
根据最大后验估计理论可知
即硬币正面向上概率的最大后验估计值
。
由上述分析可知,尽管已知样本的取值状况与过往经验不相符,但由于过往经验较为可靠,故最大后验估计在结论上选择相信了经验而非实际样本所表现出的信息,即认为已知样本取值状况与过往经验不相符的原因是由随机波动造成的。若使用最大似然估计方法对上述情况进行参数估计,则得到估计值为
。但由于试验次数较少,试验结果可能存在较大波动。因此,如果在这种情况下使用只考虑样本信息的最大似然方法,则所得到的估计值可能会与参数的真实值存在较大差异。
一般地,在对多个未知参数进行估计时,可将最大后验估计表示为
其中, β =( β 1 , β 2 ,…, β k ) T 为未知参数向量。
亦可将式(2-9)所示的目标函数取自然对数,得到与之等价的对数形式
【例题2.4】 假设某公司员工过去三年的收入均服从均值为6(万元),方差为0.36(万元)的正态分布,表2-3表示从公司随机抽取10名员工的收入数据,试根据表中数据和过去员工的收入情况估计今年员工收入的均值和方差。
表2-3 某公司员工年收入数据
【解】 已知正态分布的概率密度函数为
依题意可知,收入 X 的先验概率为
后验概率为
为求最大后验估计值,对上式取对数后分别对 μ 和 σ 2 求偏导并令导数值为0
解得
将上面两式进行联立并将表2-3中的数据代入,解得今年员工收入均值和方差的最大后验估计值分别为:
。