购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.4 贝叶斯估计

与MLE方法不同,贝叶斯估计假设所估计的参数 θ 是随机变量,在获得样本集之前已知其概率函数,故称为先验概率,用符号 p θ θ )表示。注意,若 θ 是连续的, p θ θ )是概率密度函数;若 θ 是离散的, p θ θ )是概率值函数。在获取当前样本集时,随机变量 θ 有一个确定取值,即随机变量 θ 的一次实现值,需要估计它的取值。

贝叶斯估计的核心思想是,在已知先验概率 p θ θ )的条件下,通过样本集,对参数 θ 的分布进行校正,这个由数据样本进行校正后的概率可表示为 p θ | x ),称为后验概率,贝叶斯估计利用后验概率 p θ | x )对参数 θ 进行推断。

在实际问题中,后验概率一般不易直接获取,以 θ 为条件的随机向量的条件概率 p x | θ )更易于获得。由贝叶斯公式

p x θ )= p θ θ p x | θ )= p θ | x p x x ) (2.4.1)

利用后一个等式,可得后验概率为

通过式(2.4.2)获得后验概率(密度),然后利用后验概率进行参数估计或推断的方法,统称为贝叶斯方法。贝叶斯方法有很多不同形式,本节主要讨论最大后验概率(maximum a posteriori,MAP)方法。

考虑贝叶斯估计的一般形式。设 表示估计误差,令 C e )为代价函数,不同应用可能会定义不同的代价函数。定义

J=E [ C e )] (2.4.3)

为贝叶斯风险函数。令贝叶斯风险函数最小,由不同的代价函数,可得到各种不同形式的贝叶斯估计。

定义一种门限准则,为了简单,考虑标量情况,令代价函数为

这里 δ 是一个预设门限。这个准则的含义是,当误差小于一个阈值时,代价为零;当误差大于一个阈值时,代价总是为1。这种代价函数有其实际意义,例如在分类问题中, θ 表示的不是模型参数而是类型输出,当误差小于一个阈值时,不会产生错误判断,这种误差是容许的;但当误差大于一个阈值时,就会产生错误判断,只要误差大于这个阈值,总是产生错误分类,代价是相同的。门限准则的贝叶斯估计器是如下的最大后验概率估计器,即

这里 p θ | x )是后验概率,故估计值使后验概率最大,这是该估计器名称的由来。更一般地,给出向量形式为

将式(2.4.2)代入式(2.4.6),并注意到 p x x )与问题的解无关,故可省略,MAP得到一个更容易处理的形式为

或等价地使用对数形式为

与MLE类似,对式(2.4.8)求最大,MAP估计可转化为求解如下方程

若存在IID样本 ,对应对数形式的MAP表达式为

比较MAP和MLE可以看到,当参数 θ 的先验概率密度 p θ θ )在很大的取值范围内为常数时,也就是对 θ 可能的取值取向没有预先知识时,MAP就退化为MLE。若参数有很强的先验知识(例如 θ 的先验知识服从高斯分布且方差很小)且先验知识是正确的,由于可用信息的加强,MAP可以取得更好的效果,尤其是样本少的情况下。

例2.4.1 用MAP方法重做例2.3.2。设样本集 是I.I.D的,每个样本均服从 N μ ),且 已知, μ 未知但给出其先验概率为

求参数 μ 的MAP估计。首先写出 p x | μ ),显然

因此

上式两边取对数,并求最大值点,相当于代入式(2.4.9),解得 μ 的MAP估计为

可对比例2.3.2的结果。显然MAP估计的解包含先验信息和样本集两部分的贡献,在 N 比较小时,先验信息的贡献不可忽略,但当 N →∞时

即观测样本数趋于无穷时,先验信息的作用被忽略。

本例可推广到向量情况,若样本集是 ,每个样本满足高斯分布 p x | μ )= N x | μ Σ ), μ 未知,但已知先验分布为 p μ )= N μ | μ 0 Σ 0 ),可以验证, μ 的后验概率为 p μ | X )= N μ | μ N Σ N ),其中(推导细节留作习题)

由于 μ 的后验概率仍为高斯分布,故其MAP估计为式(2.4.12)的 eyA5t7GGZnJsXxD/+lGEhu4BRbvRfazJ87mv7w05rnfQAgbw/26T1ldLU7xlC95O

点击中间区域
呼出菜单
上一章
目录
下一章
×