机器学习教程(微课视频版)最新章节_张旭东著

2.4　贝叶斯估计

与MLE方法不同，贝叶斯估计假设所估计的参数 θ 是随机变量，在获得样本集之前已知其概率函数，故称为先验概率，用符号 p _θ （ θ ）表示。注意，若 θ 是连续的， p _θ （ θ ）是概率密度函数；若 θ 是离散的， p _θ （ θ ）是概率值函数。在获取当前样本集时，随机变量 θ 有一个确定取值，即随机变量 θ 的一次实现值，需要估计它的取值。

贝叶斯估计的核心思想是，在已知先验概率 p _θ （ θ ）的条件下，通过样本集，对参数 θ 的分布进行校正，这个由数据样本进行校正后的概率可表示为 p （ θ | x ），称为后验概率，贝叶斯估计利用后验概率 p （ θ | x ）对参数 θ 进行推断。

在实际问题中，后验概率一般不易直接获取，以 θ 为条件的随机向量的条件概率 p （ x | θ ）更易于获得。由贝叶斯公式

p （ x ， θ ）= p _θ （ θ ） p （ x | θ ）= p （ θ | x ） p _x （ x ）　（2.4.1）

利用后一个等式，可得后验概率为

通过式（2.4.2）获得后验概率（密度），然后利用后验概率进行参数估计或推断的方法，统称为贝叶斯方法。贝叶斯方法有很多不同形式，本节主要讨论最大后验概率（maximum a posteriori，MAP）方法。

考虑贝叶斯估计的一般形式。设表示估计误差，令 C （ e ）为代价函数，不同应用可能会定义不同的代价函数。定义

J=E [ C （ e ）]　（2.4.3）

为贝叶斯风险函数。令贝叶斯风险函数最小，由不同的代价函数，可得到各种不同形式的贝叶斯估计。

定义一种门限准则，为了简单，考虑标量情况，令代价函数为

这里 δ 是一个预设门限。这个准则的含义是，当误差小于一个阈值时，代价为零；当误差大于一个阈值时，代价总是为1。这种代价函数有其实际意义，例如在分类问题中， θ 表示的不是模型参数而是类型输出，当误差小于一个阈值时，不会产生错误判断，这种误差是容许的；但当误差大于一个阈值时，就会产生错误判断，只要误差大于这个阈值，总是产生错误分类，代价是相同的。门限准则的贝叶斯估计器是如下的最大后验概率估计器，即

这里 p （ θ | x ）是后验概率，故估计值使后验概率最大，这是该估计器名称的由来。更一般地，给出向量形式为

将式（2.4.2）代入式（2.4.6），并注意到 p _x （ x ）与问题的解无关，故可省略，MAP得到一个更容易处理的形式为

或等价地使用对数形式为

与MLE类似，对式（2.4.8）求最大，MAP估计可转化为求解如下方程

若存在IID样本，对应对数形式的MAP表达式为

比较MAP和MLE可以看到，当参数 θ 的先验概率密度 p _θ （ θ ）在很大的取值范围内为常数时，也就是对 θ 可能的取值取向没有预先知识时，MAP就退化为MLE。若参数有很强的先验知识（例如 θ 的先验知识服从高斯分布且方差很小）且先验知识是正确的，由于可用信息的加强，MAP可以取得更好的效果，尤其是样本少的情况下。

例2.4.1 用MAP方法重做例2.3.2。设样本集是I.I.D的，每个样本均服从 N （ μ ），且已知， μ 未知但给出其先验概率为

求参数 μ 的MAP估计。首先写出 p （ x | μ ），显然

因此

上式两边取对数，并求最大值点，相当于代入式（2.4.9），解得 μ 的MAP估计为

可对比例2.3.2的结果。显然MAP估计的解包含先验信息和样本集两部分的贡献，在 N 比较小时，先验信息的贡献不可忽略，但当 N →∞时

即观测样本数趋于无穷时，先验信息的作用被忽略。

由于 μ 的后验概率仍为高斯分布，故其MAP估计为式（2.4.12）的。

2.4 贝叶斯估计

2.4　贝叶斯估计