机器学习教程(微课视频版)最新章节_张旭东著

2.5　贝叶斯决策

视频讲解

决策是机器学习中一个相对独立的部分。当机器学习的模型已经确定后，对于新的输入可计算模型输出。对模型输出做出最后判断是决策过程要做的事情。针对不同的模型，决策过程起的作用是不一样的，对于有的模型，模型输出直接表示了明确的结果，不需要一个附加的决策过程，而对于其他模型尤其是概率类模型，往往需要对模型输出做出一个最终的决策，这是决策过程的作用。在机器学习中，决策往往是一个独立且相对简单的单元，本节讨论的决策问题集中在贝叶斯决策。

2.5.1　机器学习中的决策

一般来讲，机器学习通过训练过程得到描述问题的模型，可将模型表示为一种数学关系。当给出新的输入数据时，可按照模型需要的格式将输入数据转换成模型可接受的输入特征向量，计算模型的输出。所谓决策就是对于模型的输出给出一个判决结果。

决策就是要做出最后的结论，对于分类要给出类型的结果，对于回归要给出输出值。从一个模型输出是否确定性的角度，可将其分为概率模型和非概率模型。对于非概率模型，模型是一个确定性的判别函数，该模型通过训练过程直接得到确定的函数关系，其中 x 是输入特征向量，当通过训练得到模型后，给出一个新的 x ，函数产生结果。对于分类问题取离散值并表示类型；对于回归问题得到连续的输出值。对于这类确定性模型，决策是直接的，一般不需要进一步再做决策。

对于概率模型，训练过程中给出的模型是输出 y 的一种概率表示。有两类基本的概率模型。一类是生成模型，给出的是联合概率 p （ x ， y ）；另一类是判别模型（注意与确定性判别函数是有区别的），给出的是后验概率 p （ y | x ）。目前的概率模型中，判别模型应用更广泛。以判别模型为例，假设通过训练过程得到了后验概率表示式 p （ y | x ），首先针对二分类问题说明决策过程。设分别用 C ₁ 、 C ₂ 表示两种类型，则对于新的输入 x ，可计算 p （ y = C ₁ | x ）（简记为 p （ C ₁ | x ））和 p （ y = C ₂ | x ）（简记为 p （ C ₂ | x ）），由这些概率怎样确定输入 x 对应哪一类呢？这需要通过决策理论做出最后的判决。例如， p （ C ₁ | x ）=0.6， p （ C ₂ | x ）=0.4是否一定会判决为类型 C ₁ 呢？

对于概率模型，怎样做出最后的决策呢？为了得出最后的结论，需要给出问题的评价函数，一般可以用风险函数作为评价函数，通过最小化风险函数的后验概率期望（即贝叶斯风险函数）获得判决准则，然后利用判决准则对模型输出的结果做出结论。由于决策主要使用后验概率来做出，并采用贝叶斯风险函数作为评价函数，故将所讨论的决策问题称为贝叶斯决策。分类和回归的决策方法和评价函数差别很大，将单独予以处理。

2.5.2　分类的决策

假设学习阶段通过训练已得到模型的联合概率 p （ x ， y ）（对于生成模型）或后验概率 p （ y | x ）（对于判别模型），需要对类型输出做出最终判决，即决策。

讨论二分类问题，以下使用联合概率导出结论，但实际上对于分类决策只需要后验概率。

假设特征输入 x 和类型 C 的联合概率 p （ x ， C ）已知，由于是二分类问题， C 只有两个取值 C ₁ 和 C ₂ ，故可以分别写出两种类型的联合概率值 p （ x ， C ₁ ）和 p （ x ， C ₂ ）。对于分类问题，一个最直接的评价函数是误分类率，误分类率等于两部分之和： x 属于 C ₁ 类却被分类为 C ₂ 的概率和 x 属于 C ₂ 被分类为 C ₁ 的概率。决策理论的目标是找到一个判决准则，使得错误分类率最小，即最小错误分类率（minimum misclassification rate，MMR）准则。

设输入特征向量 x 是 D 维向量，其输入空间是 D 维向量空间的一个区域，通过决策理论，可将区域划分为两个不重叠区域和。当 x ∈ 时，判断类型输出为 C ₁ ；当 x ∈ 时，判断类型输出为 C ₂ 。划分区域的准则就是MMR。

为了便于理解，图2.5.1给出了 x 是标量情况下，概率密度函数 p （ x ， C ₁ ）和 p （ x ， C ₂ ）的示意图。假如已经做出了区域划分和，那么当 x ∈ 但其实际属于 C ₂ 则对应一个错误的分类，其错误概率可表示为

反之，当 x ∈ 但其实际属于 C ₁ 类时，则对应一个错误分类，其错误概率为

将两者合并，总的误分类率 p _e 为

以上假设已划分出和，从而写出了错误率公式（2.5.1）。现在反过来，通过错误率公式（2.5.1）选择和使 p _e 最小。通过观察图2.5.1和式（2.5.1）发现，若想 p _e 最小，只需这样选择和：将满足 p （ x ， C ₁ ）> p （ x ， C ₂ ）的取值集合取为，反之取为，一般将 p （ x ， C ₁ ）= p （ x ， C ₂ ）的点任意分配给或。

由此可得到判决准则，当给出一个新的 x ，若

p （ x ， C ₁ ）> p （ x ， C ₂ ）　（2.5.2）

则分类为 C ₁ ，反之分类为 C ₂ 。由概率公式 p （ x ， C _i ）= p （ C _i | x ） p （ x ）， i =1，2，将式（2.5.2）表示为后验概率形式，即若

p （ C ₁ | x ）> p （ C ₂ | x ）　（2.5.3）

则分类为 C ₁ ，否则分类为 C ₂ 。应用MMR准则的决策公式为式（2.5.2）或式（2.5.3）。目前分类算法中，判别模型应用更多，故式（2.5.3）更常用。由于式（2.5.3）也表示了式（2.5.2）的含义，若非特殊需要总是以式（2.5.3）表示决策公式。

图2.5.1　概率密度函数

以上结果可直接推广到多类情况，设有{ C ₁ ， C ₂ ，…， C _K }共 K 种类型，最后分类结果为，则

以上给出了在最小错误分类率准则下的判决准则，结果非常直观，即将后验概率最大的类作为分类输出。回到本章的开始，若一个机器学习模型是概率模型，对于新的 x 可分别计算分类为 C _i 的后验概率，则决策准则将后验概率最大的类作为最终类输出。

以上的基本决策原理的前提条件是假设所有错误的代价是平等的，这在很多实际应用中不符合现实，如下讨论两种更实际的判决方式。

1．加权错误率准则

在实际应用中，一些错误比另一些错误代价更大，例如一辆无人驾驶汽车的刹车系统。为了方便说明，一个简化的模型输出只有两类：刹车或不刹车，这可看作分类问题。应刹车时判决为不刹车，比不应刹车时判决为刹车往往代价更大，所以要对刹车判决的不同错误定义不同的代价，例如表2.5.1的代价加权矩阵。

表2.5.1　刹车决策的错误代价加权矩阵

在表2.5.1中，应刹车被错判为不刹车的代价是不应刹车错判为刹车的代价的10倍，这是一个主观的加权。对于实际刹车问题，可通过预先得到的大量交通事故数据按所关心的指标给出加权矩阵的统计值。对于更一般的多类型情况，将加权矩阵表示为 L ，矩阵的各元素表示为 L _kj = L （ C _j | C _k ），即将 C _k 分类为 C _j 的代价加权值。考虑所有的 C _k 和 C _j 的组合，得到总期望损失为

上式重组为

将

定义为分类为 C _j 的风险。可见，为了使式（2.5.6）的结果最小，划分的准则是：将 R （ C _j | x ）最小的区间划分为，由于 C _j 表示所有可能的类，故分类为的决策公式为

由于每个 p （ C _k | x ）在学习过程都已经训练过， L _kj 是预先确定的，式（2.5.8）的决策是简单的加权求和与比较运算。

例2.5.1 讨论式（2.5.8）在二分类情况下的特殊形式。只有两类时，式（2.5.7）的风险值只有两个，即

R （ C ₁ | x ）= L ₁₁ p （ C ₁ | x ） +L ₂₁ p （ C ₂ | x ）

R （ C ₂ | x ）= L ₁₂ p （ C ₁ | x ） +L ₂₂ p （ C ₂ | x ）　（2.5.9）

由式（2.5.8），若要分类结果为 C ₁ ，则只需 R （ C ₁ | x ）< R （ C ₂ | x ），将（2.5.9）各式代入并整理得

（ L ₁₂ - L ₁₁ ） p （ C ₁ | x ）>（ L ₂₁ - L ₂₂ ） p （ C ₂ | x ）　（2.5.10）

情况1 ：取 L ₁₂ = L ₂₁ =1， L ₂₂ = L ₁₁ =0，则式（2.5.10）简化为 p （ C ₁ | x ）> p （ C ₂ | x ），即在各种错误等代价的二分类问题中，式（2.5.8）与式（2.5.3）等价。

情况2 ：若取 L ₁₂ =10， L ₂₁ =1， L ₂₂ = L ₁₁ =0，则式（2.5.10）简化为 p （ C ₁ | x ）>0.1× p （ C ₂ | x ），即可判断为 C ₁ ，这里的加权用的是表2.5.1的有关刹车的加权矩阵，可见在该损失加权的条件下， p （ C ₁ | x ）=0.1就可以决策为刹车。

由贝叶斯公式，可将式（2.5.10）写为

（ L ₁₂ - L ₁₁ ） p （ x |C ₁ ） p （ C ₁ ）>（ L ₂₁ - L ₂₂ ） p （ x |C ₂ ） p （ C ₂ ）　（2.5.11）

整理得到分类为 C ₁ 的条件为

式（2.5.12）利用了类条件概率（密度） p （ x | C _i ）和类先验概率 p （ C _i ），称为似然比准则。

2．拒绝判决

在各种误分类代价相等的情况下，在二分类时只要满足式（2.5.3）即可分为类型 C ₁ ，例如 p （ C ₁ | x ）=0.51即可分类为 C ₁ 。当两类的后验概率很接近时，分类结果可信度不高，误分类率也较大，在一些需要高可靠分类的应用中，这种分类结果显然无法接受，故在很多情况下，可能对一定的后验概率范围拒绝做出判决。如图2.5.2所示，在 p （ x | C _i ）均小于一个预定的门限 θ （例如 θ =0.9）时拒绝做出判决。对于多分类问题，只有至少有一个 p （ x | C _i ）≥ θ 时，才利用式（2.5.4）做判决，否则拒绝判决。

图2.5.2　拒绝判决示意图

拒绝判决是一个有意义但需要谨慎使用的原则，其使用与所面对问题的代价分析有关。例如，在一个邮件自动分拣的邮政编码识别系统中，假设一封信的第1位邮政编码数字被自动分类为1和7的概率最大但很接近，该信可以由自动分拣系统拒绝判决，转为人工服务，显然，人工服务的成本比自动分拣高，但远低于一封信被错误投递的代价。

拒绝判决可降低误分类率，极端的例子是，拒绝做任何判决则误分类率为0，但这样的系统毫无意义。故选择拒绝判决及拒绝判决的门限值与应用是密切相关的，需要在实际系统设计中谨慎选择。

2.5.3　回归的决策

对于回归问题，本书介绍的回归模型较多的是直接得到回归函数 = g （ x ），也有一些方法是先通过学习过程得到联合概率 p （ x ， y ）或后验概率 p （ y | x ），对这种模型需先选择一种评价性能的函数，通过决策给出回归的连续输出值。在回归情况下，最常用的评价函数之一是均方误差。回归输出与真实 y 的均方误差定义为

若要求一个使得均方误差最小，可令式（2.5.13）两侧对求导且令之为0，将得到一个解。

利用贝叶斯公式，有

上式两边对求导，并交换积分和求导顺序，得

为求最小均方估计，只需令上式为0，因为对所有 x ， p _x （ x ）≥0，故欲使为零，只需

将上式中求导和积分次序交换，得

整理得

这是最小均方误差（MMSE）意义下回归的最优输出值，称为后验期望输出。在参数估计问题中，若用参数 θ 代替回归输出 y ，则同样的结论称为MMSE贝叶斯参数估计器。

对于一个回归学习系统，通过学习过程得到后验概率 p （ y | x ），则给出一个新的特征向量输入 x 后，回归的输出是 y 的后验条件期望值。将回归输出代入式（2.5.13），得到最小均方误差为

例2.5.2 对回归问题仍以高斯分布为例。若一个回归问题，通过学习过程得到的后验概率是 p （ y | x ）= N （ y | w ^T x ），这里 w 为通过训练得到的权系数向量。由高斯分布的特点和式（2.5.14）可得，使得mse最小的回归输出为，方差刻画了回归输出的不确定性大小。

本节注释 通过机器学习解决一个实际问题，大致是三个步骤：第一步是针对要解决的问题收集数据，预处理数据（数据清洗、标注等），确定解决问题的算法模型，例如选择监督学习，选择神经网络模型或SVM模型或其他模型；第二步是训练过程，用样本集对模型进行训练，选择模型规模和参数，对确定性模型得到 = f （ x ）的判别函数，对概率模型得到联合概率 p （ x ， y ）或后验概率 p （ y | x ）；第三步是推断或预测过程，给出新的特征输入 x ，对确定性模型直接得到结果，对概率模型计算得到后验概率 p （ y | x ），通过后验概率和风险函数获得判决准则做出决策。对于复杂问题，以上三个步骤也可能要反复，直至得到需要的结果。决策理论是机器学习过程中最后一步的组成部分，总地讲是比较容易的一部分。本节给出了决策理论的一个概要介绍，后续章节直接应用这些结果。一般来讲，若不与具体应用环境结合，就采用最简单的决策公式，例如对于多分类，直接采用决策公式（2.5.4）。

2.5 贝叶斯决策

2.5.1 机器学习中的决策