机器学习方法最新章节_李航著

第4章
朴素贝叶斯法

朴素贝叶斯（ Bayes）法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集，首先基于特征条件独立假设学习输入输出的联合概率分布；然后基于此模型，对给定的输入 x ，利用贝叶斯定理求出后验概率最大的输出 y 。朴素贝叶斯法实现简单，学习与预测的效率都很高，是一种常用的方法。

本章叙述朴素贝叶斯法，包括朴素贝叶斯法的学习与分类、朴素贝叶斯法的参数估计算法。

4.1　朴素贝叶斯法的学习与分类

4.1.1　基本方法

设输入空间 X ⊆ R ⁿ 为 n 维向量的集合，输出空间为类标记集合 Y ={ c ₁ , c ₂ ,…, c _K }。输入为特征向量 x ∈ X ，输出为类标记（class label） y ∈ Y 。 X 是定义在输入空间 X 上的随机向量， Y 是定义在输出空间 Y 上的随机变量。 P （ X,Y ）是 X 和 Y 的联合概率分布。训练数据集

T ={（ x ₁ , y ₁ ）,（ x ₂ , y ₂ ）,…,（ x _N , y _N ）}

由 P （ X,Y ）独立同分布产生。

朴素贝叶斯法通过训练数据集学习联合概率分布 P （ X,Y ）。具体地，学习以下先验概率分布及条件概率分布。先验概率分布

条件概率分布

于是学习到联合概率分布 P （ X,Y ）。

条件概率分布 P （ X = x|Y = c _k ）有指数级数量的参数，其估计实际是不可行的。事实上，假设 x ⁽ ^j ⁾ 可取值有 S _j 个， j =1,2,…, n ， Y 可取值有 K 个，那么参数个数为。

朴素贝叶斯法对条件概率分布作了条件独立性的假设。由于这是一个较强的假设，朴素贝叶斯法也由此得名。具体地，条件独立性假设是

朴素贝叶斯法实际上学习到生成数据的机制，所以属于生成模型。条件独立假设等于是说用于分类的特征在类确定的条件下都是条件独立的。这一假设使朴素贝叶斯法变得简单，但有时会牺牲一定的分类准确率。

朴素贝叶斯法分类时，对给定的输入 x ，通过学习到的模型计算后验概率分布 P （ Y = c _k | X = x ），将后验概率最大的类作为 x 的类输出。后验概率计算根据贝叶斯定理进行：

将式（4.3）代入式（4.4），有

这是朴素贝叶斯法分类的基本公式。于是，朴素贝叶斯分类器可表示为

注意到，在式（4.6）中分母对所有 c _k 都是相同的，所以，

4.1.2　后验概率最大化的含义

朴素贝叶斯法将实例分到后验概率最大的类中，这等价于期望风险最小化。假设选择0-1损失函数：

式中 f （ X ）是分类决策函数。这时，期望风险函数为

R _exp （ f ）= E [ L （ Y,f （ X ））]

期望是对联合分布 P （ X,Y ）取的。由此取条件期望

为了使期望风险最小化，只需对 X = x 逐个极小化，由此得到：

这样一来，根据期望风险最小化准则就得到了后验概率最大化准则：

即朴素贝叶斯法所采用的原理。

4.2　朴素贝叶斯法的参数估计

4.2.1　极大似然估计

在朴素贝叶斯法中，学习意味着估计 P （ Y = c _k ）和 P （ X ⁽ ^j ⁾ = x ⁽ ^j ⁾ | Y = c _k ）。可以应用极大似然估计法估计相应的概率。先验概率 P （ Y = c _k ）的极大似然估计是

设第 j 个特征 x ⁽ ^j ⁾ 可能取值的集合为{ a _j ₁ , a _j ₂ ,…, a _jSj }，条件概率 P （ X ⁽ ^j ⁾ = a _jl | Y = c _k ）的极大似然估计是

式中，是第 i 个样本的第 j 个特征； a _jl 是第 j 个特征可能取的第 l 个值； I 为指示函数。

4.2.2　学习与分类算法

下面给出朴素贝叶斯法的学习与分类算法。

算法4.1（朴素贝叶斯算法（ Bayes algorithm））

输入：训练数据集 T ={（ x ₁ , y ₁ ）,（ x ₂ , y ₂ ）,…,（ x _N , y _N ）}，其中，是第 i 个样本的第 j 个特征， a _jl 是第 j 个特征可能,取的第 l 个值， j =1,2,…, n ， l =1,2,…, S _j ， y _i ∈{ c ₁ , c ₂ ,…, c _K }；实例 x 。