设输入空间 X ⊆ R n 为 n 维向量的集合,输出空间为类标记集合 Y ={ c 1 , c 2 ,…, c K }。输入为特征向量 x ∈ X ,输出为类标记(class label) y ∈ Y 。 X 是定义在输入空间 X 上的随机向量, Y 是定义在输出空间 Y 上的随机变量。 P ( X , Y )是 X 和 Y 的联合概率分布。训练数据集
由 P ( X , Y )独立同分布产生。
朴素贝叶斯法通过训练数据集学习联合概率分布 P ( X , Y )。具体地,学习以下先验概率分布及条件概率分布。先验概率分布
条件概率分布
于是学习到联合概率分布 P ( X , Y )。
条件概率分布 P ( X = x | Y = c k )有指数级数量的参数,其估计实际是不可行的。事实上,假设 x ( j ) 可取值有 S j 个, j =1,2,…, n , Y 可取值有 K 个,那么参数个数 为。
朴素贝叶斯法对条件概率分布作了条件独立性的假设。由于这是一个较强的假设,朴素贝叶斯法也由此得名。具体地,条件独立性假设是
朴素贝叶斯法实际上学习到生成数据的机制,所以属于生成模型。条件独立假设等于是说用于分类的特征在类确定的条件下都是条件独立的。这一假设使朴素贝叶斯法变得简单,但有时会牺牲一定的分类准确率。
朴素贝叶斯法分类时,对给定的输入 x ,通过学习到的模型计算后验概率分布 P ( Y = c k | X = x ),将后验概率最大的类作为 x 的类输出。后验概率计算根据贝叶斯定理进行:
将式(4.3)代入式(4.4),有
这是朴素贝叶斯法分类的基本公式。于是,朴素贝叶斯分类器可表示为
注意到,在式(4.6)中分母对所有 c k 都是相同的,所以,
朴素贝叶斯法将实例分到后验概率最大的类中。这等价于期望风险最小化。假设选择0-1损失函数:
式中 f ( X )是分类决策函数。这时,期望风险函数为
期望是对联合分布 P ( X , Y )取的。由此取条件期望
为了使期望风险最小化,只需对 X = x 逐个极小化,由此得到:
这样一来,根据期望风险最小化准则就得到了后验概率最大化准则:
即朴素贝叶斯法所采用的原理。