假定得到一个待识别量的特征X后,每个样品X有n个特征,即X=(x 1 ,x 2 ,…,x n ) T ,通过样品库,计算先验概率 P(ω i )及类别条件概率密度函数 P(X|ω i ),得到呈现状态 X时,该样品分属各类别的概率,显然这个概率值可以作为识别对象判属的依据。从后验概率分布图4-4可见,在X值小时,药品被判为正常是比较合理的,判断错误的可能性小。基于最小错误概率的贝叶斯决策就是按后验概率的大小判决的。这个规则又可以根据类别数目,写成不同的几种等价形式。
1.两类问题
若每个样品属于ω 1 ,ω 2 类中的一类,已知两类的先验概率分别为P(ω 1 ),P(ω 2 ),两类的类条件概率密度为P(X ω 1 ),P(X ω 2 )。则任给一X,判断X的类别。由贝叶斯公式可知
由全概率公式可知
其中M为类别。
对于两类问题
所以用后验概率来判别为
判别函数还有另外两种形式。
(1)似然比形式
其中,式(4-14)中的l(X)在统计学中称为似然比,而 称为似然比阈值。
(2)对数形式
式(4-13)、式(4-14)、式(4-15)三种判别函数是一致的,也可以用后验概率来表示判别函数。
2.多类问题
现在讨论多类问题的情况。在第1章已经介绍了判别函数的一般形式,如图4-5所示。
图4-5 多类问题判别
若样本分为M类ω 1 ,ω 2 ,…,ω M ,各类的先验概率分别为P(ω 1 ),P(ω 2 ),…,P(ω M ),各类的类条件概率密度分别为P(X|ω 1 ),P(X|ω 2 ),…,P(X|ω M ),就有M个判别函数。在取得一个观察特征X之后,在特征X的条件下,看哪个类的概率最大,应该把X归于概率最大的那个类。因此对于任一模式X,可以通过比较各个判别函数来确定X的类别。
就是把X代入M个判别函数中,看哪个判别函数最大,就把X归于这一类。
判别函数的对数形式为
由于先验概率通常是很容易求出的,贝叶斯分类器的核心问题就是求出类条件概率密度P(X ω i ),如果求出了条件概率,则后验概率就可以求出了,判别问题就解决了。在大多数情况下,类条件密度可以采用多维变量的正态密度函数来模拟。所以此时正态分布的贝叶斯分类器判别函数为
使用什么样的决策原则可以做到错误率最小呢?前提是要知道一个样品X分属不同类别的可能性,表示成P(ω i |X),然后根据后验概率最大的类来分类。后验概率要通过贝叶斯公式从先验概率与类分布函数来计算。
3.最小错误率证明
基于最小错误率的贝叶斯决策根据:如果
由于统计判别方法是基于统计参数做出决策的,因此错误率也只能从平均意义上讲,表示为在观测值可能取值的整个范围内错误率的均值。
为了直观,假设X只有一个特征,n=1,于是P(X|ω 1 ),P(X|ω 2 )都是一元函数,将整个特征空间分为不相交的两个部分R 1 和R 2 。当模式落在R 1 内判定它属于ω 1 类,求分类器相当于求R 1 和R 2 的分界线。
(1)第一类判错
如果X原属于ω 1 类,却落在R 2 内,称为第一类判错,错误率为
P 1 (e)=P(X∈R 2 ω 1 )=∫ R 2P(X ω 1 )dx
(2)第二类判错
如果X原属于ω 2 类,却落在R 1 内,称为第二类判错,错误率为
P 2 (e)=P(X∈R 1 |ω 2 )=∫ R 1P(X|ω 2 )dx
因此,平均错误率P(e)可表示成
因此,错误率为图中两个画线部分之和,如图4-6所示。
贝叶斯决策式(4-19)表明每个样品所属类别都使P(ω i |X)为最大,实际上使X判错的可能性达到最小,这时总的错误率为最小。按贝叶斯决策分类时,∫ R 2P(X|ω 1 )p(ω 1 )dX=∫ R 1P(X|ω 2 )p(ω 2 )dX。
图4-6 贝叶斯平均错误率最小示意图