



贝叶斯定理提供了一种计算概率的方法,可预测样本数据属于某一类的概率。要想理解贝叶斯算法的要点,我们需要先了解贝叶斯定理的相关概念。
(1)先验概率(Prior Probability):在没有训练样本数据前,根据以往经验和分析得到的概率,初始时假设样本 h 的初始概率用 P ( h )表示。换句话说,先验概率是我们在未知条件下对事件发生可能性猜测的数学表示。如果没有先验经验,可假定 P ( h )为50%。例如,如果我们对西瓜的触感、敲声、根蒂和纹路等特征一无所知,按理来说,西瓜是好瓜的概率为65%。那么这个概率 P (好瓜)就被称为先验概率。
(2)条件概率(Conditional Probability):在原因B发生的条件下,结果A发生的概率,记作 P ( A | B )。例如,假设上课迟到的原因可能有:(1)早上没有起来;(2)感冒发烧,需要去看病。当感冒发烧时,上课迟到的概率表示为 P (上课迟到|感冒发烧)。
(3)后验概率(Posterior Probability):后验概率也是一种条件概率,它是根据事件结果求事件发生原因的概率。已经观测到事情已经发生了,发生的原因有很多,判断结果的发生是由哪个原因引起的概率,也就是说,后验概率是求导致该事件发生的原因是由某个因素引起的可能性的大小。它限定了条件为观测结果,事件为隐变量取值。例如,上课又迟到了,这是事件的结果,而造成这个结果的原因可能是早上起床晚了,或感冒发烧需要先去看病, P (起床晚了|上课迟到)和 P (感冒发烧|上课迟到)就是后验概率。
(4)类条件概率(Class Conditional Probability):类条件概率是指把造成事件结果的原因依次列举,分别讨论,即分析并计算某类别情况下,造成此结果的原因。把一个完整的样本集合S通过特征进行了划分,划分成m类 c 1 、 c 2 、 c 3 、…、 c m 。假定样本的特征值 x 是一个连续随机变量,其分布取决于类别状态 c ,类条件概率函数 P ( x | c i )是指在类别 c i 样品中,特征值 x 的分布情况。 x 相对于类标签 c 的概率,也称为似然(likelihood),记作 P ( x | c )。例如,若西瓜的类别有好瓜和坏瓜两种类别,知道一个西瓜是好瓜的情况下,估计每个属性的概率 P (纹路清晰|好瓜)、 P (敲声|好瓜)就是类条件概率。
贝叶斯公式的精髓是描述了两个相关随机事件之间的概率关系,贝叶斯分类器正是在这样的思想指导下,通过计算样本属于某一类的概率值来判定样本分类的。
假设有若干样本 x ,类别标签有 M 种,即 y ={ c 1 , c 2 ,…, c M },其后验概率为 P ( c i | x ),若将标签为 c j 的样本误分为 c i 类产生的损失为 λ ij ,则将样本 x 分类为 c i 所产生的期望损失为:
其中,误判损失 λ ij 为:
为了最小化期望损失,只需要在每个样本上选择那个能使期望损失最小的类别标签,即:
使分类错误率最小,也就是使分类的正确率越高,因 R ( c i | x )=1- P ( c i | x ),于是,最小化分类错误率的贝叶斯最优分类器变为:
一般情况下,在实际分类任务中难以直接获得后验概率 P ( c i | x )。为了利用有限的数据集准确估计后验概率 P ( c i | x ),可通过贝叶斯定理对联合概率分布 P ( x , c i )建模,再得到 P ( x | c i )。根据贝叶斯定理,有:
其中, P ( c i )就是前面所述的类的先验概率; P ( x | c i )是在类标签 c i 下 x 的类条件概率; P ( x )是样本 x 的概率分布,它对所有类标签都是相同的。对于分类问题,只需要比较样本属于每一类的概率大小,找出概率最大的那一类即可,故分母 P ( x )是可以省略的。因此,简化后的贝叶斯最优分类器为:
如果求出了先验概率 P ( c i )和类条件概率 P ( x | c i ),那么我们就能根据贝叶斯最优分类器对样本进行分类了。其中,类的先验概率 P ( c i )可根据大数定律对各类样本出现的频率进行估计。对于类条件概率 P ( x | c i ),直接根据样本出现的频率估计是十分困难的。
虽然不能直接估计出类条件概率,但我们还是有获得类条件概率的策略的。为了估计类条件概率,可以先假设其服从某种确定的概率分布,再利用训练样本对概率分布的参数进行估计。这就是极大似然估计(Maximum Likelihood Estimation,MLE)的算法思想,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:模型已定,参数未知。通过若干次实验,观察其结果,利用实验结果得到某个参数值能够使样本出现的概率为最大,则称为极大似然估计。
假设 T c 表示训练集 T 中第 c 类样本集合,且这些样本是独立同分布的,则参数 θ c 对于数据集 T c 的似然为:
找出参数空间
θ
c
中能使
l
(
θ
)取最大参数值的
,其实就是求解:
公式3-8容易造成下溢,通常求其对数似然:
这样似乎有些抽象,一旦确定样本服从某种分布,我们就可以利用梯度下降法得到参数的值。假设样本服从均值为 μ 、方差为 σ 2 的正态分布 N ( μ , σ 2 ),则似然函数为:
对其求对数:
对其分别求 μ 和 σ 2 的偏导,公式为:
也就是说,通过最大似然估计得到的正态分布均值就是样本的均值,那么方差就是
的均值。
对于样本服从其他分布的情况,也是利用类似的方法求解,求最大似然估计量的一般步骤如下:
步骤01 写出似然函数 l ( x;θ )。
步骤02 对似然函数 l ( x;θ )取对数,并整理。
步骤03 对ln l ( x;θ )的相应参数 θ 求偏导。
步骤04 解似然方程,得到参数 θ 的值。
提示
极大似然估计,也称最大似然估计,是求估计的常用方法,由德国数学家高斯(C.F.Gauss)提出,它是建立在极大似然原理上的统计方法,是概率论在统计学上的应用,具有算法思想简单、收敛性好的优势,但是实验结果会依赖于事先假设的类条件概率模型。
由于直接估计类条件概率密度函数很困难,参数估计问题只是实际问题求解过程中的一种简化方法。因此,能够使用极大似然估计方法的样本必须满足一些前提假设:训练样本的分布能代表样本的真实分布。每个样本集中的样本都是所谓独立同分布的随机变量,且有充分的训练样本。
下面简单介绍一下正态分布函数数学表示及其几何意义。
一个单变量正态分布密度函数为:
其正态分布的概率密度函数如图3-1所示。
正态分布以 X = μ 为对称轴左右对称。 μ 是正态分布的位置参数,描述正态分布的集中趋势位置。正态分布的期望、均数、中位数、众数相同,均等于 μ 。与 μ 越近的值,其概率越大,反之,其概率值越小。 σ 描述数据分布的离散程度, σ 越大,数据分布越分散,曲线越扁平; σ 越小,数据分布越集中,曲线越瘦高。分别服从正态分布为N(0,1)、N(0,1.5)、N(1,1)、N(1,1.5)的概率密度函数如图3-2所示。
图3-1 正态分布的概率密度函数
图3-2 正态分布为N(0,1)、N(0,1.5)、N(1,1)、N(1,1.5)的概率密度函数
对于多变量的正态分布,假设特征向量是服从均值向量为 μ 、协方差矩阵为∑的n维正态分布,其中,类条件概率密度函数为:
其中,
x
=(
x
1
,
x
2
,...,
x
n
)
T
,
μ
=(
μ
1
,
μ
2
,...,
μ
n
)
T
,∑为
n
×
n
协方差矩阵,
为∑的行列式,∑
-1
为∑的逆矩阵。一个二维正态分布的概率密度函数如图3-3所示。
图3-3 二维正态分布概率密度函数