在机器学习领域常用到一些具体的概率函数,包括离散随机变量和连续随机变量,对于离散随机变量一般直接给出其概率取值函数,对于连续随机变量一般给出概率密度函数,不失一般性都称其为概率函数。为了后续章节应用方便,本节罗列一些本书最常用的概率函数及其基本特征。
介绍几个常用的离散随机变量,其中二元分布和多元分布在表示分类问题的类别输出中经常使用。
一个随机变量 X 只取0和1两个值,称其为二元分布,或伯努利分布(Bernoulli distribution)。在二分类问题中,经常用二元随机变量取某一值的概率表示这一类的概率。用参数 μ 表示 X 取值为1的概率,即
注意,符号“| μ ”表示 μ 是该概率函数的参数。由于 X 只取两个值,用变量 x 表示 X 可能的取值,故将伯努利分布的概率函数写为紧凑的数学形式为
容易计算, X 的均值和方差分别为
在后文中,若不存在理解模糊的情况下,可不必区分变量符号 X 和其取值 x 。
若有 N 个独立的伯努利变量 X i ,1≤ i ≤ N ,定义一个新的随机变量 ,则称 Y 为二项分布(binomial distribution),其概率函数为
y 取整数,满足0≤ y ≤ N ,这里
容易计算(留作习题)
比二元分布更一般的是,一个离散随机变量 X 可取 K 个不同的值。直接的表示就是定义 X 取不同值的概率,即 P ( X = k | μ )= μ k ,1≤ k ≤ K ,这里有 K 个参数 μ k ,因为有限制条件 ,故只有 K -1个自由度。令1≤ x ≤ K 是一整型变量,则 X 的概率函数可写为
其中, I (·)是示性函数,其变量是逻辑量,定义为: I (真)=1, I (假)=0。
在分类问题中,若用 X 表示 K 个不同类型,可用以上讨论的 X 直接取 K 个不同标量值的表示方法。另一种常用方法是用“1-of- K ”编码方式,即用一个 K 维向量 x =[ x 1 , x 2 ,…, x K ] T 表示 X 的不同取值,当 X 取 k 时, x k =1, x j =0, j ≠ k ,即 x 向量中只有一个元素为1,其他为0,用这种编码表示方式,数学上更简洁。例如, X 代表骰子的面,有6个取值,则可用向量 x =[ x 1 , x 2 ,…, x 6 ] T 表示,若 X 取4,则对应向量 x =[0,0,0,1,0,0] T 。用编码向量 x 表示的概率函数可表示为
若独立产生 N 个编码的 x n ,则 得到多项分布,其概率函数为
其中排列组合式
在二元或多元概率函数中,存在参数 μ ,一些机器学习算法需要估计这些参数。如果用2.3节介绍的最大似然方法估计参数,则只需要采集样本集,但若使用2.4节介绍的贝叶斯方法,则还需要有待估计参数的先验概率,即对待估计参数 μ 的概率假设。注意到, μ 自身是连续的,但其可作为离散变量概率函数的参数,对其概率函数在本小节一并介绍。
在进行贝叶斯估计时,需要选择 μ 的概率函数,一种方法是首先考虑选择所谓“共轭”概率函数。在伯努利的概率函数式(2.2.1)中, μ 是以 μ 或(1- μ )的指数形式出现的,若 μ 自身的先验概率也以这种形式表示,则称为共轭概率函数。对于 μ 的概率密度函数,一种共轭形式是贝塔分布,即
其中 α 、 β 是贝塔分布的参数, Γ ( α )是伽马函数,定义为
可以算出贝塔分布均值为
类似地,对于多元分布,其参数是向量 μ =[ μ 1 , μ 2 ,…, μ K ] T ,其共轭分布称为Dirichlet分布,其概率密度函数为
其中, 。
高斯分布是最常用的连续随机向量分布。这里用符号 x =[ x 1 , x 2 ,…, x M ] T 表示一个随机向量,为了简化符号,向量符号 x 既表示随机向量自身,又表示它的取值变量, M 维实高斯分布的联合概率密度函数为
这里 C xx 表示随机向量 x 的自协方差矩阵, μ x 是均值向量。
当均值为零时,以自相关矩阵 R xx 代替自协方差矩阵 C xx 。服从 M 维高斯分布的随机向量 x 可以用符号 x ~ N ( x | μ x , C xx )表示,这里 N ( x | μ x , C xx )代表的是式(2.2.7)的概率密度函数,在不发生理解模糊时也可简写为 N ( μ x , C xx )。
图2.2.1表示二维 x 情况下高斯分布的等概率曲线(等高线)。所谓等高线,是指当 p x ( x )给定一个常数 c 时,满足 p x ( x )= c 的所有 x 构成的曲线(高维情况下是曲面),由式(2.2.7)知,当 x = μ x 时 p x ( x )取得最大值 p max =[(2π) M /2 det 1/2 ( C xx )] -1 ,若 C xx 是正定的, p x ( x )取得最大值的点是唯一的。当 p x ( x )= c < p max 时,满足 p x ( x )= c 的 x 构成方程
图2.2.1 高斯分布的等高线图示
这里 λ 是与 c 相关的常数,取不同的 c 得到不同的曲线,图2.2.1就是一组这样的曲线。当 C xx = σ 2 I 时,等高线是一组同心圆,这里 I 是单位矩阵。当 , σ 1 ≠ σ 2 时,等高线是椭圆,其主轴平行于坐标轴。当 C xx 是任意的对称正定矩阵时,等高线是图2.2.1所示的一组斜的椭圆。等高线族的中心总是 x = μ x ,常用等高线图描述高斯分布的特点。
高斯分布有一些独有的基本性质。若一个随机向量满足高斯分布,则其通过任意线性变换仍然满足高斯分布。
对于一个随机向量,若其联合概率密度函数满足高斯分布,仅考虑向量的一部分时,其边际密度仍是高斯的;若向量中的一部分已确定,另一部分的条件概率密度也是高斯的。
一类概率函数(包括连续与离散、概率函数与概率密度函数)可表示为如下形式
这类概率函数称为指数族。其中, h ( x )和 u ( x )是 x 的函数, η 是参数, g ( η )是使概率函数归一化的系数,若 x 是连续的,有
前面介绍的二元分布、多元分布和高斯分布都属于指数族。对伯努利分布,以下例子给出其组合成指数族的过程,高斯分布表示为指数族的过程留作习题。
例2.2.1 伯努利分布写成指数族表达式
设 ,令 ,则
这是一种指数族形式。
指数族可以表示一类更广义的概率形式,有一些机器学习算法建立在指数族假设上时,比建立在诸如高斯假设这种单一概率假设下更有广泛性。
式(2.2.7)表示的高斯分布,在协方差矩阵 C xx 是正定矩阵的情况下,其表示仅有单峰值的概率密度函数。尽管在很多情况下,用高斯分布可以相当好地描述样本的统计性质,且高斯分布具有便于处理的数学形式,但实际中还是有许多环境不能用高斯分布来刻画。一个基本的情况是,当实际概率密度函数存在多峰时,高斯过程是不适用的,但若对高斯分布进行一定的扩展,可以得到满足更一般情况的概率密度描述。混合高斯过程(mixture of Gaussian)是一种对高斯分布的扩展形式。混合高斯分布是多个高斯密度函数的组合,即
这里, p ( x )是混合高斯过程的概率密度函数,其积分为1,故可得到
由于对所有的 x ,有 p ( x )≥0,要求
或者说,在满足式(2.2.11)和(2.2.12)的条件下,式(2.2.10)所得到的 p ( x )是一个合格的概率密度函数。
在一维情况下,由4个高斯函数混合得到的一个混合高斯过程的密度函数示于图2.2.2(注意,图中同时用虚线画出了各加权的高斯分量 c k N ( x | μ k , C k )),它可以表述概率密度中存在多峰的情况。
图2.2.2 一个混合高斯过程的密度函数
实际中,通过选择充分大的 K 和参数集{ c k , μ k , C k , k =1,…, K },一个混合高斯过程可以以任意精度逼近一个任意的概率密度函数。对于一个实际特征向量,当建模为式(2.2.10)的混合高斯过程时,若能够收集充分多的样本数据,则可以相当精确地估计出参数集,从而得到估计的概率密度函数。混合高斯过程参数估计问题,将在第11章进一步讨论。
如果一个随机样本具有序列性,即 X 1 , X 2 ,…, X n ,…是按照其序列顺序产生的,前后之间有因果关系,若
则称该序列为马尔可夫过程。马尔可夫过程的含义是:当 X n 的“现在”已知时,“将来”和“过去”的统计特性是无关的。在与序列有关的机器学习算法设计中,马尔可夫性可有效降低算法的复杂性。在强化学习中(见第12章),马尔可夫性得到深入应用。