机器学习教程(微课视频版)最新章节_张旭东著

2.2　概率实例

在机器学习领域常用到一些具体的概率函数，包括离散随机变量和连续随机变量，对于离散随机变量一般直接给出其概率取值函数，对于连续随机变量一般给出概率密度函数，不失一般性都称其为概率函数。为了后续章节应用方便，本节罗列一些本书最常用的概率函数及其基本特征。

2.2.1　离散随机变量示例

介绍几个常用的离散随机变量，其中二元分布和多元分布在表示分类问题的类别输出中经常使用。

1．二元分布和二项分布

一个随机变量 X 只取0和1两个值，称其为二元分布，或伯努利分布（Bernoulli distribution）。在二分类问题中，经常用二元随机变量取某一值的概率表示这一类的概率。用参数 μ 表示 X 取值为1的概率，即

P （ X= 1 |μ ）= μ

注意，符号“| μ ”表示 μ 是该概率函数的参数。由于 X 只取两个值，用变量 x 表示 X 可能的取值，故将伯努利分布的概率函数写为紧凑的数学形式为

p （ x|μ ）= P （ X=x|μ ）= μ ^x （1- μ ） ¹ ^-x ， x ∈{0，1}　（2.2.1）

容易计算， X 的均值和方差分别为

E [ X ]= μ

var[ X ]= μ （1- μ ）

在后文中，若不存在理解模糊的情况下，可不必区分变量符号 X 和其取值 x 。

若有 N 个独立的伯努利变量 X _i ，1≤ i ≤ N ，定义一个新的随机变量，则称 Y 为二项分布（binomial distribution），其概率函数为

y 取整数，满足0≤ y ≤ N ，这里

容易计算（留作习题）

E [ Y ]= Nμ

var[ Y ]= Nμ （1- μ ）

2．多元分布和多项分布

比二元分布更一般的是，一个离散随机变量 X 可取 K 个不同的值。直接的表示就是定义 X 取不同值的概率，即 P （ X = k | μ ）= μ _k ，1≤ k ≤ K ，这里有 K 个参数 μ _k ，因为有限制条件，故只有 K -1个自由度。令1≤ x ≤ K 是一整型变量，则 X 的概率函数可写为

其中， I （·）是示性函数，其变量是逻辑量，定义为： I （真）=1， I （假）=0。

在分类问题中，若用 X 表示 K 个不同类型，可用以上讨论的 X 直接取 K 个不同标量值的表示方法。另一种常用方法是用“1-of- K ”编码方式，即用一个 K 维向量 x =[ x ₁ ， x ₂ ，…， x _K ] ^T 表示 X 的不同取值，当 X 取 k 时， x _k =1， x _j =0， j ≠ k ，即 x 向量中只有一个元素为1，其他为0，用这种编码表示方式，数学上更简洁。例如， X 代表骰子的面，有6个取值，则可用向量 x =[ x ₁ ， x ₂ ，…， x ₆ ] ^T 表示，若 X 取4，则对应向量 x =[0，0，0，1，0，0] ^T 。用编码向量 x 表示的概率函数可表示为

若独立产生 N 个编码的 x _n ，则得到多项分布，其概率函数为

其中排列组合式

3．二元和多元分布的共轭分布

在二元或多元概率函数中，存在参数 μ ，一些机器学习算法需要估计这些参数。如果用2.3节介绍的最大似然方法估计参数，则只需要采集样本集，但若使用2.4节介绍的贝叶斯方法，则还需要有待估计参数的先验概率，即对待估计参数 μ 的概率假设。注意到， μ 自身是连续的，但其可作为离散变量概率函数的参数，对其概率函数在本小节一并介绍。

在进行贝叶斯估计时，需要选择 μ 的概率函数，一种方法是首先考虑选择所谓“共轭”概率函数。在伯努利的概率函数式（2.2.1）中， μ 是以 μ 或（1- μ ）的指数形式出现的，若 μ 自身的先验概率也以这种形式表示，则称为共轭概率函数。对于 μ 的概率密度函数，一种共轭形式是贝塔分布，即

其中 α 、 β 是贝塔分布的参数， Γ （ α ）是伽马函数，定义为

可以算出贝塔分布均值为

类似地，对于多元分布，其参数是向量 μ =[ μ ₁ ， μ ₂ ，…， μ _K ] ^T ，其共轭分布称为Dirichlet分布，其概率密度函数为

其中，。

2.2.2　高斯分布

高斯分布是最常用的连续随机向量分布。这里用符号 x =[ x ₁ ， x ₂ ，…， x _M ] ^T 表示一个随机向量，为了简化符号，向量符号 x 既表示随机向量自身，又表示它的取值变量， M 维实高斯分布的联合概率密度函数为

这里 C _xx 表示随机向量 x 的自协方差矩阵， μ _x 是均值向量。

当均值为零时，以自相关矩阵 R _xx 代替自协方差矩阵 C _xx 。服从 M 维高斯分布的随机向量 x 可以用符号 x ～ N （ x | μ _x ， C _xx ）表示，这里 N （ x | μ _x ， C _xx ）代表的是式（2.2.7）的概率密度函数，在不发生理解模糊时也可简写为 N （ μ _x ， C _xx ）。

图2.2.1表示二维 x 情况下高斯分布的等概率曲线（等高线）。所谓等高线，是指当 p _x （ x ）给定一个常数 c 时，满足 p _x （ x ）= c 的所有 x 构成的曲线（高维情况下是曲面），由式（2.2.7）知，当 x = μ _x 时 p _x （ x ）取得最大值 p _max =[（2π） ^M ^/2 det ^1/2 （ C _xx ）] ^-1 ，若 C _xx 是正定的， p _x （ x ）取得最大值的点是唯一的。当 p _x （ x ）= c < p _max 时，满足 p _x （ x ）= c 的 x 构成方程

图2.2.1　高斯分布的等高线图示

这里 λ 是与 c 相关的常数，取不同的 c 得到不同的曲线，图2.2.1就是一组这样的曲线。当 C _xx = σ ² I 时，等高线是一组同心圆，这里 I 是单位矩阵。当， σ ₁ ≠ σ ₂ 时，等高线是椭圆，其主轴平行于坐标轴。当 C _xx 是任意的对称正定矩阵时，等高线是图2.2.1所示的一组斜的椭圆。等高线族的中心总是 x = μ _x ，常用等高线图描述高斯分布的特点。

高斯分布有一些独有的基本性质。若一个随机向量满足高斯分布，则其通过任意线性变换仍然满足高斯分布。

对于一个随机向量，若其联合概率密度函数满足高斯分布，仅考虑向量的一部分时，其边际密度仍是高斯的；若向量中的一部分已确定，另一部分的条件概率密度也是高斯的。

2.2.3　指数族

一类概率函数（包括连续与离散、概率函数与概率密度函数）可表示为如下形式

p （ x | η ）= h （ x ） g （ η ）exp[ η ^T u （ x ）]　（2.2.8）

这类概率函数称为指数族。其中， h （ x ）和 u （ x ）是 x 的函数， η 是参数， g （ η ）是使概率函数归一化的系数，若 x 是连续的，有

前面介绍的二元分布、多元分布和高斯分布都属于指数族。对伯努利分布，以下例子给出其组合成指数族的过程，高斯分布表示为指数族的过程留作习题。

例2.2.1 伯努利分布写成指数族表达式

设，令，则

p （ x|μ ）= σ （- η ）exp[ ηx ]　（2.2.9）

这是一种指数族形式。

指数族可以表示一类更广义的概率形式，有一些机器学习算法建立在指数族假设上时，比建立在诸如高斯假设这种单一概率假设下更有广泛性。

2.2.4　混合高斯过程

式（2.2.7）表示的高斯分布，在协方差矩阵 C _xx 是正定矩阵的情况下，其表示仅有单峰值的概率密度函数。尽管在很多情况下，用高斯分布可以相当好地描述样本的统计性质，且高斯分布具有便于处理的数学形式，但实际中还是有许多环境不能用高斯分布来刻画。一个基本的情况是，当实际概率密度函数存在多峰时，高斯过程是不适用的，但若对高斯分布进行一定的扩展，可以得到满足更一般情况的概率密度描述。混合高斯过程（mixture of Gaussian）是一种对高斯分布的扩展形式。混合高斯分布是多个高斯密度函数的组合，即

这里， p （ x ）是混合高斯过程的概率密度函数，其积分为1，故可得到

由于对所有的 x ，有 p （ x ）≥0，要求

0≤ c _k ≤1　（2.2.12）

或者说，在满足式（2.2.11）和（2.2.12）的条件下，式（2.2.10）所得到的 p （ x ）是一个合格的概率密度函数。

在一维情况下，由4个高斯函数混合得到的一个混合高斯过程的密度函数示于图2.2.2（注意，图中同时用虚线画出了各加权的高斯分量 c _k N （ x | μ _k ， C _k ）），它可以表述概率密度中存在多峰的情况。

图2.2.2　一个混合高斯过程的密度函数

实际中，通过选择充分大的 K 和参数集{ c _k ， μ _k ， C _k ， k =1，…， K }，一个混合高斯过程可以以任意精度逼近一个任意的概率密度函数。对于一个实际特征向量，当建模为式（2.2.10）的混合高斯过程时，若能够收集充分多的样本数据，则可以相当精确地估计出参数集，从而得到估计的概率密度函数。混合高斯过程参数估计问题，将在第11章进一步讨论。

2.2.5　马尔可夫过程

如果一个随机样本具有序列性，即 X ₁ ， X ₂ ，…， X _n ，…是按照其序列顺序产生的，前后之间有因果关系，若

P { X _n ≤ x _n |X _n- ₁ = x _n- ₁ ， X _n- ₂ = x _n- ₂ ，…， X ₁ = x ₁ }= P { X _n ≤ x _n |X _n- ₁ = x _n- ₁ }　（2.2.13）

则称该序列为马尔可夫过程。马尔可夫过程的含义是：当 X _n 的“现在”已知时，“将来”和“过去”的统计特性是无关的。在与序列有关的机器学习算法设计中，马尔可夫性可有效降低算法的复杂性。在强化学习中（见第12章），马尔可夫性得到深入应用。

2.2 概率实例

2.2.1 离散随机变量示例

1．二元分布和二项分布

2．多元分布和多项分布

3．二元和多元分布的共轭分布

2.2.2 高斯分布

2.2.3 指数族