《细说机器学习：从理论到实践》

2.4　概率论基础

概率论是对不确定性的研究，概率论的数学理论非常复杂，本节提供了概率的一些基本理论，以便进行后续的机器学习，但是不会涉及更多复杂的细节，读者如有需求，请参考相关教材。

2.4.1　基本概念和符号

为了定义集合上的概率，需要掌握下面的基本概念。

样本空间Ω：随机实验的所有结果的集合。在这里，每个结果 w ∈Ω可以被认为是实验结束时现实世界状态的完整描述。

事件集（事件空间）：元素的集合（称为事件）是Ω的子集（即每个 A ⊆Ω是一个实验可能结果的集合）。

备注： 需要满足以下3个条件：

（1）。

（2）。

（3）。

概率度量 P ：函数 P 是一个的映射，满足以下性质：

◆　对于每个， P ( A )≥0。

◆ P (Ω)=1。

◆　如果 A ₁ , A ₂ ,…是互不相交的事件（即当 i ≠ j 时，），那么：

假设 B 是一个概率非0的事件，定义在给定 B 的条件下 A 的条件概率为：

换句话说， P ( A | B )是度量已经观测到 B 事件发生的情况下 A 事件发生的概率，两个事件被称为独立事件当且仅当 P ( A ∩ B )= P ( A ) P ( B )（或等价地， P ( A | B )= P ( A )）。因此，独立性相当于是说观察到事件 B 对于事件 A 的概率没有任何影响。

2.4.2　随机变量

考虑一个实验，翻转10枚硬币，想知道正面硬币的数量。这里，样本空间Ω的元素是长度为10的序列。例如，可能有 w ₀ ={ H , H , T , H , T , H , H , T , T , T }∈Ω。

然而，在实践中，通常不关心获得任何特定正反序列的概率。相反，通常关心结果的实值函数，比如10次投掷中出现的正面数，在某些技术条件下，这些函数被称为随机变量。

1．累积分布函数

为了指定处理随机变量时使用的概率度量，通常可以方便地指定替代函数（CDF、PDF和PMF），下面将依次描述这些类型的函数。

累积分布函数（CDF）是函数，它将概率度量指定为：

性质：

0≤ F _X ( x )≤1。

。

x ≤ y ⇒ F _X ( x )≤ F _X ( y )。

2．概率质量函数

当随机变量 X 取有限种可能值（即 X 是离散随机变量）时，表示与随机变量相关联的概率的更简单的方法是直接指定随机变量可以假设的每个值的概率。特别是，概率质量函数（PMF）是函数，这样：

在离散随机变量的情况下，使用符号Val( X )表示随机变量 X 假设的一组可能值。例如， X ( ω )是一个随机变量，表示10次投掷硬币中的正面数，那么Val( X )={0,1,2,…,10}。

性质：

0≤ p _X ( x )≤1。

。

3．概率密度函数

对于一些连续随机变量，累积分布函数 F _X ( x )处可微。在这些情况下，将概率密度函数（PDF）定义为累积分布函数的导数，即：

注意，连续随机变量的概率密度函数可能并不总是存在的（即它不是处处可微的）。

根据微分的性质，对于很小的△ x ，有

P ( x ≤ X ≤ x +△ x )≈ f _X ( x )△ x

当CDF和PDF存在时，都可用于计算不同事件的概率。需要强调的是，任意给定点的概率密度函数（PDF）的值不是该事件的概率，即 f _X ( x )≠ P ( X = x )。例如， f _X ( x )可以取大于1的值（但是 f _X ( x )在的任何子集上的积分最多为1）。

性质：

f _X ( x )≥0。

。

4．期望

假设 X 是一个离散随机变量，其PMF为 p _X ( x )，是一个任意函数。在这种情况下， g ( X )可以被视为随机变量，将 g ( X )的期望值定义为：

如果 X 是一个连续的随机变量，其PDF为 f _X ( x )，那么 g ( X )的期望值被定义为：

直觉上， g ( X )的期望值可以被认为是 g ( x )对于不同的 x 值可以取的值的“加权平均值”，其中权重由 p _X ( x )或 f _X ( x )给出。作为上述情况的特例，请注意，随机变量本身的期望值是通过令 g ( x )= x 得到的，这也被称为随机变量的平均值。

性质：

对于任意常数， E [ a ]= a 。

对于任意常数， E [ af ( X )]= aE [ f ( X )]。

线性期望： E [ f ( X )+ g ( X )]= E [ f ( X )]+ E [ g ( X )]。

对于一个离散随机变量 X ， E [1{ X = k }]= P ( X = k )。

5．方差

随机变量 X 的方差是随机变量 X 的分布围绕其平均值集中程度的度量。形式上，随机变量 X 的方差定义为：

使用上一节中的性质，可以导出方差的替代表达式：

其中第二个等式来自期望的线性，以及 E [ X ]相对于外层期望实际上是常数的事实。

性质：

对于任意常数，Val[ a ]=0。

对于任意常数，Var[ af ( X )]= a ² Var[ f ( X )]。

举例： 计算均匀随机变量 X 的平均值和方差，任意 x ∈[0,1]，其PDF为 p _X ( x )=1，其他地方为0。

举例： 假设对于一些子集 A ⊆Ω，有 g ( x )=1{ x ∈ A }，试计算 E [ g ( X )]。

（1）离散情况：

（2）连续情况：

2.4.3　两个随机变量

到目前为止，已经学习了单个随机变量。然而，在许多情况下，在随机实验中，可能有不止一个感兴趣的量。在本小节中，考虑两个随机变量的情况。

1．联合分布和边缘分布

假设有两个随机变量，一个方法是分别考虑它们。如果这样做，只需要 F _X ( x )和 F _Y ( y )。但是如果想知道在随机实验的结果中， X 和 Y 同时假设的值，需要一个更复杂的结构，称为 X 和 Y 的联合累积分布函数，定义如下：

F _XY ( x , y )= P ( X ≤ x , Y ≤ y )

可以证明，通过了解联合累积分布函数，可以计算出任何涉及 X 和 Y 的事件的概率。

联合CDF： F _XY ( x , y )和每个变量的联合分布函数 F _X ( x )和 F _Y ( y )分别由下式关联：

这里称 F _X ( x )和 F _Y ( y )为 F _XY ( x , y )的边缘累积概率分布函数。

性质：

0≤ F _XY ( x , y )≤1。

。

2．联合概率和边缘概率质量函数

如果 X 和 Y 是离散随机变量，那么联合概率质量函数由下式定义：

p _XY ( x , y )= P ( X = x , Y = y )

这里，对于任意 x , y ，0≤ P _XY ( x , y )≤1，并且。

两个变量上的联合PMF分别与每个变量的概率质量函数有什么关系？事实上：

p _Y ( y )与之类似。在这种情况下，称 p _X ( x )为 X 的边际概率质量函数。在统计学中，将一个变量相加形成另一个变量的边缘分布的过程通常称为“边缘化”。

3．联合概率和边缘概率密度函数

假设 X 和 Y 是两个连续的随机变量，具有联合分布函数 F _XY 。在 F _XY ( x , y )在 x 和 y 中处处可微的情况下，可以定义联合概率密度函数：

如同在一维情况下， f _XY ( x , y )≠ P ( X = x , Y = y )，而是：

请注意，概率密度函数 f _XY ( x , y )的值总是非负的，但它们可能大于1。尽管如此，可以肯定的是。

与离散情况相似，定义：

作为 X 的边际概率密度函数（或边际密度）， f _Y ( y )也与之类似。

4．条件概率分布

条件分布试图回答这样一个问题，当知道 X 必须取某个值 x 时， Y 上的概率分布是什么？在离散情况下，给定 Y 的条件概率质量函数是简单的：

假设分母不等于0。

在连续的情况下，在技术上要复杂一点，因为连续随机变量的概率等于零。忽略这一技术点，通过类比离散情况，简单地定义给定 X = x 的条件概率密度为：

假设分母不等于0。

5．贝叶斯定理

当试图通过推导一个变量给定另一个变量的条件概率表达式时，多采用贝叶斯定理。

对于离散随机变量 X 和 Y ：

对于连续随机变量 X 和 Y ：

6．独立性

如果对于 X 和 Y 的所有值， F _XY ( x , y )= F _X ( x ) F _Y ( y )，则两个随机变量 X 和 Y 是独立的。等价于：

对于离散随机变量，对于任意 x ∈Val( X )， y ∈Val( Y )， p _XY ( x , y )= p _X ( x ) p _Y ( y )。

对于离散随机变量，对于任意 y ∈Val( Y )且 p _X ( x )≠0， p _Y | X ( y | x )= p _Y ( y )。

对于连续随机变量，对于任意 x , ， f _XY ( x , y )= f _X ( x ) f _Y ( y )。

对于连续随机变量，当 f _X ( x )≠0时，对于任意， f _Y _| _X ( y | x )= f _Y ( y )。

非正式地说，如果“知道”一个变量的值永远不会对另一个变量的条件概率分布有任何影响，那么两个随机变量 X 和 Y 是独立的，也就是说，只要知道 f ( x )和 f ( y )，就知道关于这对变量( X , Y )的所有信息。下面将这一观察形式化。

如果 X 和 Y 是独立的，那么对于任何，有：

P ( X ∈ A , Y ∈ B )= P ( X ∈ A ) P ( Y ∈ B )

利用上述结论，可以证明如果 X 与 Y 无关，那么 X 的任何函数也与 Y 的任何函数无关。

7．期望和方差

假设有两个离散的随机变量 X 和 Y ，并且 g : R ² → R 是这两个随机变量的函数，那么 g 的期望值以如下方式定义：

对于连续随机变量 X 和 Y ，类似的表达式是：

可以用期望的概念来研究两个随机变量之间的关系。两个随机变量的协方差定义为：

使用类似于方差的推导，可以将它重写为：

在这里，说明两种协方差形式相等的关键步骤是第三个等号，在这里使用了这样一个事实，即 E [ X ]和 E [ Y ]实际上是常数，可以被提出来。当Cov[ X , Y ]=0时， X 和 Y 不相关。

性质：

（期望线性） E [ f ( X , Y )+ g ( X , Y )]= E [ f ( X , Y )]+ E [ g ( X , Y )]。

Var[ X + Y ]=Var[ X ]+Var[ Y ]+2Cov[ X , Y ]。

如果 X 和 Y 相互独立，那么Cov[ X , Y ]=0。

如果 X 和 Y 相互独立，那么 E [ f ( X ) g ( Y )]= E [ f ( X )] E [ g ( Y )]。

2.4.4　多个随机变量

前面介绍的概念和想法可以推广到两个以上的随机变量。

1．基本性质

可以定义 X ₁ , X ₂ ,…, X _n 的联合累积分布函数、联合概率密度函数，以及给定 X ₂ ,…, X _n 时 X ₁ 的边缘概率密度函数为：

为了计算事件的概率，有：

从多个随机变量的条件概率的定义中，可以看出：

独立性： 对于多个事件 A ₁ ,…, A _k ，如果 A ₁ ,…, A _k 是相互独立的，对于任何子集 S ⊆{1,2,…, k }，则有：

同样，如果定义随机变量 X ₁ , X ₂ ,…, X _n 是独立的，则：

f ( x ₁ ,…, x _n )= f ( x ₁ ) f ( x ₂ )… f ( x _n )

这里，相互独立性的定义只是两个随机变量的独立性到多个随机变量的自然推广。

独立随机变量经常出现在机器学习算法中，其中假设属于训练集的训练样本代表来自某个未知概率分布的独立样本。

为了明确独立性的重要性，考虑一个“坏的”训练集，首先从某个未知分布中抽取一个训练样本( x ⁽¹⁾ , y ⁽¹⁾ )，然后将完全相同的训练样本的 m -1个副本添加到训练集中。在这种情况下，则：

尽管训练集的大小为 m ，但这些例子并不独立。虽然这里描述的过程显然不是为机器学习算法建立训练集的明智方法，但是事实证明，在实域中，样本的不独立性确实经常出现，并且它具有减小训练集的“有效大小”的效果。

2．随机向量

假设有 n 个随机变量。当把所有随机变量放在一起工作时，经常会发现把它们放在一个向量中很方便，通常称结果向量为随机向量（更正式地说，随机向量是从Ω到的映射）。

注意，随机向量只是处理 n 个随机变量的一种替代符号，因此联合概率密度函数和综合密度函数的概念也将适用于随机向量。

期望： 考虑中的任意函数，则该函数的期望值被定义为：

其中，是从-∞到∞的 n 个连续积分。如果 g 是从到的函数，那么 g 的期望值是输出向量的元素期望值。即，如果 g 是：

则：

协方差矩阵： 对于给定的随机向量，其协方差矩阵∑是 nn 平方矩阵，其输入由给出。从协方差的定义来看，则：

其中矩阵期望以明显的方式定义。协方差矩阵有许多有用的属性：

∑≥0：也就是说，∑是正半定的。

∑=∑ ^T ：也就是说，∑是对称的。

3．多元高斯分布

随机向量上概率分布的一个特别重要的例子叫作多元高斯或多元正态分布。随机向量被认为具有多元正态（或高斯）分布，当其具有均值和协方差矩阵（其中指对称正定 n × n 矩阵的空间）时：

把它写成。请注意，在 n =1的情况下，它降维成普通正态分布，其中均值参数为 μ ₁ ，方差为∑ ₁₁ 。

一般来说，高斯随机变量在机器学习和统计中非常有用，主要有两个原因：

首先，在统计算法中对“噪声”建模时，高斯随机变量非常常见。通常，噪声可以被认为是影响测量过程的大量且小的独立随机扰动的累积；根据中心极限定理，独立随机变量的总和将趋向于“看起来像高斯分布”。

其次，高斯随机变量便于许多分析操作，这是因为实际中出现的许多涉及高斯分布的积分都有简单的封闭形式解。

2.4 概率论基础

2.4.1 基本概念和符号

2.4.2 随机变量