决策算法最新章节_米凯尔·J.科申德弗著

2.2 概率分布

概率分布 （probability distribution）将概率分配给不同的结果 ^[5] 。根据是否涉及离散或连续的结果，可以使用不同的方法来表示概率分布。

2.2.1 离散概率分布

离散概率分布（discrete probability distribution）是一组离散值上的概率分布。我们可以将这样的概率分布表示为概率质量函数（probability mass function），该函数将概率分配给其输入变量的每一个可能的赋值。例如，假设我们有一个变量 X ， X 可以取1，…， n ，或者使用冒号表示法（colon notation）表示为1: n ^[6] 。与 X 相关的概率分布指定了该变量的各种赋值的 n 个概率，即 P （ X =1），…， P （ X = n ）。图2-1为离散概率分布的一个示例。

与离散分布相关的概率质量存在一些约束条件，即质量总和必须为1：

图2-1 变量取值为1:6上分布的概率质量函数

并且对于所有的 i ，满足0≤ P （ X = i ）≤1。

为了便于表示，在讨论变量的赋值时，我们将使用小写字母和上标的形式作为赋值的速记符号。例如， P （ x ³ ）是 P （ X =3）的速记形式。如果 X 是二元变量（binary variable，或称为二值变量、二分变量），则其取值可以为真（true）或假（false）。我们将用0表示假，用1表示真。例如，我们用 P （ x ⁰ ）表示 X 取值为假时的概率。

概率分布的参数（parameter）控制不同赋值相关的概率。例如，如果我们用 X 表示一个六面骰子的投掷结果，那么将得到 P （ x ¹ ）= θ ₁ ，…， P （ x ⁶ ）= θ ₆ ，其中 θ _1:6 是概率分布的六个参数。然而，我们只需要五个独立的参数（independent parameter）来唯一地指定投掷结果的概率分布，因为我们知道概率分布的总和必须为1。

2.2.2 连续概率分布

连续概率分布（continuous probability distribution）是一组连续值上的概率分布。相对于表示离散变量的概率分布，对连续变量概率分布的表示要稍微复杂一些。例如，在许多连续分布中，变量具有特定值的概率非常小。表示连续概率分布的一种方法是使用概率密度函数（probability density function）（见图2-2），使用小写字母表示。如果 p （ x ）是 X 上的概率密度函数，则 p （ x ）d x 是当d x →0时 X 落在区间（ x ， x +d x ）内的概率。与离散概率分布相关的概率质量之和必须为1相类似，连续概率分布的概率密度函数 p （ x ）的积分结果必须为1：

图2-2 使用概率密度函数表示连续概率分布。如果 p （ x ）是概率密度，则由矩形的面积表示的 p （ x ）d x 是当d x →0时，随机变量的样本落在区间（ x ， x +d x ）内的概率

表示连续分布的另一种方法是使用累积分布函数（cumulative distribution function）（见图2-3）。累积分布函数指定了与低于某个阈值的值相关的概率质量。如果我们有一个与变量 X 相关的累积分布函数 P ，那么 P （ x ）表示与 X 相关（ X 取值小于或等于 x ）的概率质量。基于概率密度函数 p ，累积分布函数可以定义如下：

图2-3 标准高斯分布的概率密度函数和累积分布函数

与累积分布函数相关的是分位数函数（quantile function），或称为逆累积分布函数（inverse cumulative distribution function）（见图2-4）。quantile _X （ α ）的计算结果是使得 P （ X ≤ x ）= α 的值 x 。换句话说，分位数函数返回累积分布值大于或等于 α 的 x 的最小值。当然，必须满足0≤ α ≤1。

存在许多不同的参数化分布类型，我们将在附录B中概述其中几个类型的分布方式。一种简单的分布类型是 均匀分布 （uniform distribution） U （ a ， b ）。均匀分布在 a 和 b 之间均匀分配概率密度，在 a 和 b 之外的其他情况下概率密度为零。因此，对于区间［ a ， b ］中的 x ，其概率密度函数为 p （ x ）=1/（ b—a ）。我们可以使用 U （ x | a ， b ）来表示 x 处的密度 ^[7] 。分布的支撑集（support，或支持集、支集）是密度不为0的一组值。在 U （ a ， b ）的情况下，支撑集取值区间为[ a ， b ]。参见示例2-1。

图2-4 标准高斯分布的分位数函数

示例2-1 下限为0、上限为10的均匀分布示例 。均匀分布 U （0，10）使用以下概率密度函数，为取值范围[0，10]内的所有数据分配相等的概率：

来自该分布的随机样本等于常数π的概率约为零。然而，我们可以定义样本在某个区间内（例如[3，5]）的非零概率。例如，给定此处所绘制的分布，样本位于3和5之间的概率为：

此分布的支撑集是区间[0，10]（见图2-5）。

图2-5 均匀分布的支撑集

连续变量的另一个常见分布是高斯分布（Gaussian distribution）［或称为正态分布（normal distribution）］。高斯分布包括两个参数，分别为平均值 μ 和方差 σ ² ：

其中， σ 是标准差（standard deviation），即方差的平方根。方差也可使用 ν 来表示。我们使用 N （ μ ， σ ² ）表示具有参数 μ 和 σ ² 的高斯分布， N （ x | μ ， σ ² ）表示 x 处的概率密度，其定义如下所示：

其中， ϕ 是标准正态密度函数（standard normal density function）：

附录B给出了具有不同参数的高斯密度函数图。

高斯分布通常易于使用，因为该分布函数仅由两个参数来定义，使得其计算和推导都非常容易，但它也有一定的局限性。高斯分布会将非零概率分配给较大的正值和负值，这可能不适用于我们试图建模的量值。例如，我们不希望为在地面以下飞行或超出可飞行高度飞行的飞机分配非零概率。我们可以使用截断高斯分布（truncated Gaussian distribution）（见图2-6）来限制可能值的支撑集，即分配非零概率的值的范围。其密度函数由下式定义：

图2-6 单位高斯分布的概率密度函数以及在—1和2之间截断的相同分布

其中， x 位于区间（ a ， b ）内。

函数 Φ 是标准正态累积分布函数（standard normal cumulative distribution function），其定义如下所示：

高斯分布是单模态的（unimodal），这意味着在数据分布中只存在一个峰值点，数据密度在一侧增加，在另一侧则减少。可以使用不同的方式来表示多模态（multimodal）数据的连续分布。其中一种方法是使用混合模型（mixture model），该模型是多种分布的混合，它将多个单模态分布混合在一起以获得一个多模态分布。高斯混合模型（Gaussian mixture model）是一种混合模型，该模型仅仅是各种高斯分布的加权平均值。高斯混合模型的参数包括高斯分布分量 μ ₁ _:n 和的参数以及这些参数的权重 ρ ₁ _:n 。其概率密度由下式定义：

其中，权重之和必须为1。示例2-2为具有两个分量的高斯混合模型。

示例2-2 高斯混合模型的一个示例。 我们可以创建一个高斯混合模型，包括如下两组分量： μ ₁ =5、 σ ₁ =2和 μ ₂ =—5、 σ ₂ =4，并且基于 ρ ₁ =0.6和 ρ ₂ =0.4进行加权。我们绘制了这两组分量的概率密度（按其权重进行了缩放），如图2-7所示。

图2-7 高斯混合模型两组分量的概率密度

表示多模态连续分布的另一种方法是离散化。例如，我们可以将连续变量上的分布表示为分段均匀密度（piecewise-uniform density）。其中，密度由箱边界指定，概率质量与每个箱相关。这种分段均匀分布是混合模型，其中的分量是均匀分布的。