决策算法最新章节_米凯尔·J.科申德弗著

2.4 条件分布

上一节介绍了独立性的概念，独立性将有助于减少用于定义联合分布的参数数量。然而，正如前面所提到的，独立性可能是一种过于苛刻的假设。本节将介绍条件独立性的概念，它可以帮助减少独立参数的数量，从而避免做出与独立性同样苛刻的假设。在讨论条件独立性之前，我们将首先介绍条件分布（conditional distribution）的概念：若给定一个或多个其他变量值，则某个变量上的分布称为条件分布。

条件概率（conditional probability）的定义如下所示：

其中， P （ x | y ）可解读为“当给定 y 时， x 的概率”。在某些情况下，通常将 y 作为证据（evidence）。

由于条件概率分布是在给定某些证据的前提下一个或多个变量的概率分布，因此如果 X 是离散变量，那么以下公式成立：

如果 X 是连续变量，那么上述公式求和的结果为1。

我们可以将条件概率的定义纳入式（2.18）中，即可得到离散的全概率法则形式：

注意，该公式只针对离散分布。

根据条件概率的定义可以推导出另一个有用的关系公式，即贝叶斯规则（Bayes' rule） ^[10] ：如果我们有一个条件分布 P （ y | x ），那么就可以应用贝叶斯规则来交换 y 和 x ，以获得条件分布 P （ x | y ）。

接下来，我们将分别讨论表示离散变量和连续变量的条件概率分布的各种方法。

2.4.1 离散条件模型

离散变量上的条件概率分布可以使用表格数据来表示。事实上，我们可以使用2.3.1节中用于联合分布的离散因子来表示。表2-4为使用所有二元变量表示 P （ X | Y ， Z ）的表格示例。与联合分布表（例如表2-1）相比， P （ X | Y ， Z ）的表格示例不要求包含概率的所有列之和为1。然而，如果对条件一致的概率求和，那么结果必须得到1。例如，在条件 y ⁰ 和 z ⁰ （证据）上，我们有：

表2-4 包含二元变量 X 、 Y 和 Z 的条件分布示例

条件概率表可能会变得很大。如果我们要创建一个类似于表2-4的表，其中所有变量都可以接受 m 个值，我们将 n 个变量作为条件，那么表中将包含 m ⁿ ⁺¹ 行的数据。然而，由于这 m 个值（不作为条件变量）的和必须为1，因此只有（ m —1） m ⁿ 个独立参数。我们所依据的变量数量仍呈指数增长。当条件概率表中有许多重复值时，决策树（在2.3.1节中介绍）可能是更有效的表示。

2.4.2 条件高斯模型

如果给定一个或多个离散变量，则可以使用条件高斯模型（conditional Gaussian model）来表示连续变量上的分布。例如，如果有一个取值为1: n 的连续变量 X 和一个离散变量 Y ，则可以定义如下的条件高斯模型：

其中，参数向量 θ =[ μ ₁ _:n ， σ ₁ _:n ]。所有2 n 个参数都可以独立变化。如果我们想在多个离散变量上设置条件，则只需要添加更多的条件和相关参数。

2.4.3 线性高斯模型

P （ X | Y ）的线性高斯（linear Gaussian）模型将连续变量 X 上的分布表示为高斯分布，均值为连续变量 Y 值的线性函数。条件密度函数为：

图2-12 一个线性高斯模型： p （ x | y ）= N （ x |2 y +1，10 ² ）

其中，参数 θ =［ m ， b ， σ ］。均值是关于 y 的线性函数，由参数 m 和 b 定义。方差是常数。图2-12为一个线性高斯模型的示例。

2.4.4 条件线性高斯模型

条件线性高斯（conditional linear Gaussian）模型结合了条件高斯模型和线性高斯模型的思想，能够将离散变量和连续变量作为一个连续变量的条件。假设我们要表示 p （ X | Y ， Z ），其中 X 和 Y 是连续变量， Z 是离散变量（取值为1: n ），那么条件密度函数可以定义为：

其中，参数向量 θ =［ m _1: _n ， b _1: _n ， σ _1: _n ］包含3 n 个分量。

2.4.5 sigmoid模型

我们可以使用sigmoid 模型来表示以连续变量为条件的二元变量上的分布。例如，我们可能想表示 P （ x ¹ | y ），其中 x 是二元离散变量， y 是连续变量。当然，我们可以设置一个阈值 θ ，如果 y ＜ θ ，则 P （ x ¹ | y ）=0；否则 P （ x ¹ | y ）=1。然而，在许多应用中，我们可能不希望设置这样一个硬阈值，这会导致当 y 为某些特定值时， x ¹ 的概率会被赋值为零。

我们可以使用软阈值（soft threshold）来代替硬阈值。在使用软阈值的情况下，当低于阈值时赋以低概率值，当高于阈值时赋以高概率值。表示软阈值的一种方法是使用logit模型，该模型生成S形曲线：

图2-13 logit模型（ θ ₁ =0， θ ₂ 取不同值）

其中，参数 θ ₁ 控制阈值的位置， θ ₂ 控制概率的“软度”或扩散度。图2-13为具有logit模型的 P （ x ¹ | y ）。

2.4.6 确定性变量

一些问题可能涉及确定性变量（deterministic variable）。确定性变量的值在给定证据的情况下是固定的。换而言之，如果一个值是其证据的确定性函数，那么该值的概率为1。可以使用条件概率表来表示确定性离散变量，但这会造成内存浪费。对于单个变量实例化，对于每个父级实例化，其概率为1，其余概率为0。我们可以利用这种稀疏性来实现更紧凑的表示。在本书中，使用离散因子的算法将因子表中缺失的任何赋值视为0，因此我们只需要存储具有非零概率的赋值。