决策算法最新章节_米凯尔·J.科申德弗著

2.8 练习题

练习题2-1 假设有一个连续随机变量 X ， X 服从参数为 λ 的指数分布（exponential distribution），其密度函数为 p （ x | λ ）= λ exp（ —λx ），其支撑集为非负区间。请计算变量 X 的累积分布函数。

参考答案：我们从累积分布函数的定义开始考虑。由于分布的支撑集下限为 x =0，因此区间（—∞，0）中没有概率质量，从而可以将积分的下限调整为0。积分计算后，可以得到cdf _X （ x ）：

练习题2-2 对于图2-7中的概率密度函数，混合模型的五种分量是什么？（存在多种合理的参考答案。）

参考答案：一个解决方案是 U （[—10，—10]，[—5，10]）， U （[—5，0]，[0，10]）， U （[—5，—10]，[0，0]）， U （[0，—10]，[10，5]）和 U （[0，5]，[10，10]）。

练习题2-3 给定如表2-5表示的 P （ X ， Y ， Z ），请生成其等价的决策树以更简洁地表示表中的值。

参考答案：我们从最常见的两个概率开始：0.13（当 Z =0和 Y =0时的概率）和0.05（当 Z =1和 Y =1时的概率）。我们选择将 Z 作为决策树的根，当 Z =0时，将 Z 连接到 Y 节点。根据 Y 的值，得到两个分支0.13和0.05。接下来，继续处理 Z =1时的情况。此时最常见的两个概率分别为0.02（当 Z =1和 X =0时的概率）和0.12（当 Z =2和 X =2时的概率）。因此，当 Z =1时，将 Z 连接到 X 节点。根据 X 是0、1还是2，继续分别连接到0.02、 Y 节点或0.12。最后，根据 Y 的值，将 Y 连接到两个分支0.01和0.17，最终所生成的决策树如图2-16所示。

表2-5 P （ X ， Y ， Z ）

图2-16 练习题2-3生成的决策树

练习题2-4 假设我们需要指定一个多变量高斯混合模型，其中在4个变量上定义三个分量。要求存在三个高斯分布，其中的两个高斯分布假设4个变量之间存在独立性，而另一个高斯分布则定义4个变量之间不存在任何独立性假设。请问确定这样一个混合模型需要多少个独立参数？

参考答案：对于具有独立性假设的4个变量（ n =4）上的高斯分布，我们需要指定 n + n =2 n =8个独立参数；均值向量需要4个参数，协方差矩阵需要4个参数（相当于4个独立的单变量高斯分布的均值和方差参数）。对于不存在独立性假设的4个变量上的高斯分布，我们需要指定 n + n （ n +1）/2=14个独立参数；均值向量需要4个参数，协方差矩阵需要10个参数。此外，对于混合模型的三个分量（ k =3），我们需要为权重指定 k —1=2个独立参数。因此，我们总共需要2×8+1×14+2=32个独立参数来指定该多变量高斯混合模型的分布。

练习题2-5 假设有3个独立变量 X _1:3 ，分别由具有4、7和3个箱边界的分段恒定密度所定义。请问总共需要多少个独立参数来指定其联合分布？

参考答案：对于一个具有 m 个箱边界的分段恒定密度，存在 m —1个箱（bin）和 m —2个独立参数。对于本题，将有（4—2）+（7—2）+（3—2）=8个独立参数。

练习题2-6 假设有4个连续的随机变量 X ₁ 、 X ₂ 、 Y ₁ 和 Y ₂ ，并且希望在给定 Y = Y _1:2 的情况下构造一个 X = X _1:2 的线性高斯模型，即 p （ X | Y ）。请问该模型需要多少个独立参数？

参考答案：在这种情况下，高斯分布的均值向量是二维的，需要4个独立的参数用于变换矩阵 M ，同时需要2个独立的参数用于偏置向量 b 。我们还需要3个独立的参数用于协方差矩阵 ∑ 。因此，我们总共需要4+2+3=9个独立参数来指定该模型：

p （ x | y ）= N （ x | My + b ， ∑ ）

练习题2-7 给定如图2-17所示的贝叶斯网络，其中每个节点可以取4个值中的1个，请问总共存在多少个独立的参数？与使用完全联合概率表相比，使用如图所示的贝叶斯网络时，所需的独立参数数量减少了百分之多少？

图2-17 练习题2-7的贝叶斯网络

参考答案：每个节点的独立参数数量等于（ k —1） k ^m ，其中 k 是节点可以接受的值的数量， m 是节点拥有的父节点数。变量 A 有3个独立参数，变量 B 有12个独立参数，变量 C 有48个独立参数，变量 D 有3个独立参数，变量 E 有12个独立参数，变量 F 有48个独立参数。因此，这个贝叶斯网络总共有126个独立参数。

指定 n 个变量的联合概率表所需的独立参数的数量等于 k ⁿ —1。因此，指定联合概率表需要4 ⁶ —1=4096—1=4095个独立参数。所需独立参数数量减少的百分比为（4095—126）/4095≈96.9%。

练习题2-8 给定如图2-18所示的贝叶斯网络，在给定 C 的情况下， A 是否与 E 形成d-分离？

参考答案：从 A 到 E 有两条路径： A → D → E 和 A → C → E 。沿着第二条路径存在d-分离，而第一条路径中不存在d-分离。因此，在给定 C 的情况下， A 与 E 不形成d-分离。

练习题2-9 给定如图2-19所示的贝叶斯网络，请确定 B 的马尔可夫毯。

图2-18 练习题2-8的贝叶斯网络

图2-19 练习题2-9的贝叶斯网络

参考答案：从 B 到 A 的路径只能在给定 A 的情况下进行d-分离。从 B 到 D 的路径只能在给定d的情况下进行d-分离。从 B 到 E 的路径，以及从 B 到 F 、 G 和 H 的路径，可以在给定 E 的情况下有效地进行d-分离。由于存在v结构，从 B 到 C 的路径自然地实现了d-分离；然而，由于 E 必须包含在马尔可夫毯中，给定 E ，从 B 到 C 的路径只能在给定 C 的情况下进行d-分离。因此， B 的马尔可夫毯是{ A ， C ， D ， E }。

练习题2-10 在具有结构 A → B 的贝叶斯网络中，请问 A 是否有可能独立于 B ？

参考答案：因为存在一个从 A 到 B 的直接箭头，这表明独立性不是隐含的。然而，这并不意味着 A 和 B 不满足独立性。 A 和 B 是否满足独立性取决于条件概率表的选择。我们可以选择存在独立性的条件概率表。例如，假设两个变量都是二元数据，并且 P （ a ）=0.5是均匀分布， P （ b | a ）=0.5。显然， P （ A ） P （ B | A ）= P （ A ） P （ B ），这意味着 A 和 B 是相互独立的。

[1] 各种表示不确定性的方法请参见F. Cuzzolin， The Geometry of Uncertainty . Springer，2021。

[2] 更全面的阐述参见E.T.Jaynes， Probability Theory ： The Logic of Science .Cambridge University Press，2003。

[3] 具体讨论请参见E.T.Jaynes， Probability Theory ： The Logic of Science .Cambridge University Press，2003。

[4] P.C.Fishburn，“The Axioms of Subjective Probability，” Statistical Science ，vol.1，no.3，pp.335-345，1986提出了主观概率公理化。有关公理化的最新研究成果，请参见M.J.Dupré and F.J.Tipler，“New Axioms for Rigorous Bayesian Probability，” Bayesian Analysis ，vol.4，no.3，pp.599-606，2009。

[5] 有关概率论的介绍，请参见D.P.Bertsekas and J.N.Tsitsiklis， Introduction to Probability .Athena Scientific，2002。

[6] 大多数情况下，为了简洁，我们将使用冒号表示法。在其他文献中，有时会使用符号［1，…， n ］表示从1到 n 的整数区间值。我们也将使用冒号表示法来表示向量和矩阵的索引值（下标值），例如 x _1: _n 表示 x ₁ ，…， x _n 。诸如Julia和MATLAB等程序设计语言也使用这种冒号表示法。

[7] 在有些文献中，使用分号来分隔分布的参数。例如， U （ x | a ， b ）也可以记作 U （ x ； a ， b ）。

[8] 如果分布是连续的，那么通过求其他变量的概率的积分来计算边缘分布。例如： p （ x ）=∫ p （ x ， y ）d y 。

[9] 如果已知 ∑ 的上三角中的各个参数，那么可以得到其下三角中的各个参数，因为 ∑ 是对称的。

[10] 以英国统计学家托马斯·贝叶斯（Thomas Bayes，约1701—1761年）命名，他提出这一定理的公式。其历史参见S.B.McGrayne， The Theory That Would Not Die .Yale University Press，2011。

[11] 有关贝叶斯网络和其他形式的概率图模型的深入讨论，请参见D.Koller and N.Friedman， Probabilistic Graphical Models ： Principles and Techniques .MIT Press，2009。

[12] 在因果网络（causal network）中，边的方向表示变量之间的因果关系。然而，在一般贝叶斯网络中不需要因果关系。具体请参见J.Pearl， Causality ： Models ， Reasoning ， and Inference ，2nd ed.Cambridge University Press，2009。

[13] 有效确定d-分离的实现算法比较复杂。具体请参见文献D.Koller and N.Friedman， Probabilistic Graphical Models ： Principles and Techniques .MIT Press，2009中的算法3.1。

[14] 以俄罗斯数学家Andrey Andreyevich Markov（1856—1922）命名。参见J.Pearl， Probabilistic Reasoning in Intelligent Systems ： Networks of Plausible Inference .Morgan Kaufmann，1988。