练习题2-1 假设有一个连续随机变量 X , X 服从参数为 λ 的 指数分布 (exponential distribution),其密度函数为 p ( x | λ )= λ exp( —λx ),其支撑集为非负区间。请计算变量 X 的累积分布函数。
参考答案 :我们从累积分布函数的定义开始考虑。由于分布的支撑集下限为 x =0,因此区间(—∞,0)中没有概率质量,从而可以将积分的下限调整为0。积分计算后,可以得到cdf X ( x ):
练习题2-2 对于图2-7中的概率密度函数,混合模型的五种分量是什么?(存在多种合理的参考答案。)
参考答案 :一个解决方案是 U ([—10,—10],[—5,10]), U ([—5,0],[0,10]), U ([—5,—10],[0,0]), U ([0,—10],[10,5])和 U ([0,5],[10,10])。
练习题2-3 给定如表2-5表示的 P ( X , Y , Z ),请生成其等价的决策树以更简洁地表示表中的值。
参考答案 :我们从最常见的两个概率开始:0.13(当 Z =0和 Y =0时的概率)和0.05(当 Z =1和 Y =1时的概率)。我们选择将 Z 作为决策树的根,当 Z =0时,将 Z 连接到 Y 节点。根据 Y 的值,得到两个分支0.13和0.05。接下来,继续处理 Z =1时的情况。此时最常见的两个概率分别为0.02(当 Z =1和 X =0时的概率)和0.12(当 Z =2和 X =2时的概率)。因此,当 Z =1时,将 Z 连接到 X 节点。根据 X 是0、1还是2,继续分别连接到0.02、 Y 节点或0.12。最后,根据 Y 的值,将 Y 连接到两个分支0.01和0.17,最终所生成的决策树如图2-16所示。
表2-5 P ( X , Y , Z )
图2-16 练习题2-3生成的决策树
练习题2-4 假设我们需要指定一个多变量高斯混合模型,其中在4个变量上定义三个分量。要求存在三个高斯分布,其中的两个高斯分布假设4个变量之间存在独立性,而另一个高斯分布则定义4个变量之间不存在任何独立性假设。请问确定这样一个混合模型需要多少个独立参数?
参考答案 :对于具有独立性假设的4个变量( n =4)上的高斯分布,我们需要指定 n + n =2 n =8个独立参数;均值向量需要4个参数,协方差矩阵需要4个参数(相当于4个独立的单变量高斯分布的均值和方差参数)。对于不存在独立性假设的4个变量上的高斯分布,我们需要指定 n + n ( n +1)/2=14个独立参数;均值向量需要4个参数,协方差矩阵需要10个参数。此外,对于混合模型的三个分量( k =3),我们需要为权重指定 k —1=2个独立参数。因此,我们总共需要2×8+1×14+2=32个独立参数来指定该多变量高斯混合模型的分布。
练习题2-5 假设有3个独立变量 X 1:3 ,分别由具有4、7和3个箱边界的分段恒定密度所定义。请问总共需要多少个独立参数来指定其联合分布?
参考答案 :对于一个具有 m 个箱边界的分段恒定密度,存在 m —1个 箱 (bin)和 m —2个独立参数。对于本题,将有(4—2)+(7—2)+(3—2)=8个独立参数。
练习题2-6 假设有4个连续的随机变量 X 1 、 X 2 、 Y 1 和 Y 2 ,并且希望在给定 Y = Y 1:2 的情况下构造一个 X = X 1:2 的线性高斯模型,即 p ( X | Y )。请问该模型需要多少个独立参数?
参考答案 :在这种情况下,高斯分布的均值向量是二维的,需要4个独立的参数用于变换矩阵 M ,同时需要2个独立的参数用于偏置向量 b 。我们还需要3个独立的参数用于协方差矩阵 ∑ 。因此,我们总共需要4+2+3=9个独立参数来指定该模型:
p ( x | y )= N ( x | My + b , ∑ )
练习题2-7 给定如图2-17所示的贝叶斯网络,其中每个节点可以取4个值中的1个,请问总共存在多少个独立的参数?与使用完全联合概率表相比,使用如图所示的贝叶斯网络时,所需的独立参数数量减少了百分之多少?
图2-17 练习题2-7的贝叶斯网络
参考答案 :每个节点的独立参数数量等于( k —1) k m ,其中 k 是节点可以接受的值的数量, m 是节点拥有的父节点数。变量 A 有3个独立参数,变量 B 有12个独立参数,变量 C 有48个独立参数,变量 D 有3个独立参数,变量 E 有12个独立参数,变量 F 有48个独立参数。因此,这个贝叶斯网络总共有126个独立参数。
指定 n 个变量的联合概率表所需的独立参数的数量等于 k n —1。因此,指定联合概率表需要4 6 —1=4096—1=4095个独立参数。所需独立参数数量减少的百分比为(4095—126)/4095≈96.9%。
练习题2-8 给定如图2-18所示的贝叶斯网络,在给定 C 的情况下, A 是否与 E 形成d-分离?
参考答案 :从 A 到 E 有两条路径: A → D → E 和 A → C → E 。沿着第二条路径存在d-分离,而第一条路径中不存在d-分离。因此,在给定 C 的情况下, A 与 E 不形成d-分离。
练习题2-9 给定如图2-19所示的贝叶斯网络,请确定 B 的马尔可夫毯。
图2-18 练习题2-8的贝叶斯网络
图2-19 练习题2-9的贝叶斯网络
参考答案 :从 B 到 A 的路径只能在给定 A 的情况下进行d-分离。从 B 到 D 的路径只能在给定d的情况下进行d-分离。从 B 到 E 的路径,以及从 B 到 F 、 G 和 H 的路径,可以在给定 E 的情况下有效地进行d-分离。由于存在v结构,从 B 到 C 的路径自然地实现了d-分离;然而,由于 E 必须包含在马尔可夫毯中,给定 E ,从 B 到 C 的路径只能在给定 C 的情况下进行d-分离。因此, B 的马尔可夫毯是{ A , C , D , E }。
练习题2-10 在具有结构 A → B 的贝叶斯网络中,请问 A 是否有可能独立于 B ?
参考答案 :因为存在一个从 A 到 B 的直接箭头,这表明独立性不是隐含的。然而,这并不意味着 A 和 B 不满足独立性。 A 和 B 是否满足独立性取决于条件概率表的选择。我们可以选择存在独立性的条件概率表。例如,假设两个变量都是二元数据,并且 P ( a )=0.5是均匀分布, P ( b | a )=0.5。显然, P ( A ) P ( B | A )= P ( A ) P ( B ),这意味着 A 和 B 是相互独立的。
[1] 各种表示不确定性的方法请参见F. Cuzzolin, The Geometry of Uncertainty . Springer,2021。
[2] 更全面的阐述参见E.T.Jaynes, Probability Theory : The Logic of Science .Cambridge University Press,2003。
[3] 具体讨论请参见E.T.Jaynes, Probability Theory : The Logic of Science .Cambridge University Press,2003。
[4] P.C.Fishburn,“The Axioms of Subjective Probability,” Statistical Science ,vol.1,no.3,pp.335-345,1986提出了主观概率公理化。有关公理化的最新研究成果,请参见M.J.Dupré and F.J.Tipler,“New Axioms for Rigorous Bayesian Probability,” Bayesian Analysis ,vol.4,no.3,pp.599-606,2009。
[5] 有关概率论的介绍,请参见D.P.Bertsekas and J.N.Tsitsiklis, Introduction to Probability .Athena Scientific,2002。
[6] 大多数情况下,为了简洁,我们将使用冒号表示法。在其他文献中,有时会使用符号[1,…, n ]表示从1到 n 的整数区间值。我们也将使用冒号表示法来表示向量和矩阵的索引值(下标值),例如 x 1: n 表示 x 1 ,…, x n 。诸如Julia和MATLAB等程序设计语言也使用这种冒号表示法。
[7] 在有些文献中,使用分号来分隔分布的参数。例如, U ( x | a , b )也可以记作 U ( x ; a , b )。
[8] 如果分布是连续的,那么通过求其他变量的概率的积分来计算边缘分布。例如: p ( x )=∫ p ( x , y )d y 。
[9] 如果已知 ∑ 的上三角中的各个参数,那么可以得到其下三角中的各个参数,因为 ∑ 是对称的。
[10] 以英国统计学家托马斯·贝叶斯(Thomas Bayes,约1701—1761年)命名,他提出这一定理的公式。其历史参见S.B.McGrayne, The Theory That Would Not Die .Yale University Press,2011。
[11] 有关贝叶斯网络和其他形式的概率图模型的深入讨论,请参见D.Koller and N.Friedman, Probabilistic Graphical Models : Principles and Techniques .MIT Press,2009。
[12] 在 因果网络 (causal network)中,边的方向表示变量之间的因果关系。然而,在一般贝叶斯网络中不需要因果关系。具体请参见J.Pearl, Causality : Models , Reasoning , and Inference ,2nd ed.Cambridge University Press,2009。
[13] 有效确定d-分离的实现算法比较复杂。具体请参见文献D.Koller and N.Friedman, Probabilistic Graphical Models : Principles and Techniques .MIT Press,2009中的算法3.1。
[14] 以俄罗斯数学家Andrey Andreyevich Markov(1856—1922)命名。参见J.Pearl, Probabilistic Reasoning in Intelligent Systems : Networks of Plausible Inference .Morgan Kaufmann,1988。