注 1:不充分推理原则
拉普拉斯从一位同事口中得知了贝叶斯的论文,于是开始努力攻克贝叶斯方法里的“先验问题”,也就是如果我们面对待解决的问题时没有初始想法时该怎么设置先验概率,用我们现代的数学语言描述就是:如果一个事件 F 因为 n 个原因发生,那么在没有理由说明哪个原因特别有优势的时候,每一个先验概率都应该取1/ n 。这被称为“不充分推理原则”。
注 2:全概率公式
图 3-26 全概率公式示意图
如果事件组 B 1 , B 2 ,…, B n 满足
(1) B 1 , B 2 …, B n 两两互斥,即 B i ∩ B j =φ, i ≠ j , i , j =1,2,… n ,且 P ( B i )>0, i =1,2,… n ;
(2) B 1 ∪ B 2 ∪…∪ B n =S,则称事件组 B 1 , B 2 ,…, B n 是样本空间S的一个划分。
A 为任一事件,则事件 A 就被事件 AB 1 , AB 2 ,…,A Bn 分解成了 n 部分,即 A = AB 1 + AB 2 +…+ AB n ,每一 B i 发生都可能导致A发生,相应的概率是 P ( A | Bi ),由此全概率公式就是:
注 3:独立同分布
此时 P ( X = x , Y = y )= P ( X = x ) P ( Y = y )随机变量互相独立,并且服从同一分布,那么就是独立同分布的。随机变量 X 和 Y 独立,是指 X 的取值不影响 Y 的取值, Y 的取值也不影响 X 的取值。随机变量 X 和 Y 服从同一分布,是指 X 和 Y 具有相同的分布形状和相同的分布参数。同理可以推广到多个随机变量的独立同分布。
注 4:意见收敛定理
意见收敛定理是指随着证据的不断增加,通过贝叶斯定理计算的后验概率越来越趋于一致,无论先验概率有多么大的区别。这表明,由贝叶斯方法得到的后验概率具有一定的客观性和公共性。
注 5:抽样
抽样就是从要研究的全部样品中抽取一部分样品。同时要保证所抽取的样品对全部样品来说具有充分的代表性。抽样的目的是通过分析部分样品的性质来估计和推断全部样品的特性。
注 6:效用
举个例子,同样一笔钱在人们心目中的价值是不同的,所以钱和钱的价值是不同的两个概念,随着个人收入的提高,钱在人们心中的价值变低,钱在人们心中的价值称为效用。如果用 m 表示收入,用 U 表示效用,则效用是收入的函数,即 U = U ( m ),这曲线被称为效用曲线。
图 3-27 效用曲线
注 7:条件独立
条件独立是贝叶斯网络中最重要的概念(朴素贝叶斯是贝叶斯网的一个特例),因为利用条件独立可以化简联合概率分布。什么是联合概率呢?简单来说就是一组事件同时发生时的概率。一般要得出联合概率分布就相当于穷举出每个随机变量取可取之值的所有情况,而这几乎是复杂到不可能完成的。
这里要说明随机变量间的条件独立,我们先来说说什么是统计学中的“事件独立”。如果两个不同事件 A 和 B 相互独立,则 P ( AB )= P ( A ) P (B),当 P ( B )>0时,由乘法公式 P ( AB )= P ( B ) P ( A | B ),得到 P ( A )= P ( A | B )。所以 A 和 B 相互独立意味着对于事件 B 是否发生的了解不影响对事件A发生的信念度。
然后我们推广出去,考虑三个不同事件 A , B , C ,假定 P ( C )>0,如果成立 P ( AB | C )= P ( A | C ) P ( B | C ),则称事件 A 与 B 在给定 C 时相互条件独立。当 P ( B | C )>0时,由乘法公式 P ( AB | C )= P ( A | BC ) P ( B | C ),可得 P ( A | C )= P ( A | BC )。 P ( A | C )是已知事件 C 发生时对事件 A 发生的信念度,而 P ( A | BC )是已知事件 B 和 C 都已经发生时对事件 A 发生的信念度。所以,事件 A 与 B 在给定 C 时相互条件独立的直观意义就是:在已知事件 C 发生的前提下,对事件 B 是否发生的了解不会改变对事件 A 发生的信念度;同样,对事件 A 是否发生的了解也不影响对事件 B 发生的信念度。
同理,我们可以继续推广到“变量独立”的概念,就是针对随机变量的相互独立和条件独立,原理与上文一致,所以不做赘述。我们来看个例子加深理解。如果有一个装有两种硬币的口袋,其中一些是均匀硬币,掷出正面朝上的概率为0.5,另一些为非均匀硬币,掷出正面朝上的概率为0.8。现在从袋子中随机取出一个硬币,抛掷若干次。令 X i 表示第 i 次抛掷硬币的结果, Y 表示该硬币是否均匀。这里, X i 与 X j ( i ≠ j )之间不是相互独立的,因为如果掷了10次硬币,其中9次正面朝上,那么有充足的理由相信这枚硬币是不均匀的,从而增大了下一次掷出正面朝上的信念度。所以 X i 的值给了我们关于这枚硬币的一些信息,它有助于我们继续判断 X j 的值。另一方面,如果已经知道了 Y 的值,例如该硬币是不均匀的,那么不管前面结果如何,以后每次掷硬币的结果为正面的概率都是0.8,我们将不能从前面的试验得到什么信息。所以给定 Y 的值后, X i 与 X j 之间就是相互条件独立的。这个例子里变量间的依赖关系如图3—28,变量 Y 切断了变量 X i 和 X j 之间的“信息通道”。 [22]
图 3-28 条件独立:给定硬币类型,各投掷结果相互独立