一个事件发生的概率经常会受到与之相关事件的影响.
例 2.3.1 在例 2.1.1 中,收入 8 万~ 15 万元的消费人群数量最多(4 400 人),其中年龄为 30 ~ 50 岁的消费者有 2 200 人.在收入为 8 万~ 15 万元的消费群体中,年龄为 30 ~ 50岁的概率是多少?即在 B 2 = {8 万 ~ 15 万元}已经发生的前提条件下,求事件 A 2 = {30 ~ 50岁}发生的概率,这称为条件概率,记为 P ( A 2 B 2 ),读作“事件 B 2 发生的条件下事件 A 2 发生的概率”.
由表2.4可得 , ,代入上式可得
定义 2.3.1 设 A , B 为两个事件,且 P ( B ) > 0,则称 P ( AB ) / P ( B )为事件 B 已发生的条件下事件 A 发生的 条件概率 ,记为 P ( A | B ),即
韦恩图帮助我们对条件概率有一个更加直观的认识,如图 2.6 所示.一旦事件 B 发生,唯一能观测到事件 A 发生的区域是 A ∩ B. 比率 P ( AB ) / P ( B )提供了在事件 B 已经发生的条件下事件 A 发生的条件概率.
图 2.6
计算条件概率 P ( A | B)的方法有两种:①在样本空间 S 中,计算 P ( AB )和 P ( B ),然后按定义 2.3.1 求出 P ( A | B);②在样本空间 S 的缩减样本空间 S B 中计算事件 A 发生的概率,就得 P ( A | B).
例 2.3.2 在例 2.2.1 中,根据表 2.4 中的数据,计算收入在 15 万元以上的消费者中,不同年龄段人群的概率分布.
解 该问题是求条件概率 P ( A 1 | B 3 ), P ( A 2 | B 3 )和 P ( A 3 | B 3 ).
收入在 15 万元以上的消费者中,消费者的年龄小于 30 岁、30 ~ 50 岁、大于 50 岁的概率分别为 34.5%,55.2%,10.3%.
易验证,条件概率 P ( A | B)符合概率定义的 3 条公理,即:
①对任一事件 A ,有 P ( A | B) ≥ 0.
② P ( S | B ) = 1.
③ .
其中 A 1 , A 2 ,…, A n 为两两互不相容的事件.这说明条件概率符合定义 2.2.3 中概率应满足的 3 个条件,故条件概率满足概率的所有性质.例如,对任意事件 A 1 和 A 2 ,有
又如,对任意事件 A ,有
例 2.3.3 人寿保险公司需要知道存活到某一个年龄段的人在下一年仍然存活的概率.根据统计资料,某城市的人由出生活到 50 岁以上的概率为 0.907 18,活到 51 岁以上的概率为 0.901 35.问现在已经50 岁的人,能够活到51 岁以上的概率是多少?该城市已经50 岁的人将在满 51 岁之前死亡的概率是多少?
解 设X为人的寿命,记 A = { X ≥ 50 岁}, B = { X ≥ 51 岁},则
现在已经 50 岁的人,能够活到 51 岁以上的概率为 0.993 57.该城市已经 50 岁的人将在满 51 岁之前死亡的概率约为 0.006 43,即在平均意义下,该年龄段每 1 000 人中间约有6.43 人死亡.
例 2.3.4 ( 消费者投诉调查 ) 消费者对产品的投诉一直受到各大生产商的高度关注.某厨房电器生产商对消费者的大量投诉进行调查,发现这些投诉可以分为 6 类,见表 2.5.如果接到一个消费者的投诉,已知这个产品还在保修期内,求投诉原因分别源于电器故障、机械故障或外观缺陷的概率.
表 2.5
在保修期内有一半以上的投诉是由外观缺陷引起的.
由条件概率的定义 , P ( A ) >0,两边同时乘以 P ( A )可得 P ( AB ) = P ( A ) P ( B | A ),由此可得乘法公式.
定理 2.3.1 ( 乘法公式 ) 设 P ( A ) >0,有
同样地,若 P ( B ) >0,有
乘法公式也可推广到多个事件的情况.例如,设 A , B , C 为3 个事件,且 P ( AB ) > 0,则有
一般地,设有 n 个事件 A 1 , A 2 ,…, A n ,若 P ( A 1 A 2 … A n- 1 )>0,则有
事实上,由 A 1 ⊃ A 1 A 2 ⊃ …⊃ A 1 A 2 … A n- 1 ,有
例 2.3.5 ( 小麦行情分析 ) 小麦的投资商需要考虑两个问题: A = {小麦明年能够赢利}, B = {明年会出现严重干旱}.基于已有信息,投资商相信如果发生一场严重的干旱,小麦赢利的概率为 0.05,并且有 0.1 的概率会发生干旱.基于已知条件,求发生严重干旱并且会赢利的概率是多少?
发生严重干旱并且会赢利的概率为 0.005.
例 2.3.6 ( 抽样检测 ) 在例 2.3.4 中,如果该电器保修期内被投诉的概率为 0.2,其中投诉原因分别源于电器故障、机械故障或外观缺陷的概率不变,求该电器在保修期内且因机械故障被投诉、保修期内且因外观缺陷被投诉的概率分别是多少?
该电器在保修期内且因机械故障被投诉的概率为 0.041 2,该电器在保修期内且因外观缺陷被投诉的概率为 0.101 6.
全概率公式和贝叶斯公式是用来计算概率的重要公式.
例 2.3.7 某工厂的两车间生产同型号轮胎.据以往经验,第 1,2 号车间的次品率分别为 0.15 和 0.12.两个车间成品混堆在一起且无区分标志.假设第 1,2 号车间生产的成品比例为 2 ∶ 3.
(1)在仓库中随机取一件成品,确定它是次品的概率.
(2)仓库中随机取一件成品,若是次品,它来自哪个车间的可能性更大?
解 (1)以 A i ( i = 1,2)表示事件{产品由第 i 间车间生产},则
A 1 和 A 2 把样本空间切分成两部分,如图 2.7 所示 . B = {次品}= B ∩ S = B ∩ ( A 1 ∪ A 2 )=( BA 1 )∪ ( BA 2 ).
因为 A 1 ∩ A 2 = ⌀,所以( BA 1 )∩( BA 2 ) = ⌀,即 A 1 和 A 2 把事件 B 切割成互斥的两个子事件.由已知条件可得
图 2.7
在仓库中随机取一件成品,是次品的概率为 0.132.
(2)随机取到的成品是次品,要判断来自哪一个生产线的可能性更大,这里次品已发生,是条件概率问题.由条件概率的定义及乘法公式,有
P ( A 1 | B ) < P ( A 2 | B ),取到的次品来自 2 号车间的可能性更大.
在例2.3.7 的问题(1)中,为了求复杂事件 B 的概率,用 A 1 和 A 2 把事件 B 分解为两个互斥的简单事件之和,通过概率的加法法则和乘法法则分别计算这些简单事件的概率,然后求和得到事件 B 的概率,这就是有名的全概率公式,它是概率论中广泛使用的计算方法.
定义 2.3.2 ( 样本空间的划分 ) 设 S 为样本空间, A 1 , A 2 ,…, A n 为S的一组事件,若满足
则称 A 1 , A 2 ,…, A n 为样本空间 S 的一个划分,也称为完备事件组.
和 就是 S 的一个划分.若 A 1 , A 2 ,…, A n 是 S 的一个划分,那么每次试验,事件 A 1 , A 2 ,…, A n 中必有一个且仅有一个发生.在例 2.3.7 中, A 1 和 A 2 构成样本空间的一个划分;如果有 n 个车间,则 A 1 , A 2 ,…, A n 构成样本空间的一个划分.
定理 2.3.2 ( 全概率公式 ) 设 B 为样本空间 S 中的任何一个事件, A 1 , A 2 ,…, A n 为 S 的一个划分,且 P ( A i ) > 0( i = 1,2,…, n ),则有
称上述公式为 全概率公式 .
全概率公式表明,在许多实际问题中事件 B 的概率不易直接求得,如果容易找到样本空间 S 的一个划分 A 1 , A 2 ,…, A n ,且 P ( A i )和 P ( B A i )为已知或容易求得,就可根据全概率公式求出 P ( B ).如何找划分 A 1 , A 2 ,…, A n ,要具体问题具体分析.
为解决例 2.3.7 中的问题(2),我们把条件概率公式和全概率公式相结合,这个方法由贝叶斯发现,故称为贝叶斯定理.
定理 2.3.3 ( 贝叶斯定理 ) 设 A 1 , A 2 ,…, A n 为样本空间 S 的一个划分,且 P ( A i ) > 0( i = 1,2,…, n ).对任意的随机事件 B ⊂ S ,若 P ( B ) > 0,则
上述公式称为 贝叶斯 ( Bayes ) 公式 ,也称为 逆概率公式 .
证 由条件概率公式和全概率公式,有
在长达 200 多年的时间里,贝叶斯方法一直广受争议.直到 20 世纪 60 年代,该方法在决策制订中的应用才逐渐引起人们的重视.
例 2.3.8 ( 保险诊断 ) 假设保险公司认为投保人可分为两类:一类易出事故(人口比例约为 0.3);另一类不易出事故.统计表明,一个易出事故者在一年内发生事故的概率为0.004,而不易出事故者在一年内发生事故的概率为 0.002.
(1)现有一新人来投保,求该人在购买保单后一年内将出事故的概率.
(2)假设某投保人购买保单后一年内出了事故,求他是易出事故者的概率.
解 (1)令事件 A 1 = {投保人为易出事故者}, A 2 = {投保人为不易出事故者}, B = {投保人在一年内出事故},则 A 1 和 A 2 构成样本空间的一组划分.由已知条件,可得
由全概率公式,
投保的新人在购买保单后一年内将出事故的概率为 0.002 6.
(2)假设一个投保人在购买保单后一年内出了事故,这是一个条件概率的问题.由贝叶斯公式,
一个投保人在购买保单后一年内出了事故,那么他是易出事故者的概率为 0.462,远大于第一类人的人口比例 0.3.投保人如果在第一年发生了事故,保险公司将在第二年增加该投保人的保险费用.
例 2.3.9 ( 股票分析 ) 假设某时期内影响某只股票价格变化的因素只有银行存款利率的变化.经分析,该时期内利率下调的概率为 20%,利率不变的概率为 40%,利率上调的概率为 40%.根据经验,利率下调时该股票上涨的概率为 80%,利率不变时该股票上涨的概率为 40%,利率上调时该股票上涨的概率为 20%.
(1)求这只股票上涨的概率.
(2)假如这只股票上涨了,试分析银行利率下调的概率是多少?
解 (1)令 A 1 = {利率下调}, A 2 = {利率不变}, A 3 = {利率上调}, B = {股票上涨},则 A 1 , A 2 , A 3 是导致结果 B 出现的 3 种直接原因,且构成样本空间的一个划分.
由全概率公式,
即这只股票上涨的概率为 0.4.
(2)由贝叶斯公式,
即这只股票上涨了,此时银行利率上调的概率为 0.4.
例 2.3.10 分析“三门问题”.
解 设参赛者已经选定 1 号门,而主持人打开的是 2 号门(因主持人知道哪扇门后面有汽车,故他的选择是根据参赛者所打开的门来确定的).
A 1 , A 2 , A 3 构成样本空间的一个划分. B = {主持人打开第二扇门},则
参赛者不换门赢得汽车的概率为 1 /3,换门赢得汽车的概率为 2 /3,参赛者应该更换选择.这个问题也称为蒙提霍尔悖论.虽然这个问题的答案在逻辑上并不自相矛盾,但违反直觉,曾引起热烈的讨论.
全概率公式和贝叶斯公式在解决某些复杂事件的概率问题中起到了十分重要的作用.如果事件 B 视为某过程的结果,而把 S 的一个划分 A 1 , A 2 ,…, A n 视为导致该结果的若干原因(情况或途径),每一种原因发生的概率 P ( A i )和每一种原因对结果 B 的影响程度 P ( B A i )为已知(或容易求得).已知原因推断结果发生的概率,用全概率公式;已知结果推断原因发生的概率,用贝叶斯公式.如讨论病毒导致腹泻的发病率,随机选一射手射中目标的命中率等.
例 2.3.11 ( 癌症筛查 ) 由以往的临床记录,某种诊断癌症的试验具有以下效果:被诊断者有癌症,试验反应为阳性的概率为 0.95;被诊断者没有癌症,试验反应为阴性的概率为0.95.现对自然人群进行普查,设被试验的人群中患有癌症的概率为 0.005.已知试验反应为阳性,该被诊断者确有癌症的概率是多少?
由条件概率的性质,
由贝叶斯公式,
上述结果表明,患有癌症的被诊断者试验反应为阳性的概率为 95%,没有患癌症的被诊断者试验反应为阴性的概率为 95%,这些概率都是由历史数据分析得到,产生于检验人员做随机试验之前,称为 先验概率 .而在得到试验结果反应为阳性的前提下,该被诊断者确有癌症的概率为 0.087,称为 后验概率 (根据试验结果重新加以修正的概率).此项试验也表明,用它作为普查,正确性诊断只有 8.7%(即 1 000 人具有阳性反应的人中大约只有 87 人的确患有癌症).若把 P ( B | A )和 P ( A | B)弄混淆,将会造成误诊的不良后果.
在获得新的信息之后应用贝叶斯定理对事件的概率进行修正,这种方法被广泛应用在决策分析中.具体思路如下:
①对所关心的特定事件发生的概率给出一个初始的估计(或决策者的主观估计),称为先验概率.
②从样本、专业报告、产品测试等信息中获取有关该事件的新信息.
③根据最新信息,应用贝叶斯定理计算该事件的后验概率并作决策.
乘法公式、全概率公式、贝叶斯公式称为条件概率的 3 个重要公式,它们在解决复杂事件的概率问题中起到十分重要的作用.