如今,“概率”一词在我们的生活中随处可见,被使用得越来越广泛和频繁,因为这是一个越来越多变的世界:一切都在变化,一切都难以确定。我们的世界可以说是由变量构成的,其中包括很多决定性变量。比如新闻说:“北京时间2016年11月3日20时43分,长征五号运载火箭在海南文昌成功发射”,这里的时间、地点都是确定的决定性变量。然而,我们的生活中也有许多难以确定的随机变量,比如,明天雾霾的程度或某公司的股票值,等等,都是不确定的随机变量。随机变量不是用固定的数值来表达,而是用某个数值出现的概率来描述。正因为处处都有随机变量,所以处处都能听见“概率”一词。当你打开电视看天气预报,看今天会不会下雨时,气象预报员告诉你说:今天早上8点钟的“降水概率”是90%;当你在手机上查询股市中某只股票的预期价格时,你得到的信息可能是这只股票3个月之后翻倍的概率是67%;当你满怀期望地买了50元钱的彩票,朋友却告诉你,你中奖的概率只有一亿分之一;当你手臂上长了一个“肉瘤”,医生初步检查后安慰你,它是恶性瘤的概率只有0.03%而已……生活中“概率”这个词太常见了,以至于人们不细想也大概知道是什么意思。比如说,0.03%的恶性概率的意思不就是说,“10000个这样的肉瘤中,只有3个才会是恶性的”吗?因此,在经典意义上,概率就可以被粗糙地定义为事件发生的频率,即发生次数与总次数的比值。更准确地说,是总次数趋于无限时,这个比值的极限。
虽然“概率”的定义不难懂,好像人人都会用,但你可能不知道,概率计算的结果经常违背我们的直觉,概率论中有许多难以解释、似是而非的悖论。不能完全相信直觉!我们的大脑会产生误区和盲点,就像开汽车的驾驶员视觉中有“盲点”,需要多面镜子来克服一样,我们的思维过程中也有盲点,需要通过计算和思考来澄清。概率论是一个经常出现与直觉相悖的奇怪结论的领域,连数学家也是稍有不慎便会错得一塌糊涂。现在,我们就举例说明经典概率中的一个悖论,叫作“基本比率谬误(base rate fallacy)”。
我们从一个生活中的例子开始。王宏去医院做化验,检查他患上某种疾病的可能性。其结果居然为阳性,把他吓了一大跳,赶忙在网上查询。网上的资料说,检查总是有误差的,这种检查有“1%的假阳性率和1%的假阴性率”。这句话的意思是说,在患病的人中做检查,有1%的人是假阴性,99%的人是真阳性。而在未患病的人中做检查,有1%的人是假阳性,99%的人是真阴性。于是,王宏根据这种解释,估计他自己得了这种疾病的可能性(即概率)为99%。王宏想:既然只有1%的假阳性率,99%都是真阳性,那我感染这种病的概率便应该是99%。
可是,医生却告诉他,他在普通人群中被感染的概率只有0.09(9%)左右。这是怎么回事呢?王宏的思路误区在哪里?
医生说:“99%?哪有那么大的感染概率啊。99%是测试的准确性,不是你患病的概率。你忘了一件事,感染这种疾病的比例是不大的,1000个人中只有一个人患病。”
原来这位医生在行医之余,也喜爱研究数学,经常将概率方法用于医学上。他的计算方法基本上是这样的:因为测试的误报率是1%,1000个人中有10个被报为“假阳性”,而根据这种病在人口中的比例(1/1000=0.1%),真阳性只有1个,所以,大约11个测试为阳性的人中只有一个是真阳性(有病)的,因此,王宏被感染的概率大约是1/11,即0.09(9%)。
王宏思来想去仍感到糊涂,但这件事激发他去重温之前学过的概率论。经过反复阅读,再思考琢磨医生的算法之后,他明白自己犯了那种叫作“基本比率谬误”的错误,即忘记使用“这种病在人口中的基本比例(1/1000)”这个事实。
谈到基本比率谬误,我们最好是先从概率论中著名的贝叶斯定理 [2] 说起。托马斯·贝叶斯(Thomas Bayes,1702—1761)是英国统计学家,曾经是个牧师。贝叶斯定理是他对概率论和统计学做出的最大贡献,是当今人工智能中常用的机器学习的基础框架,其思想之深刻远超一般人所能认知,也许贝叶斯自己生前对此也认识不足。因为如此重要的成果,他生前却并未发表,是在他死后的1763年由朋友发表的。
粗略地说,贝叶斯定理涉及两个随机变量 A 和 B 的相互影响。如果用一句话来概括,这个定理说的是:利用 B 带来的新信息,应如何修改 B 不存在时 A 的“先验概率” P ( A ),从而得到 B 存在时的“条件概率” P ( A | B ),或称后验概率,如果写成公式(图1-2-1):
图1-2-1 条件概率与失验概率
这里先验、后验的定义是一种约定俗成,是相对的。比如说也可以将 A 、 B 反过来叙述,即如何从 B 的先验概率 P ( B ),得到 B 的“条件概率” P ( B | A ),见图(1-2-1)中虚线所指。
不要害怕公式,通过例子,我们就能慢慢理解它。例如,对前面王宏看病的例子,随机变量 A 表示“王宏得某种病”;随机变量 B 表示“王宏的检查结果”。先验概率 P ( A )指的是王宏在没有检查结果时得这种病的概率(即这种病在公众中的基本概率0.1%);而条件概率(或后验概率) P ( A | B )指的是在王宏“检查结果为阳性”的条件下得这种病的概率(9%)。如何从基本概率修正到后验概率?我们后面再解释。
贝叶斯定理是18世纪的产物,200来年用得好好的,却不想在20世纪70年代遇到了挑战,该挑战来自丹尼尔·卡尼曼(Daniel Kahneman)和特维尔斯基(Tversky)提出的“基本比率谬误”。前者是以色列裔美国心理学家,2002年诺贝尔经济学奖得主。基本比率谬误并不是否定贝叶斯定理,而是探讨一个使人困惑的问题:为什么人的直觉经常与贝叶斯公式的计算结果相违背?如同刚才的例子所示,人们在凭借直觉的时候经常会忽略基础概率。卡尼曼等人在他们的文章《思考,快与慢》中举了一个出租车的例子,来启发人们思考这个影响人们“决策”的原因。我们不想在这里深谈基本比率谬误对“决策理论”的意义,只是借用此例来加深对贝叶斯公式的理解。
假如某城市有两种颜色的出租车:蓝色和绿色(市场占有比例为15∶85)。一辆出租车夜间肇事后逃逸,但还好当时有一位目击者,这位目击者认定肇事的出租车是蓝色的。但是,他“目击的可信度”如何呢?公安人员在相同环境下对该目击者进行“蓝绿”测试得到:80%的情况下识别正确,20%的情况下不正确。也许有读者立刻就得出了结论:肇事车是蓝色的概率应该是80%吧。如果你做此回答,便是犯了与上面例子中王宏同样的错误,忽略了先验概率,没有考虑在这个城市中“蓝绿”车的基本比例。
那么,肇事车是蓝色的(条件)概率到底应该是多少呢?贝叶斯公式能给出正确的答案。首先我们必须考虑蓝绿出租车的基本比例(15∶85)。也就是说,在没有目击者的情况下,肇事车是蓝色的概率只有15%,这是“ A =蓝车肇事”的先验概率 P ( A )=15%。现在,有了一位目击者,便改变了事件 A 出现的概率。目击者看到车是“蓝”色的。不过,他的目击能力也要打折扣,只有80%的准确率,即也是一个随机事件(记为 B )。我们的问题是求出在有该目击者“看到蓝车”的条件下肇事车“真正是蓝色”的概率,即条件概率 P ( A | B )。后者应该大于先验概率15%,因为目击者看到“蓝车”。如何修正先验概率?需要计算 P ( B | A )和 P ( B )。
因为 A =蓝车肇事、 B =目击蓝色,所以 P ( B | A )是在“蓝车肇事”的条件下“目击蓝色”的概率,即 P ( B | A )=80%。最后还要算先验概率 P ( B ),它的计算麻烦一点。 P ( B )指的是目击者看到一辆车为蓝色的概率,等于两种情况的概率相加:一种是车为蓝色,辨认也正确;另一种是车为绿色,错看成蓝色。所以:
P ( B )=15%×80%+85%×20%=29%
从贝叶斯公式:
可以算出在有目击者的情况下肇事车辆是蓝色的概率为41%,同时也可求得肇事车辆是绿色的概率为59%。被修正后的“肇事车辆为蓝色”的条件概率41%大于先验概率15%很多,但是仍然小于肇事车为绿色的概率59%。
回到对王宏测试某种病的例子,我们也不难得出正确的答案:
A :普通人群中的王宏感染某种病
B :阳性结果
P ( A ):普通人群中王宏感染某种病的概率
P ( B | A ):阳性结果的正确率
P ( A | B ):有了阳性结果的条件下,王宏感染某种病的概率 P ( B ):结果为阳性的总可能性=检查阳性中的真阳性+检查阴性中的真阳性
通过以上对概率论中的基本比率谬误的介绍,我们初步了解了概率论中十分重要的贝叶斯定理及其简单应用。