春田镇的集市里有一个需要技巧和运气的游戏。现在,有两口一模一样且无标签的瓮,一个里面装着10个球,另一个则有1000个。两口瓮里的球上都标注着连续的数字——从1到10或者从1到1000。参与者选一口瓮,工作人员从里面随机抽取一个球,并向参与者展示上面的数字。接下来,参与者需要猜他选的那口瓮里一共有多少个球以赢得丘比娃娃。
霍默·辛普森 决定花1美元参与这个游戏。他选择了左边那一口瓮。
工作人员从左边的瓮里随机选了一个球,上面的数字是7。“好了伙计,这口瓮里一共有多少个球呢?”
“1000个!”辛普森猜道。 12
傻傻的辛普森没有用到贝叶斯定理。在没有看到球上的数字之前,我们没有任何理由相信某一口瓮里有1000个球的可能性更大,抽到的瓮的可能性应该是1比1。当随机抽取了一个球之后,辛普森就应该可以用上新的信息了。如果抽到了一个像7这样比较小的数字,我们会认为这口瓮里只装着10个球的可能性大幅提高了。
假如左边的瓮里只有10个球的话,那抽到数字7的可能性是1/10。如果有1000个球的话,抽到数字7的可能性就是千分之一。说实话,从任何一口瓮里抽到数字7的可能性都不大,但是既然现在已经知道数字7被抽中了,我们凭常识会觉得这口瓮总共应该有10个球。常识也会让我们觉得这口瓮里有10个球的概率和有1000个球的概率比是1000:10,也就是100:1。其实,如果用贝叶斯定理来计算的话,我们就会得到这个结果。
下面,我将给出贝叶斯定理的简单说明。你应该听说过假阳性和假阴性吧。医疗测试既可以诊断出我们真正所患的疾病(称为真阳性),也可能会把我们误诊为患了某种疾病(假阳性)。这些术语可以帮助我们准确又简洁地表述贝叶斯定理。我们用某件事情出现真阳性的概率除以这件事情出现的全部阳性(包括真阳性和假阳性)的概率来计算已知实验结果的条件下这件事会发生的概率。
如果你想看更直观的公式的话,请看下方:
P ( H|E )= P ( H&E )/ P ( E )
P ( H | E )就是我们想要求得的概率。这个概率 P 代表“已知关于某个假设 H (如这口瓮有10个球)的一些证据 E (如抽取到一个数字很小的球),这个假设 H 成立的可能性”。在贝叶斯定理下,我们用“这个假设成立且已知证据支持这个假设(真阳性)”的概率除以 P ( E ),即得到这个证据(无论是真阳性还是假阳性)的全部概率,来计算 P ( H | E )。
将春田镇集市里的游戏套进贝叶斯公式,检验这口瓮里是否只有10个球。假如我们拿到数字很小的球,即拿到1~10,这就是一个阳性结果,它很可能会让我们觉得这口瓮里只有10个球。如果这个结果真的是我们从一个只有10个球的瓮里抽到的,我们就叫它真阳性。而真阳性出现的概率是50%。
这是因为我们有50%的概率选择从装有10个球的瓮里抽取球。当你选择了有10个球的瓮之后,你抽取的球上的数字一定不会超过10,那么结果就一定是真阳性的(当然,如果你选择的是装有1000个球的瓮,无论你抽到什么数字,结果都不会是真阳性)。
得到所有阳性结果的概率是得到真阳性结果的概率和得到假阳性结果的概率之和。要想得到一个假阳性结果,那就得同时选择有1000个球的瓮并且抽到了10以内的数字。从1000个球的瓮里抽中10以内数的概率只有1%。所以,得到假阳性结果的概率就是50%乘以1%,即0.5%。
总结一下,贝叶斯定理告诉我们,已知从一口瓮里抽取了一个10以内数字的球,这口瓮共有10个球的概率是50%/(50%+0.5%),也就是100/101,或者说比99%多一点。也就是说,左边的瓮中只装了10个球和装了1000个球的可能性之比是100:1,因此辛普森应该很确定左边那口瓮只装了10个球!
这些计算不需要多高深的数学知识,它们只是一些运算常识。辛普森的错误回答源于他认为抽到数字7不是什么有用的信息。假如他抽到的是11或11以上的数字,那么他就可以非常坚定地推测这口瓮里有1000个球了。正因为两口瓮里都有写着数字7的球,所以抽到“7”意味着证据不足,不过任何理性的参与者都不会忽略这个7带来的隐藏信息。
尼克·波斯特洛姆曾说:“理性信仰不仅会受到一系列演绎规则的限制,还会受到概率推论的限制。” 13