贝叶斯的论文《机会的学说概论》吸引了一名非常有影响力的读者,他就是皮埃尔·西蒙·拉普拉斯(Pierre Simon de Laplace)。拉普拉斯是一位法国贵族,同时也是数学家、物理学家、天文学家和无神论者。他将贝叶斯不堪卒读的论文改编成一篇严谨的数学论文。因此,很多人觉得拉普拉斯才是贝叶斯学派真正的创始人,而贝叶斯只不过是有个头衔罢了。 14
很多人都读拉普拉斯的文章,不过这也改变不了它很复杂的事实,即便拉普拉斯对原因概率充满热情与抱负。在某些简单的情形中,贝叶斯定理的结果即使不用数学计算也是显而易见的,但在其他的情形中,贝叶斯定理的主观性就让是非对错变得非常难以界定。很多时候,贝叶斯定理的计算非常复杂,很难在纸面上完成。任何尝试亲自计算不断更新的概率的人,往往耗尽了耐心也得不到什么更深入的见解。
接下来的几个世纪,概率论和统计学开始另辟蹊径。我们认为绝大多数科学观察都不是只会发生一次的神奇事件,而是可以根据意愿多次重复的事件。合格的科学家就应该是个怀疑一切的人,除非亲眼看到,否则绝不相信。无论是在英国的伦敦、印度的勒克瑙还是秘鲁的利马,我们用同样的方式做同一个实验就应该得到同样的结果。如果结论不一样的话,那我们就该警惕了。
如果一个证据是道听途说来的,那我们就不用那么在意了。每个人应该都有这样一个邻居、同事或者朋友的朋友,他们吃着昂贵的保健品,遵循着独特的养生之法,迷信一些传世秘方。然而如果想要知道某一种疗法是否有效,我们需要做到随机化,即可以完成双盲测试。如果这个疗法的确有效,那么这种疗法的效果应该比安慰剂的效果更好,而且效果之间的差距应该大于统计误差。
可重复性和随机实验是现代思想重要的里程碑之一。现代统计学大多把重心放在设计实验、寻找样本人口和分析数据上,这也导致贝叶斯概率长期被边缘化。直到20世纪可以计算贝叶斯概率的机器出现,这一现象才得以扭转。
没有人知道贝叶斯想用他的理论来做什么。他自己可能永远都想不到他的理论如今在各种不同的领域发挥着功效。人们甚至用贝叶斯定理打击纳粹势力、对抗垃圾邮件。
盟军在谋划诺曼底登陆时需要知道德国军队装甲V型坦克的制造量。当时同盟国俘获了一些德国坦克,并且知道德国人在编排序号方面一丝不苟。坦克的变速箱、引擎和底盘上都有序号。被俘获的坦克可以被看作从所有坦克中随机抽取的样本,军队的统计学家就可以凭借这些随机样本来估算坦克的制造量。当时,他们估算的结果是每月制造270辆,比谍报中的制造量要少很多。战争结束后,公开文件显示当时的德国坦克月制造量为276辆,和统计学家的估计只差一个零头。
而今,还有一种所谓的“贝叶斯垃圾邮件过滤器”,其运行原理是运用持续更新的词汇列表来过滤垃圾邮件。这个列表由经常出现在垃圾邮件中的词语构成,其中比较典型的词汇有:免费、赢钱、治疗脱发、伟哥、揭露好友的丑闻、在家工作、帮你追女孩、你是赢家,等等。出现了这些词不代表这条信息就是垃圾信息,就好比你正在读的这一段话就囊括了所有这些词汇,但这段话并不是一条垃圾信息。但是,出现了一个或多个类似这样的词汇的信息往往比没有出现这些词汇的信息更有可能是垃圾信息。贝叶斯垃圾邮件过滤器的原理就是计算出每条信息是“垃圾”的概率。当这个概率大于某个值的时候,过滤器就会将它标记为垃圾信息。虽然这个过滤器不是万无一失的,但如果打开垃圾邮件箱,你会发现它比你想象的更聪明一些。