想象一个电影场景。摄影机从上向下拍摄大学校园里的一个四方院子,字幕显示“英国剑桥大学,1912年”。镜头一路向下,从一扇窗户进入烟雾弥漫的学生宿舍。罗恩独自坐在书桌前,房间里乱成一团,桌子和地板上到处是乱七八糟的纸张和书本。罗恩显然已经有一段时间没有换洗衣服了。他一边奋笔疾书,一边抽着烟斗,偶尔停下来翻翻书本。
离考试只有两个星期了。罗恩即将面对的是“三足凳”考试的最后一个部分,它不仅是英国也是全世界最难的考试之一。罗恩以第一名的成绩从中学毕业,现在在剑桥大学也是本科生中的尖子。他的名字很快就会被记录在剑桥大学的“牛仔”名单上,这是被授予一等学位、数学成绩特别优秀的学生才能享有的荣誉。
虽然罗恩乐于向别人炫耀自己的数学能力,也敢于承认自己是一个天才,但他对即将到来的考试并不太感兴趣。事实上,他甚至没有为这次考试做什么准备。他思考的是更崇高的事情。他周围的那些纸张并不是复习笔记,而是科学论文,其中有数学论文,比如卡尔·弗里德里希·高斯和托马斯·贝叶斯的论文,也有生物学论文。查尔斯·达尔文的《物种起源》摊开放在桌子上,地板上的手写笔记粗略记录了通过育种和人工选择“改良”动物(包括人类)的原理。
罗恩还没有为他正在研究的问题想出一个专有名称,它还只是一个模糊的观念。罗恩认为,他一定可以从生物学和社会中的那些错误方法里找出唯一正确的估算数量的方法。他认为所有人,包括他的教授,都搞错了。
要领会罗恩的研究方法,可以再想想上文中关于腌黄瓜的争论。
1912年,罗恩只要一睁开眼就会思考一个问题:利用数据进行测算的最佳方法是什么?(腌黄瓜问题是这个更大问题的一个特例。)一个数学家,尤其是剑桥大学的“牛仔”,一定要弄清楚为什么他们采用的计算方法是最佳方法。
罗恩是这样阐述他的理由的。先假设我们不知道人们对腌黄瓜问题回答“是”的确切比例,但我们可以确定它的值在0到100%之间。然后,他会让安东尼(认为这个比例是7/15)、阿伊莎(认为这个比例是1/5)、查理(认为100%的人都喜欢吃腌黄瓜)根据腌黄瓜偏好的数据,计算他们的观点是正确的可能性。
让我们首先考虑阿伊莎的观点,即人们喜欢吃腌黄瓜的概率是1/5,也就是20%。如果她是正确的,那么我们得到查理回答正确的可能性是1/5,因为他说他喜欢吃腌黄瓜。同样,再假设80%的人和阿伊莎一样不喜欢吃腌黄瓜,那么苏琪回答正确的可能性是4/5。现在,我们可以用如下方法表示每个人回答正确的可能性:
得到所有这些回答的组合概率,就是得到所有回答的正确可能性的乘积:
显然,这个概率非常小,因为它表示的是我们得到一组特定答案的概率。它并不能证明阿伊莎是错的,因为得到任何一组特定答案的概率肯定都非常小。这个计算的意义在于,它使我们可以比较阿伊莎回答正确的可能性与其他人回答正确的可能性。
为便于理解,我们先比较阿伊莎的估计值为正确的可能性与查理的估计值为正确的可能性。查理声称100%的人都喜欢吃腌黄瓜,他回答正确的可能性是:
1×0×1×0×0×0×0×1×0×0=0
根据他给出的比例,我们得到这组答案的可能性为零。在阿伊莎回答问题的那一刻,查理就被证明是错的。所以,阿伊莎赢得了这一局。安东尼估计的比例是7/15,他回答正确的可能性是:
安东尼回答错误的可能性低于阿伊莎,因为0.001 09大于0.000 419。但它们都比不上正确的估算结果(4/10),后者的可能性是:
比较有了结果!40%的可能性最大,因此我们应该采用这个估计值。
时间回到1912年,镜头终于停了下来,落在罗恩的肩膀上方,聚焦于他在纸上奋笔疾书的那些数学符号。他抬起头来,从烟斗里喷出一大口烟。“就是它了!”他叫道,“最大似然。”
100多年前的那个下午,那个剑桥学生看到了在他之前没有人见过的东西,就连高斯、拉普拉斯和贝叶斯这样伟大的数学家也没有见过。这个结果与他的同学们在隔壁房间里争论的数学结果大不相同。他们的计算虽然很有意思,但与现实世界的观察结果脱节了。罗恩努力寻找的目标正是现实和数学之间的联系,而他写下的方程式最终实现了这个目标。最大似然告诉我们如何正确地测量一切事物,包括政党的民意调查、植物生长的速度,以及我们对腌黄瓜和其他腌制食品的偏好程度等。
此后,罗恩(全名是罗纳德·费希尔)又花了12年的时间才完成了这个理论(统计学至今仍在使用的最大似然估计方法),并给它起了一个名字。费希尔是一个真实存在的人。虽然我不确定他是不是像我在上文中描述的那样提出这套理论的,但我们知道他的研究成果来自他在本科阶段最后一年写的一篇文章。费希尔在那篇文章中指出,计算最大似然估计是唯一正确的测量方法,不仅可以测量平均值(就像我们在上文中所做的那样),还可以测量与数据拟合的任意曲线的形状。
后来,费希尔的研究被视为统计学的基石。