所有的概率都是条件概率。
——凯恩斯
§
人类自睁开心灵的眼睛观察这个世界起,就在不停歇地研究“客观”宇宙。可是,研究主观世界的脚步总是很缓慢,这一方面是由于缺乏科学的手段、好的工具,另一方面是由于被主流科学所排斥,甚至有观点认为主观就意味着非理性。
现在让我们来到18世纪,看看一位对主观世界进行研究的先驱—英国牧师兼统计学家贝叶斯。贝叶斯通过一些近乎异端式的数学发现悄无声息地改变这个世界,尤其是我们现在这个摩登世界,只是当时没人意识到这点。而且由于贝叶斯被当时的主流统计学家排斥,他的理论更是直接被压在箱底两百多年。用陈希孺教授的一段话来形容,“ 贝叶斯生性孤僻,神秘莫测,是位 哲学气味重于数学气味的学术怪 杰 。”我们甚至都搞不清他确切的出生年月,只是知道他大约生于1702年,死于1761年。
托马斯·贝叶斯出生在英国赫特福德郡,他的父亲乔舒亚·贝叶斯是英国最早的新教牧师之一。在托马斯还很年幼时,他们举家搬迁到了英国伦敦的邵斯瓦克,父亲乔舒亚成了圣托马斯教堂的一名全职同工,同时还在霍尔本皮巷教堂工作。乔舒亚育有7个孩子,托马斯·贝叶斯是长子。身为一名长老会牧师的大儿子,托马斯很有可能接受的是家庭教育,在那个时候这也是必然的选择。因为在当时的英国,经过宗教改革后虽然新教徒的境遇有所改善,乔舒亚能公开成为牧师,但天主教仍然很强势,对新教徒的权利作了限制,其中一条就是新教徒及其子女不准进入大学。托马斯的老师是谁,我们现在一无所知,但史学家巴纳德提出了一个有趣的可能性,即托马斯·贝叶斯早年可能在概率论大师棣莫弗那里学习过数学,因为算起来那个时候棣莫弗刚好在伦敦做家庭教师。但是其他大部分史学家认为,托马斯接受的是成为一名新教牧师的通才教育。这样推测下来托马斯应该是在滕特巷的一所学校就读,这是唯一一所离他家不远又与长老会有联系的学校。在这所学校里,托马斯遇到了两位贵人,一位是校长瓦德,还有一位是伊姆斯。后来伊姆斯成了托马斯被选为皇家学会成员的有力支持者。这所学校的教学理念或者说校长瓦德的理念是探索人与神的关系,所有学科都是服务于这一目的。就像波义耳的座右铭,“从万事万物的成因中发现第一因” [1] 。
图 3-1 贝叶斯
史学家判断在1719年,托马斯·贝叶斯被英国北部的爱丁堡大学录取,在那里他开始研究逻辑学和神学。有记载称贝叶斯由于封锁令的取消进了大学,还进入了新教组织,在其父亲的推荐下开始讲道。爱丁堡大学至今保存有贝叶斯的两次布道记录。在爱丁堡完成学业后,他南下来到伦敦的霍尔本区担任他父亲的助手,开始新教牧师生涯。在某段时间内贝叶斯必定学习了数学方面的知识,但没有记载表明他是在爱丁堡大学期间学的 [2] 。
1733年,坦布里奇韦尔斯长老会教堂的牧师阿彻去世,贝叶斯成为继任者。这所教堂在伦敦东南方向,距离伦敦市区有56千米远。对于贝叶斯在坦布里奇韦尔斯担任牧师的生活经历,史学家知之甚少。在当时,坦布里奇韦尔斯是一个时尚而高雅的地区,它是伦敦市民度假的最佳地点,有点像伦敦的后花园,这里的环境深受市民们的喜爱。笛福的小说中对这个优美的地方有过介绍。当时伦敦的上流社会经常举办一些宴会和社交活动,根据一些人遗留下来的回忆录和信件,我们得知这里曾经来过很多名人。贝叶斯是当时的一个颇为富有的牧师,肯定经常有机会参加这样的聚会。所以很多留存至今的文字中也都提到了贝叶斯牧师也是一位很优秀的数学家。
贝叶斯生前几乎没有公开发表过学术上的只字片言,发表的都是神学论文以及1736年的一篇匿名的文章《流数论引论,以及针对“分析者”作者的异议的一个数学家的辩护》。奇特的是,在欧洲学术界没什么名声的贝叶斯在1742年进入了英国皇家学会,这说明他可能曾经靠着他的学术造诣被当时的学界所接受。
图 3-2 前长老会会堂
英国物理学家道尔顿曾和贝叶斯通信,信中他们讨论了天文学家辛普森对于天文观测数据误差处理的问题。另外贝叶斯还写过一本小册子,里面包含了大量数学方面的内容,大多是贝叶斯对概率、三角、几何、方程求解、级数、微分学、电学、光学和天体力学的讨论。
贝叶斯最重要的法则源自当时英国的宗教纷争:人能不能根据周围世界的证据,对上帝的存在做出理性的结论?1748年苏格兰哲学家休谟发表了一篇论文怀疑世间事物的因果关系,提出所谓“因果问题”和“归纳问题”,并且攻击基督教的一些基本教义。因为上帝被认为是第一因,所以休谟对因果关系的怀疑论令人格外不安,而很多数学家相信自然法则能够证明第一因和上帝的存在,如果因果律是错的,上帝又将被安放在何处呢?
“因果问题”简单来说就好比昨天早上你醒来看到太阳升起,今天早上太阳也照常升起,你以为太阳每天早上都会升起,冷不防明天早上太阳不升起来了。这是一个试图把经验观察和科学理论联系起来的原则,即所谓的“自然齐一性”。休谟对此概括为“未来和过去相似”。当科学家提出他们的理论时,他们都心照不宣地依赖这个原则。
图 3-3 苏格兰哲学家休谟
“归纳问题”不关心是否每个事件都有起因,而是提出另外一个问题:对于每个事件的众多、甚至无限多的可能起因,人们怎么才能确定自己选择的起因是正确的,或者说科学家基于同样的信息可以提出不同的 理论,那什么样的理论才是正确的。
为了研究因果关系,贝叶斯设计了一个台球实验。在这个实验中,他假想自己背对着一张台球桌站着,他的助理往桌子上扔一个主球,他不知道主球落在哪里,因为他背对着桌子。接着他让助理再往桌子上扔一个球,然后告知贝叶斯这个球落在了主球的右边还是左边。如果是右边,贝叶斯就知道主球的位置大致在桌子的偏左边;如果是左边,他就知道主球不在桌子的偏左边。贝叶斯发现,随着扔出的球越来越多,根据助理不断地报告,他想象中的主球在一个越来越小的区域里来来回回。用这种方法贝叶斯也许永远也不能知道主球的确切位置,但他可以越来越自信地说出它最有可能在某个确定的范围内。
贝叶斯的这个方法从对世界的观察演化成了追溯它们可能的来历或起因,而他的本意是为了探索上帝的存在,虽然上帝(主球)的确切位置我们可能永远也不知道。为了解答“因果问题”,后人如豪森进一步指出,存在于归纳前提和归纳结论之间的逻辑是贝叶斯概率逻辑。作为归纳前提的不必是“未来和过去相似”,可以是人们对于任一命题的初始信念度即先验概率 [3] ,也就是人们对“明天太阳会升起”的初始信念度,对主球位置的初始信念度。这里初始信念度就是你心中有百分之多少的把握去相信一件还未发生或者已发生却未知的事。而怎么解答“归纳问题”,即“科学家基于同样的信息可以提出不同的理论,如何证明哪个理论是正确的?”我们说随着新信息即证据的积累,按照贝叶斯法则,科学家们的观点将逐步接近真相。豪森用贝叶斯的方法捍卫了因果律和科学的合理性,其实科学的发展就是遵循这样的法则。
1763年,贝叶斯死后的第三年,他生前的好友普莱斯帮他发表了两篇文章。第一篇是短文,未注明日期,讨论Stirling序列ln ( z !)的发散性。第二篇是《论机会学说中的一个问题》。这篇文章发表后很长一段时间内在学术界并没有引起什么反应,但到了20世纪突然开始受到人们的重视,成了贝叶斯学派的基石。现在看来这主要是因为1950年瓦尔德决策函数理论的影响,人们对古典统计某些缺陷的认识以及计算统计中MCMC方法的使用(将在第10章会详细介绍)。1958年国际权威统计杂志《生物计量》全文重新刊登了这篇文章。关于贝叶斯写这篇文章的动机,人们众说纷纭,一种说法是他为了解决概率论的创立者棣莫弗未能解决的二项分布概率 p 的逆概率问题;也有说法是贝叶斯是受到了辛普森误差工作的震动;还有人提出,贝叶斯写这篇文章是为了给上帝的“第一因”提供一个数学证明。这些说法都有其可能性,但已无从得证 [4] 。
戏剧性的是贝叶斯的理论带来了后世的纷争——频率学派和贝叶斯学派之争。在科学上,基本观点的分歧是常见的,例如大家所熟悉的那场物理学界长达近半个世纪的争论。争论的一方是爱因斯坦,他提出了关于宇宙性质的古典宿命论观点;另一方则是玻尔、海森伯和狄拉克,他们认为宇宙在本质上是不能给予确定描述的,最好用统计和量子力学的观点来解释。我相信,爱因斯坦如果从事统计学研究的话一定会是频率学派的教徒,而玻尔他们也一定会是贝叶斯学派的疯狂追随者。为什么这样说呢?那我们来看看频率学派和贝叶斯学派各自的主张。(以下摘自《贝叶斯统计》)
图 3-4 1925 年,爱因斯坦和玻尔讨论问题
“频率学派主张进行统计推断时仅依据两种信息:一种是总体信息,即统计总体服从何种概率分布,例如总体服从下一章要介绍的正态分布;另一种是样本信息,即从总体抽取的样本给我们提供的信息。频率学派同时考虑总体分布的未知参数是客观和确定的,他们关心的是有多大把握去界定那个唯一确定的所谓真实参数(爱因斯坦:上帝不掷骰子)。贝叶斯学派则不同,他们关心参数空间里的每一个值,因为他们觉得我们没有上帝视角,我们只是人类观察者,怎么可能知道哪个值是真的呢(玻尔:我们怎么能支配上帝该怎么做呢)?所以参数空间里的每个值都有可能是真实模型使用的值,区别只是概率不同而已。接下来贝叶斯学派很自然地就主张除总体和样本两种信息外,还须利用试验之前有关总体分布的未知参数的信息即先验信息,并将此未知参数θ视为随机变量,且引入θ的先验分布和后验分布这样的概念来设法找出参数空间上的每个值的概率。将θ视为随机变量且具有先验分布在很多场合是合理的,是有实际意义的,因为在某些情况下我们可以利用我们的历史经验来确定先验分布,这能拓广统计学应用的范围。总而言之,贝叶斯学派与频率学派的分歧主要是关于参数的认识,频率学派视θ为未知常数,而贝叶斯学派视θ为随机变量且具有先验分布。这分歧的根源在于对概率的理解。频率学派视概率为事件大量独立重复试验后频率的稳定值,而贝叶斯学派赞成主观概率,将事件的概率理解为认识主体对事件发生的相信程度,当然,对于可以独立重复试验的事件,概率仍可视为频率稳定值。”
所以总的来说,频率学派试图描述的是事物本体,而贝叶斯学派试图描述的是观察者知识状态在新的观测发生时得到新的数据后如何更新,两派的差异是世界观的差异影响到了方法上的差异。关于以上的讨论,我们下面还会慢慢展开。有意思的是贝叶斯统计和频率统计都服从苏联数学大师科尔莫哥洛夫1933年提出的概率公理体系,两派的学说就这样被放到了同一个框架中,当然这是后话。