与此同时,俄罗斯的两个数学学派在概率、自由意志和上帝之间的关系等问题上恶斗不断。莫斯科学派的领袖帕维尔·涅克拉索夫原本是一名东正教神学家,后来转投数学领域。作为极端保守主义者,他对基督教十分虔诚以致笃信神秘主义,据说他还是极端民族主义组织“黑色百人团”的成员。从各个方面看,他都是沙皇专制制度的拥护者。据一份资料记载,“涅克拉索夫强烈反对有大量民众参与的政治变革。他认为私有财产是首要的权利,应该得到沙皇政权的保护”。他的保守主义立场使他在那些希望遏制学生激进主义运动的反革命政客中备受欢迎,并因此官运亨通,先后升任莫斯科罗蒙诺索夫国立大学校长和莫斯科文教区负责人。
涅克拉索夫的对手是他的同龄人、圣彼得堡学派的安德雷·马尔可夫,后者是一个无神论者,也是东正教会的死敌。马尔可夫针对社会问题给报纸写了很多封怒气冲冲的信,并因此被人们戏称为“愤怒的安德雷”。1912年,为了抗议列夫·托尔斯泰被逐出教会,马尔可夫要求俄罗斯东正教神圣主教会议将他也逐出教会(教会满足了他的愿望,但没有对他实施最严厉的惩罚——咒逐)。
可想而知,涅克拉索夫在十月革命后失宠了,他扮演的数学界权力掮客的角色也谢幕了,有人说他就像“过去的一个怪影”。
如果不是在宗教与政治话题及更严肃的数学问题上暴露出巨大的分歧,马尔可夫和涅克拉索夫之间或许还能维持友好的关系。他们都对概率感兴趣,特别是大数定律,也就是皮尔逊在课堂上通过把10000枚硬币抛在地上来证明的那个定理。这个定理的原始版本是在18世纪(比马尔可夫生活的时代早200年左右)由雅各布·伯努利证得的:如果你将一枚硬币抛足够多次,正面朝上的比例就会越来越接近50%。当然,没有物理定律能做到让这种情况百分之百地发生。硬币也有可能如你所愿连续多次都是正面朝上,但这种情况发生的可能性很小。随着抛硬币次数的增加,任何固定比例(无论正面朝上的比例是60%、51%还是50.00001%)的不平衡情况发生的可能性都会越来越小。人类的存在亦如此,关于人类行为的统计数据,例如各种罪行的发生频率、初婚的年龄,都倾向于稳定在平均水平上,就好像人类是一堆没有头脑的硬币一样。
在伯努利之后的两个世纪里,包括马尔可夫的导师巴夫尼提·切比雪夫在内的许多数学家完善了大数定律,使其涵盖的一般情况越来越多。但是,他们的成果都离不开独立性假设:抛硬币是独立事件,每次的结果都不受之前结果的影响。
前文列举的2016年美国总统大选的例子,让我们看到了这个假设的重要性。就每个州而言,最佳得票数估计值和最终得票数之间的差可被视为一个随机变量,我们称之为“误差”。如果这些误差是相互独立的,所有误差都倾向同一位候选人的可能性就会很低。可能性更大的情况是,一些误差倾向其中一位候选人,而另一些误差倾向另一位候选人,它们的平均值接近零。这样一来,我们对选举情况的总体估计就会趋于正确。但如果这些误差之间存在相关关系(在现实生活中常常如此),独立性假设就是错误的。也就是说,在威斯康星、亚利桑那和北卡罗来纳等州,民意调查机构的预测存在低估了其中一位候选人得票数的系统误差。
涅克拉索夫对可观测的人类行为的统计规律性感到困惑。这种规律性表明,就像彗星或小行星不能自行选择它们在宇宙中的运行轨道一样,人类行为从根本上说也是可预测的。而这与教会的教义格格不入,以至于他无法接受。但在伯努利定理中,他看到了一条出路。大数定律认为,当个体变量相互独立时,平均值就是可预测的。涅克拉索夫恍然大悟:这就对了!我们在自然界中看到的规律性,并不意味着我们都是沿大自然预设的轨道运行的确定性粒子,而只意味着我们彼此独立,可以做出自己的选择。换句话说,这个定理相当于自由意志的数学证明。他在一系列冗长、含糊的论文中阐述了自己的理论,这些论文长达数百页,通通发表在他的指导老师、民族主义者尼古拉·布加耶夫主编的期刊上,并于1902年结集成书。
然而,对马尔可夫来说,这是披着数学外衣的神秘主义的无稽之谈。马尔可夫向他的一位同事愤愤不平地抱怨说,涅克拉索夫的研究是“对数学的滥用”。尽管他无法修正涅克拉索夫犯下的形而上学的错误,但在数学方面,他可以大展身手。于是,马尔可夫变得活跃起来。
在我看来,没有什么比真正的宗教信徒和行动派无神论者之间的“口水战”更幼稚可笑的了。但这一次,它带来了数学上的重大进步,并产生了经久不衰的影响。马尔可夫一下子就看出来,涅克拉索夫的错误在于他把这个定理的逻辑弄反了。伯努利和切比雪夫指出,只要问题中的变量相互独立,平均值就会趋于稳定。涅克拉索夫却由此得出结论,只要平均值趋于稳定,变量就是相互独立的。这在逻辑上根本说不通!我每次吃匈牙利红烩牛肉都会胃痛,但这并不意味着只要我胃痛就是因为我吃了匈牙利红烩牛肉。
对马尔可夫来说,想要真正地击败对手,他必须提出一个反例:一组平均值完全可以预测但并不相互独立的变量。正是基于这一点,他发明了我们现在所说的“马尔可夫链”。你绝对猜不到,这和罗斯给蚊子建模、巴舍利耶预测股市波动、爱因斯坦解释布朗运动时使用的是同一个概念。马尔可夫于1906年发表了关于马尔可夫链的第一篇论文,刚满50岁的他前一年就从学术岗位上退休了,此时正是他全身心投入学术争论的最佳时机。
马尔可夫设想了一只行动严重受限的蚊子,它只能飞去两个地方:0号沼泽和1号沼泽。无论这只蚊子飞去哪个沼泽,只要能喝到足够的血,它就会选择留在那里。假设在任意一天这只蚊子飞到了0号沼泽,它有90%的概率留下,有10%的概率飞去1号沼泽,看看栅栏另一边的血是不是更红。与0号沼泽相比,1号沼泽可能是一个收获略少的狩猎场,蚊子有80%的概率留下,有20%的概率飞去0号沼泽。我们可以用图4-3来展示这个场景:
图4-3
仔细跟踪蚊子的飞行过程,记录它每天去了哪里,你会看到一长串连续的“0号沼泽”和“1号沼泽”,因为“沼泽跃迁”是一个小概率事件。这个序列可能是这样的:
0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, …
马尔可夫告诉我们,如果你长时间地观察这只蚊子,并计算所有这些数的平均值(相当于计算蚊子一生中待在1号沼泽的时间占比),那么这个平均值会趋于一个固定的概率,就像在抛硬币序列中正面朝上的次数占比一样。你可能会认为,最终这只随机飞行的蚊子出现在任何一个沼泽的概率是相等的,即各占50%。但事实并非如此,因为植根于这个问题的不对称性会持续存在。在这种情况下,所有这些数的平均值趋于1/3。也就是说,蚊子一生中有2/3的时间待在0号沼泽,有1/3的时间待在1号沼泽。
这个结果并不是显而易见的,但我至少要让你相信它是合情合理的。在0号沼泽的任意一天,蚊子离开那里的概率是1/10,所以你可能会预估:在通常情况下,蚊子持续待在0号沼泽的时间是10天;同理,蚊子持续待在1号沼泽的时间是5天。这表明蚊子待在0号沼泽的时间应该是1号沼泽的两倍,事实也的确如此。
但是,这个序列的各项之间并不是相互独立的,这是对涅克拉索夫的致命一击。真可谓百密一疏!蚊子今天在哪里和明天在哪里是高度相关的,事实上,蚊子这两天极有可能待在同一个地方。不过,大数定律仍然适用,因为它不要求独立性。关于自由意志的数学证明到此为止。
我们称这样一组变量为马尔可夫链,因为变量出现的次序很重要。每个变量都依赖于它的前一个变量,但在某种意义上它也只依赖于那一个变量。如果你想知道蚊子明天可能会出现在哪里,那么它昨天或前天待在哪里无关紧要,重要的是它今天待在哪里。 每个变量都与它的下一个变量相关,就像链条一样环环相扣。即使不同的沼泽和它们之间的路径构成的网络(只要它仍然是一个有限的网络)比马尔可夫的例子更复杂,蚊子待在每个沼泽的时间占比仍然会趋于一个固定值,就像连续抛硬币或掷骰子一样。我们曾经只有大数定律,现在又有了“长时间游走定律”(Law of Long Walks)。
我们目前享有的全球科学共同体在20世纪初还不存在,跨越国家和语言边界开展数学研究既不容易也不常见。爱因斯坦不知道巴舍利耶关于随机游走问题的研究,马尔可夫也不知道爱因斯坦的研究,这三个人又都没听说过罗纳德·罗斯,但他们最终都取得了相同的成果。这让人们不禁预感到,在20世纪初将会有什么事情发生。那是一种令人痛苦的认识:事物的基底存在着某种不可避免的随机性,正在汩汩地冒着泡。(更不要说量子力学的发展了,它最终会以一种完全不同的方式将概率与物理学结合起来。)谈论某个空间(无论它是一瓶液体、市场空间抑或到处是蚊子的沼泽)的几何图形,就是谈论如何从这个空间中穿行。事实证明,在整个几何学的世界里,随机游走是适用于所有空间的说明性工具。我们将会在后文中看到,在探究如何将一个州划分成若干个选区方面,马尔可夫链发挥着重要作用。接下来,让我们看看马尔可夫链在英语这个纯粹抽象空间中的应用。