在我看来,生活的大部分都由纯粹的随机性决定。
——悉尼·普瓦捷
世界上的许多事情看上去完全不可预料。我们谈论“天灾”“在错误的时间出现在错误的地点”或者“侥幸”。我们身边发生的许多事似乎是由“缘分”“好运”“厄运”支配的。幸好有数学,我们有了一种工具,能透过明显混乱的迷雾,在看似难以预测的种种事件中找到一些规律。
你知道吗,彻底洗牌后,你很可能做出了一些独一无二的事情。几乎可以确定,这个世界上从来没有人拿到过你摆上去的特殊排序的牌。原因很简单:52 张牌的排列方式可以有52×51×50×49×…×3×2×1 种,总和是 8×10 67 种,或者说是八百亿亿亿亿亿亿亿亿种纸牌排序。假设现在地球上所有活着的人从宇宙开始起,每秒钟洗一次牌,也只能洗 3×10 27 次牌,与上面那个数字相比,实在是太小了。
尽管总共有 8×10 67 种可能性,但也有人声称现实生活中发生过这种情况,即洗牌后的牌序正好和拿到的新牌一样。实际上,这种概率比出现其他牌序的 8×10 67 分之一的概率大得多。当一副纸牌刚拆开包装时,有四种花色:红桃、梅花、方片、黑桃(花色不一定按此顺序),从A、2、3 排列到J、Q、K。如果一个专业发牌手能毫无差错地洗牌等分,并完美交错在一起,那么这副牌在八次完美的洗牌之后,顺序就能像最开始一样。正因如此,赌场在洗新牌时经常采取小孩子的方式——“清洗甲板”:将牌全部摊在桌上,然后随意调换顺序。要达到这种程度的无序,至少需要七次良好但不完美的洗牌。这样,结果会有相当大的随机性,换句话说,你看到这副牌中的任何一张,使用任何可用的公平手段,预测到下一张牌的概率非常接近 1/51。但是,这个牌堆真是随机的吗?随机是什么?完全随机的东西有可能真正存在吗?
随机或完全不可预知,这种概念和人类文明同样久远,甚至可能更长。掷硬币或者掷骰子“随机”决定结果,显然是我们今天常用的方法。早在古希腊,人们会在赌博游戏中掷 距骨 ( astraguli ),也就是山羊和绵羊的膝关节骨。后来他们也用普通形状的骰子,尽管骰子最初源自哪里还不明确。据说在五千年前,埃及人在塞尼特棋盘游戏中就使用过骰子。《梨俱吠陀》这部可以追溯到公元前 1500 年左右的梵语吠陀文献,里面也提到了骰子。更早可以追溯到公元前 24 世纪,美索不达米亚的一座墓中也发现了骰子游戏。希腊的魔方是正方体,每一面分别写了数字1 到 6,但直到罗马时期,才第一次出现我们今天使用的那种骰子,即相对的两面数字之和为 7。
花了很长时间,随机性才被数学家注意到。在此之前,它主要被认为属于宗教范畴。在东西方的哲学中,许多事件的结果被认为是由神或其他超自然力量决定的。中国的《易经》是一套占卜系统,植根于对六十四个卦象的解释。有些基督教徒将决策建立在相当简单的方法上,即从《圣经》中抽麦秆。这些早期的信仰固然很吸引人,但是它们产生了一个不幸的效果,就是极大地推迟了人们理性的尝试,没有认真处理随机性这件事。毕竟,如果事物最终是在人类理解之外的某个层面上决定的,那为什么还要费心去逻辑性地思考事情为什么会这样发生呢?为什么要试图弄明白是否有自然规律操纵结果的可能性?
很难相信古希腊或古罗马那些使用距骨或骰子的人没有一定的直觉,至少对于投掷出的某些结果是有倾向的。通常来说,当赌博涉及金钱或者其他物质利益时,赌徒和其他感兴趣的人都会迅速将这个游戏研究到精通。因此,人们对于赔率的直觉感受似乎可以追溯到几千年前。但是对随机性和概率的学术研究,要等到 17 世纪和文艺复兴后期才开始。在此期间,充当先锋的开拓者是法国数学家和哲学家布莱兹·帕斯卡尔(他也是虔诚的詹森派信徒)和他的同胞皮埃尔·德·费马。这两位伟大的思想家解决了这个问题。简单来说,可以这样表述:假设两人玩掷硬币的游戏,先得到 3 分的人会拿到一大笔钱。当一人拿到 2 分领先时,游戏被打断,此时如果两人来分钱,应该如何分配?在帕斯卡尔和费马之前,很多人想了一些可能的解决方法。有人提议,钱应该平分,因为游戏中途被打断,结果还是未知的。但这对于得到 2 分的人来说似乎不公平,他理应因为领先而得到多的奖金。另一方面,也有人提议将钱全都给领先的人,但这样对只得 1 分的人也不公平,如果游戏继续他还有胜出的机会。第三种解决方法是按照两人已得的分数来分配,那么领先者得到这笔钱的 2/3,落后者得到 1/3。这个方法表面上看似乎很公平,但也存在一个问题。假设比赛被打断时比分是 1∶0,这种情况下,如果采取同样的规则,则得到 1 分的人将拿走全部奖金,另一人本有可能获胜,却一无所得。
帕斯卡尔和费马找到了一种更好的解决方法,同时开启了数学的新分支。这个方法是计算每个人胜出的概率。得到 1 分的人如果要胜出需要再得 2 分,其概率也就是 1/2 乘以 1/2,即1/4,因此落后者应该得到奖金的 1/4,剩下的应该归领先者。这个方法也可以应用于所有类似的问题,只不过计算会更复杂。
在研究这个问题时,帕斯卡尔和费马想到了一个叫作期望值的概念。在赌博游戏或任何涉及概率的情境里,期望值是你可以合理地希望获得的平均值。例如,假设你正在玩一个掷骰子游戏,如果你掷到 3 即可得到 6 英镑,这个游戏的期望值就是 1 英镑。因为在 1 到 6 中掷到 3 的概率是 1/6,而 6 英镑的1/6 是 1 英镑。如果你玩的次数足够多,那么平均下来每玩一次游戏就能赚到 1 英镑。例如你玩了 1000 次,那么平均所得将是1000 英镑。如果你每局游戏支付 1 英镑,那最终刚好不赚不赔。要注意的是,1 英镑的期望值并不是说每次玩游戏一定能保证获得 1 英镑。你不可能一直在一局游戏中完全赢得期望值,但如果你玩的次数足够多,期望值就是你能期望在游戏中获得的平均值。
一般来说,彩票的期望值是负的,所以从理性来看,不应该去尝试这类游戏(在某些特定彩票金额顺延期间,根据彩票的情况,偶尔可能会有一个正的期望值)。赌场游戏也是这样。很明显,赌场也要赢利,但有时候也会因为计算上的一点差错而赔钱。曾有一个案例,一家赌场改变了二十一点游戏中一个结果的赔率,意外让期望值变成了正的,结果几小时内赌场就损失了一大笔钱。只有充分掌握数学中的概率论,赌场才能生存下去。
有时候,一些很不可思议的巧合会让人们怀疑是不是发生了什么有趣的事情,一个人可能中了两次国家彩票,或者可能在不同的抽奖中抽到同样的数字。此时,一些媒体便蜂拥而至,大肆渲染这样的巧合,但事实上大多数人并不擅于探究这类事件发生的概率,因为我们一开始就对概率有些错误的观念。就拿一个人中两次相同的彩票来说,很多人自然而然地代入了自己,设想“我获得两次彩票的概率有多大”。很明显,答案是非常小。然而,那些罕见的中两次彩票的人很可能持续买了很多年彩票,而在此期间,任意两次的中奖就没那么引人注目了。更重要的是,还要考虑总共有多少人在买彩票。大部分人连一次头奖都中不了,更不要说两次了。但是,由于这些人的参与,有人在某个地方中两次奖就变得不那么稀奇了。
这听起来似乎是违反直觉的,那是因为我们倾向于从个人的角度来考虑。当然,我们每个人“自己”中两次头奖的概率是极小的,但要考虑到“某个人”中两次奖的概率,你就需要把这个概率和总参与人数相乘,正是人数众多降低了这些可能性,还要算上一个人可能中两次奖的多种方式(基本等于一个人参与抽奖次数的平方的一半)。经过这些计算后,某个人在某个情况下中两次奖的概率就会显得合理一些。
对于概率的错误估计是因为没有考虑到一个事件的所有可能性,这也是所谓的“生日悖论”(严格来说并不是一个悖论)背后的基础。当 23 个人在同一个房间中,其中两个人生日相同的概率超过 50%,但看上去可能性要比这小得多。你也许会想,如果 23 个人中就能找到匹配的人,那么我们都应该至少认识几个和自己生日相同的人,然而当这种情况发生时我们总是感到惊讶。但生日悖论并不是去问房间中某一个人(比如你)能够找到一个生日相同的人的概率有多大,而是任意两个人出生在同一天的概率有多大。换言之,问题不在于特定的两个人生日相同的概率是多少,而是所有来自不同的可能组合的人中,任意两个成为生日伙伴的概率是多少。这个概率是 1–(365/365×364/365×363/365×…×343/365)=0.507 或 50.7%。如有小组有 60 人,生日匹配的概率可以提升至 99%以上。相比之下,若要求“你”找到生日相同者的概率达到 50%,则需要253 个人在场。
这个问题看起来有违直觉的一个原因是,我们倾向于把两个独立的问题混为一谈了。大多数人对 253 个人的了解还不足以知道他们的生日,因此似乎不太可能会有人随机和其中一个人共享生日,但这并不意味着另外两个人共享生日也不太可能。
不仅概率的概念看起来有违直觉,就连定义随机性也是如此。例如,在以下两个用掷硬币的正面(H)和反面(T)组成的序列中,哪一个看上去更随机?
H,T,H,H,T,H,T,T,H,H,T,T,H,T,H,T,T,H,H,T
还是
T,H,T,H,T,T,H,T,T,T,H,T,T,T,T,H,H,T,H,T
很多人也许会选第一个序列,因为它的正面和反面排列得很均匀,没有明显规律。第二个序列的反面(T)出现次数失衡,同一个字母出现的时段更长。事实上,第二条是本书作者之一阿格尼乔用随机数字生成器生成的序列,而第一条是他故意编造的,看起来像一个人想写出的H与T的随机序列。人们书写时会有意避免同一个字母连续出现,并故意让两个字母平衡,反复切换,但其实这并不是纯粹随机序列状态。
那么这个序列呢:
H,T,H,H,H,T,T,H,H,H,T,H,H,H,H,T,H,T,T,T
这个序列看起来是随机的,用统计学的方法来理解这个序列会得出这样的结论,它不是人造的序列。实际上,这是由圆周率的小数点后面部分(去掉最初的 3)组成的序列,H代表奇数,T代表偶数。那么,圆周率的数是随机的吗?严格来讲,不是,因为小数点后的第一位永远是 1,第二位永远是 4,第三位永远是 1,以此类推,不管产生多少次,仍然是同样的一串序列。如果某个事物是固定的,不管我们选择何时看它都是同样的,那它就很难是随机的。但数学家们确实想知道圆周率的小数部分在统计学上是否是随机的,即分布很均匀:所有数字出现的概率均等,所有两位数字组合出现的概率均等,所有三位数字组合出现的概率均等……如果真是如此,那么圆周率可以被称为一个十进制的正规数 ,这也是绝大多数数学家相信的。也有人认为圆周率是一个绝对正规数,这意味着它不仅在十进制数字的统计学上是随机的,在二进制数字上也是随机的。假如圆周率的二进制数字只用 0 和 1 来表示,那三进制的数字只用 0、1 和 2 表示,以此类推。数学家们已经证明,几乎所有无理数都是绝对正规数,但结果是,要找到具体情况下的证明却非常难。
第一个已知的十进制的正规数的例子是钱珀瑙恩常数,得名于英国经济学家及数学家戴维·钱珀瑙恩。他在剑桥读本科时就写文章讨论过这个常数的重要性。钱珀瑙恩发明这个数字是为了证明正规数可以而且确实存在,同时也说明构建一个正规数是多么容易,他的常数是由所有连续的自然数组成的:0.1234567891011121314……因此包含了所有可能的数的序列,并且比例相等:每十位数中有一个 1,每一百对两位连续数字中有一个 12,以此类推。尽管钱珀瑙恩常数在十进制中是正规数,但是它在产生看似随机的序列方面显然非常糟糕,换句话说,缺乏任何可识别的模式或可预测性,尤其是在数的开头。而且我们也不知道它在其他进制中是否也是正规数。其他已被证明的正规常数是存在的,但就像钱珀瑙恩发明的常数同样是人为造出的正规数,而圆周率在任何一种进制中是不是正规数尚有待证明,更别说证明它是一个绝对正规数了。
就在此书写作时,圆周率已知能算出 22,459,157,718,361 位的小数位,即大约有 22 万亿位。当然,我们未来还能计算出更多的位数,但我们已经知道的那些数字,不管计算多少次都不会改变。圆周率的已知数字是数学宇宙中确凿事实的一部分,因此不可能是随机的。但那些还未计算出的数字呢?假如圆周率在十进制下是正规数,那它在统计学上仍然是随机的。换句话说,如果有人想让你列出 1000 位的随机数列,那么造一台计算机来计算圆周率目前已知数字后面的 1000 位,并使用这些数字作为随机数列,就是一个有效的回答。如果再需要 1000 位随机数列,你可以继续计算下一个(之前未知的)1000 位数字。这就提出了一个有趣的哲学问题,关乎数学的本质。在多大程度上,我们还没有弄清楚圆周率后面尚未算出的小数位是真实存在的?尽管我们还不知道圆周率的第亿亿亿位数是多少,但很难说它不存在或没有一个特定的固定值。但在计算机所经历的漫长的计算结束、突然触及它们的值以前,它是以何种意义或形式存在的呢?
插句题外话,值得一提研究学者戴维·贝利、彼得·博尔维恩和西蒙·普劳夫在 1996 年的一个发现。他们创立了一个相当简单的计算无限序列之和的公式来计算圆周率,能够精确到任何一位 而不用知道前面的数字。 (严格来说,以这三个人命名的公式计算出来的数字是十六进制,而不是十进制的数字。)乍一听非常不可思议,当然也让其他数学家很吃惊。更重要的是,运用这个公式来计算圆周率,即使是用一台普通的笔记本电脑来完成十亿位以后,时间也比去餐馆吃顿饭还少。贝利-博尔维恩-普劳夫公式的变形可以用来寻找圆周率这样的“无理数”,这些数字的小数部分可以无限延续下去,而且不重复。
纯数学中是否存在完全随机的东西,这的确是个问题。随机意味着完全没有模式或可预测性。一件事只有在未知情况下才不可预测。此外,也没有依据能判定它出现的一个结果胜于其他结果。数学本质上是存在于时间之外的,换句话说,它不会随着时间改变或进化,唯一改变的是我们对它的了解。另一方面,现实世界确实是不断变化的,而且经常以乍看上去不可预测的方式在变化。掷硬币被看作充分不可预测的事件,因此往往被用来当作常识,在只有两种可能性时,它被认为是一种公平的决策方式。但它是否真的是随机的呢?这取决于已知的条件。对于任何给定的投掷,假设我们能知道硬币抛出时具体所受的力和角度、旋转速率、空气阻力等,便能够(在理论上)准确预测出它落地时哪一面朝上。同样,扔一片涂了黄油的面包也是如此,只不过在这种情况下,我们有证据支持悲观主义者的观点,即有一半以上的时间是涂了黄油的那一面会朝下落地。实验能够证明,如果面包被抛到空中——这只会发生在实验室里或食物大战时——它以混乱的方式落下的概率是 50%,但如果面包从桌上或厨房柜台上滑落,或者从盘子里掉落,常常更可能是有黄油的一面着地。原因很简单:通常面包意外掉落的高度大概在腰部上下一英尺的位置,面包下落时有足够的时间翻转半圈,如果按照习惯的那样,黄油朝上,它更有可能着地后给地板留下黄油污渍。
大部分物理系统都比下落的面包更复杂。而且,让情况变得更复杂的是,有些系统是混乱的。因此,初始条件稍有一丝变动或干扰,可能就会彻底改变接下来发生的一系列情况。天气就是这样一个系统。在现代天气预报形成之前,谁都可以猜到第二天的天气。气象卫星、地面精准仪器和高速计算机已经改变了预测的准确性,使得人们能预测一周或十天之内的天气。但超过这个期限,即便运用最尖端技术的顶级天气预报来预测天气,仍会遇到混沌和复杂性的综合问题。这包括蝴蝶效应——蝴蝶扇动翅膀引起的微小气流最终可能被逐步扩大,从而形成飓风。
尽管很多事物看上去错综复杂,但万事万物,不管是掷硬币还是天气变化系统,都同样遵循自然规律,而这些规律是决定性的。整个宇宙就像人们一度相信的那样,像一个巨大的钟表齿轮系统——庞大交错,眼花缭乱,但最终是可预测的。有两点争议试图反对这个说法。第一点是复杂性。即便在一个确定性系统,一个结果取决于一系列事件的系统中,即便每件事在知道确切状态时都可以被预测,但整个问题仍然会复杂到我们根本找不到捷径预知实际会发生的情况。在这样的系统中,最好的模拟(如在电脑上运行)也不能超越现象本身。许多物理系统都是如此,纯数学系统也是如此,例如元胞自动机,其中最著名的例子是约翰·康威的《生命游戏》(我们将在第五章详细介绍)。
在《生命游戏》中,任何已知模式的演变都是完全决定性的,却不可预测:只有当事件的发展被一步一步计算出来时,才能知道结果。(当然,有些系统的运作模式是不断重复的,如来回振动或在一定数量的步骤后移动不变。我们知道它们的行为以后,下一步结果就变得可预测了。但是在第一次的时候,我们没法得知它们会有什么表现。)在数学中,即使不是随机的事物也可以是不可预测的。但直到 20 世纪之交,大多数物理学家都有这样的信念:即使我们无法知道物理宇宙中发生的每个细节,但在理论上,我们可以知道我们想要的一切。只要有足够的信息,我们可以运用牛顿和麦克斯韦的方程,选择我们想要的精确度,计算出事件将如何发展。而量子力学的出现,将会见证这种信念被推翻。
不确定性是量子领域的核心:随机性是亚原子世界中无可更改的事实。这种反复无常在放射性核衰变中表现得更明显。的确,通过观察可以得知放射性物质的半衰期——一个样本中一半原始的原子核分裂衰变所需的平均时长。但这是一个统计学上的测量。如镭 226 的半衰期是 1620 年,也就是说,我们取1 克镭 226,必须等待 1620 年才能只剩下 0.5 克,而其余的则衰变为氡气体或铅和碳。而聚焦在一个单独的镭核,我们没法知道它是否会随着 1 克镭 226 的 370 亿原子核在下一秒衰变,还是在 5000 年里衰变。我们只知道,它和掷硬币一样,有 1/2 的概率会在未来 1620 年的某个时刻衰变,但不知道是哪个时刻。这种不可预测性并不是由于测量设备或计算能力的缺陷带来的。随机性是这个世界的现实结构中固有的。因此,它可以影响世界上事件的发生和进展,从而带来更大程度上的随机性。例如,蝴蝶效应的一个极端情形是,单个镭原子的衰变未来可能在更大范围内影响天气。
这种量子随机性可能会继续存在下去。但是也有许多物理学家,如其中著名的爱因斯坦,无法接受“上帝在宇宙中掷骰子”(出自爱因斯坦)这种想法。量子理论的反对者们赞同这样的观点,即在超小范围内事物明显古怪的行为背后,存在着“隐变量”——这些因素决定着粒子何时衰变等等,只是我们现在还无法得知和测量它们。如果隐变量理论证明是真的,那么宇宙将再次恢复到非随机性,而真正的随机性将仅仅存在于某种数学的想象中。但到目前为止,所有的证据都表明,在这个量子不确定性问题上,爱因斯坦的看法是错误的。
在极小的世界中,几乎没有事物是确定的。我们认为是固体的小粒子——如电子和类似的东西——会分解成波,不是物质的波,而是概率波。我们不能确切地说一个电子在这里或在那里,只能推断它有可能在这里而不是在那里,它的运动和行踪在数学概念上由波函数支配。
留给我们的只有概率了,而且连这个概念也不容易把握,它有不同的思考方式。人们最熟悉的是“频率论者”的观点,在这种观点中,某件事情发生的概率是该事件发生次数趋近于无限(即某件事情达到顶点的值)时所占的比例值。为了得出一个事件的概率,频率论者会不断重复实验多次察看该事件多久会发生一次。举个例子,假设某个事件在 70%实验的时间里发生过,那么概率就是 70%。同理,对于一个理想中的数学硬币,其抛掷正面的概率正好是 1/2,因为抛掷的次数越多,得到正面的概率就越接近 1/2 的值。但在现实中,由于种种因素,硬币落下后是正面的概率做不到完全精确的 1/2,这取决于投掷时的空气动力学条件,并且大多数硬币正面花纹的重量会大于另一面花纹,这使得概率发生微妙变化。投掷前哪一面朝上也在一定程度上影响着投掷结果:约有 51%的概率硬币落下时和投掷前同一面朝上,并且在大多数投掷中,硬币更有可能在空中翻转偶数次数多一点点。但对于一个理想中的数学硬币,这些微妙的因素都可以忽略不计。
频率论者的主张是说一个事件发生的可能性等于它发生的长期概率,但有些时候,例如对只发生一次的事件,这种方法是无效的。还有一种计算可能性的方法是贝叶斯方法,以 18 世纪英国统计学家托马斯·贝叶斯命名。它的概率计算是基于我们对某一个结果发生有多大的把握,所以它认为概率是主观的。例如天气预报员可能会说“有 70%的概率会下雨”,这本质上意味着我们对下雨有 70%的把握。频率论和贝叶斯方法的主要区别是,以天气为例,天气预报员不能简单地对天气进行“重复实验”从而得到一个平均概率,而是需要给出一个特定场合下雨的概率。天气预报员可以使用大量的数据,包括类似事件发生的情形,但是没有哪两个天气情形是一模一样的,因此他们被迫使用贝叶斯方法,而不能使用频率论。
当把频率论者的方法和贝叶斯方法应用到数学概念中时,它们的区别就变得很有意思。想一想这个问题:圆周率的小数点后的第万亿万亿位数是否是 5。在算出这个答案之前我们没法提前知道,但是我们知道一旦答案算出来,就永远不会改变,我们不可能重新计算一遍圆周率就得到一个不同于第一次的答案。因此,频率论者的观点暗示,圆周率的第万亿万亿位数是5的概率要么是 1(确定性),要么是 0(不可能性),换句话说,它要么是 5,要么不是 5。假设圆周率被证明是正规数,那么我们就可以确定组成圆周率的无限序列中每个数字出现的密度是相等的。而在贝叶斯方法中,我们对于圆周率的第万亿万亿位数是 5 的置信水平,认为它是 5 的概率是 1/10 或 0.1(因为如果圆周率是正规数,那么在计算出来之前)。任何一位数都有同样的可能是 0 到 9 中任意数字,但是当我们计算到那一位时(如果我们做到了的话),这个概率就肯定会变成 1 或者 0。现在,圆周率的第万亿万亿位数的具体数字是不会改变的,但是 5 的概率却会改变,因为我们获得了更多的信息。信息对贝叶斯方法至关重要:信息越多,帮助我们修正的概率越准确。事实上,一旦我们掌握完整的信息(例如能准确计算出圆周率的某一位数),频率论和贝叶斯方法就等价了——毕竟对于圆周率的已知位数,我们在重复计算时已经提前知道了这个答案。对于一个物理体系,如果每一个细节都是我们知道的(包括一些随机因素,比如镭原子的衰变),那么我们就可以不断重复这个精确的实验,得到一个和贝叶斯方法计算出的概率相等的频率论概率。
贝叶斯方法看上去可能有点主观,但在抽象的条件下它可以变得有说服力。假设你有一枚有偏的硬币,偏差到掷出正面朝上的概率从 0 到 100%都可能。你投掷了一次硬币,结果它正面朝上,那么使用贝叶斯方法证明下一次扔到正面朝上的概率是 2/3。然而,在最初投掷之前,正面朝上的概率是 1/2,而且我们并没有改变硬币。贝叶斯观点认为,虽然第一次抛掷硬币不会改变第二次抛掷硬币的概率,但是它会给你提供更多的信息来完善你估计的概率。一枚严重偏向反面的硬币极不可能翻到正面,而一枚严重偏向正面的更有可能得到正面。
采用贝叶斯方法还有助于避免德国逻辑学家卡尔·亨佩尔在 20 世纪 40 年代首次提出的一个悖论类型:当人们看到同样的原理,例如万有引力定律,在很长一段时间内都没有被推翻,他们自然会认定这就是真实的,而且概率非常高。这是一种归纳法逻辑,可以总结为:如果观察的现象与理论一致时,那么该理论正确的概率就会增加。但亨佩尔以乌鸦为例指出这种归纳法的缺陷。
根据理论,所有乌鸦都是黑色的。我们每次看到一只黑色乌鸦而没有其他颜色的乌鸦——忽略掉有白化病的乌鸦——对这个理论的信心就会增加。然而,问题在这里出现了。当我们认定“所有乌鸦都是黑色的”这一陈述时,等于我们在逻辑上也认定了“所有非黑色的东西都是非乌鸦”的陈述。因此,当我们看到一根黄色的香蕉时,看到这个非黑色的东西同时也是非乌鸦时,我们应该会增加对于“所有乌鸦都是黑色的”这一信念的信任。为了理解这种非常反直觉的结果,一些哲学家认为我们应该对争论的两种描述区别看待。换言之,黄色的香蕉应该让我们更相信一些“所有非黑色的东西都是非乌鸦”(第一陈述),而不影响到“所有乌鸦都是黑色的”这一信念(第二陈述)。这似乎符合常识,香蕉是非乌鸦,所有观察香蕉的人所能告诉我们的都是有关非乌鸦而不是有关乌鸦的事。但这样的看法受到了批评,理由是:如果两条不同的陈述明显在逻辑上相同,它们要么都是真的,要么都是假的,你不可能对它们半信半疑。也许在这个问题上我们的直觉会犯错,看到另一根黄色香蕉时,确实应该增加对“所有乌鸦都是黑色的”这一陈述为真的概率。然而,如果采用贝叶斯方法,悖论就不会再产生了。根据这个方法,假设H为真的概率必须随着这个比率而倍增:
如果H为真,观察到X的可能性
———————
观察到X的可能性
其中X是一个非黑色物体,也就是一只非乌鸦,H是“所有乌鸦都是黑色的”假设。
如果你让某人随机选择一根香蕉给你看,那么你看到黄色香蕉的概率,都不应该受乌鸦的颜色影响。你已经事先知道你会看见一只非乌鸦。分子(上面的数字)将等于分母(下面的数字),比率为 1,概率不变。看到一根黄色的香蕉并不会影响你对乌鸦是否都是黑色的信念。如果你让某人随机选择一个非黑色物体,然后你得到了一根黄色的香蕉,则分子会变得比分母略大,因此看见这根黄色的香蕉只会稍微增加你对“所有乌鸦都是黑色的”这一信念的信任。你必须要见到世界上所有不是黑色的东西,并且确认它们都不是乌鸦以后,才能得出“所有乌鸦都是黑色的”这一结论。在这两种情况下,结论都和我们的直觉相符。
信息与随机性联系在一起似乎有些奇怪,但事实上两者是密切相关的。想象一串仅由 1 和 0 组成的数字序列。1111111111这个数列是完全有序的,因此实际上不提供任何信息(只有 1重复了 10 次),就像空白画布上每个点都是白色的,几乎看不出有什么。另一方面,随机生成的 0001100110 数列,它的长度却包含了最大的信息。这是因为,量化信息的其中一个方法就是看数据被压缩的程度。真正随机的序列无法在压缩成更短的同时又保留所有信息,但一条纯由 1 组成的长序列就可以通过缩写成“多少个 1”来表示。信息和无序是紧密相连的,一条序列越随机越无序,它包含的信息就越多。
另一种考虑的方法是,在随机的序列之中,你得到的下一位数字会为你提供最大量的信息。如果我们看到 1111111111 这样的序列,猜测下一位数字就显得毫无意义。(这只适用于一个完整的序列,而不是一个序列的一部分。一个任意长的随机序列将无限频繁地包含 1111111111。)就我们关心的来说,较为有效的信息刺激必须处于这样两个极端信息之中。例如,一张含有最少信息的照片,可能是一张空白的单色照片,而一本含有最少信息的书,则可能是连续每一页上都只有一个字母。就它们的信息内容而言,两者都毫无趣味。但是,一张包含信息最多的照片可能看起来是一堆杂乱无章的静电噪声,而一本包含信息最多的书籍则是大量随意堆砌的字母,这些对我们而言同样没有意义。我们真正需要的信息是介于两者之间适中的信息量。例如一张照片所能传达的信息应该符合一般照片规范,以我们可以理解的形式和数量呈现出来。如果一个像素是一种颜色,那么紧邻它的像素很可能非常相似。我们知道这个规律以后,就可以在不丢失照片信息的情况下压缩照片。你现在读的这本书基本都是一串字符和空格,还有一些标点。不像极端的书籍中,符号杂乱无章,随意堆砌或全部相同,这些我们读到的字母以“单词”的形式有序地排列,有些字母偶尔出现,有些字母极其频繁地重复出现,这些单词还会遵循某些所谓的语法规则,形成成句子等,以便最终读者能理解传达的信息。在大杂烩式的随机拼凑中这根本不会出现。
阿根廷作家豪尔赫·路易斯·博尔赫斯在短篇小说《通天塔图书馆》中描述了一个巨大的图书馆——可能是无限大,里面陈列着多到令人眼花缭乱的书籍。所有书都有同样的格式:“每本书有 410 页,每页有 40 行,每行大约有 80 个黑体字母。”贯穿全书只使用来自一门晦涩语言中的 22 个字母,加上逗号、句号和空格。这些字符每种可能的组合都遵循共同的格式,都可以在图书馆的某些书中找到。大多数书看起来只是毫无意义的字母堆砌,有些书看上去相当有序,但是内容空洞。例如有一本书有字母M在不停重复,另一本书完全相同,只是第二个字母换成了N。还有一些书的单词、句子和整个段落在某种语言中语法正确,但毫无逻辑。有些书是真实的历史。有些书声称自己是真正的历史,但实际上是虚构的。有些书包含了对尚未发明的设备或尚未发现的事物的介绍。在图书馆某个地方,有一本书介绍了所有使用到的 25 个基本符号(22 个字母和 3 个标点符号),包含了可以想象到的或以特定格式写下来的每一种组合方式。但所有这一切毫无意义,因为如果事先不知道什么是真是假,事实还是虚构,有意义或无意义,这些详尽的符号组合都毫无价值可言。这和那个古老的想法如出一辙,猴子随意敲打打字机的按键,只要花足够的时间,最终能写出莎士比亚的作品。这些书还能提出科学上每一个重大问题的解决方案(在无数万亿年之后)。问题是,它们也会提出每个非解决方法和每个对真正解决方案令人信服的反驳,而且,大多数时候是大量令人头昏脑涨的浮夸费解之言。如果和答案一起一一罗列的还有所有可能的干扰选项,而你没有办法知道哪个是正确的,那么答案摆在眼前也没用。
从某种意义上说,互联网在提供大量可学到的知识的同时,也伴随着无尽的谣言、掺杂着谎言的事实和纯粹的无稽之谈。正变得像博尔赫斯的图书馆——一个从深刻到荒谬的一切事物的仓库。甚至有些网站还会模仿通天塔图书馆,瞬间生成几页随机的字母,其中可能包括也可能不包括真正的单词或有意义的信息碎片。当我们被大量信息包围时,我们应该将谁或什么东西作为判定事实和理论的依据呢?归根结底,由于信息以数字的形式存在于电子处理器和存储器之中,这个答案必须去数学中找寻。
在不久的将来,数学家们试图寻找一种有关随机性的支配理论,它可能将科学中一些看似毫不相关的现象联系起来,从布朗运动到弦理论。麻省理工学院的斯科特·谢菲尔德和剑桥大学的杰森·米勒这两位研究学者发现,许多可由随机程序产生的二维形状或者轨迹归属不同的门类,每种门类都有一些特征。他们的分类带来了新的发现,一些表面上看起来完全不同的随机物体之间产生了不可思议的联系。
用数学方法探索的第一个随机形状是随机漫步。假设一个醉汉从一个灯柱开始跌跌撞撞往前走,从一个点走到另一个点,每一步(假设步幅一样)都是朝随机的方向走的,在醉汉走了一定步数之后,他大概离灯柱有多远?这个问题可以简化为一个一维案例,换句话说,醉汉沿着一条线来回移动,每走一步都用掷硬币来决定向左还是向右。1827 年该问题第一次被应用在现实生活中,英国植物学家罗伯特·布朗提出后来引发人们关注的布朗运动现象——在显微镜下观察水中的花粉粒随意摆动。此后,人们了解到布朗运动是由于单个水分子从不同的随机角度对花粉撞击形成的,每个花粉粒的行为就像上述例子中的醉汉一样。直到 20 世纪 20 年代,美国数学家及哲学家诺伯特·维纳才用数学方法完全解释了布朗运动。诀窍是弄清楚当步数与步幅用时变得越来越小之后,随机漫步问题会发生什么。由此产生的随机路径看起来非常像布朗运动的路径。
最近,物理学家们对另一类随机运动产生了兴趣,这种运动不是沿着一维曲线的粒子的运动,而是极为纤细的“弦”的运动,可以用二维曲面来表示。这便是弦理论中的“弦”。弦理论是关于构成所有物质的最基本粒子的细小单位“弦”的理论,是一个超前的但尚未证明的理论。正如斯科特·谢菲尔德所描述:“要想理解弦的量子物理学,我们可以将它想象为平面上的布朗运动。”弦理论最初由现任职于普林斯顿大学的物理学家亚历山大·波利亚科夫在 20 世纪 80 年代提出。他找到了一种描述这些平面的方法,现在被称为刘维尔量子引力(LQG)。另外一项独立的成果是布朗模型,也描述了随机二维平面,但给出了不同的、互补的信息。谢菲尔德和米勒的重大突破在于他们证明了刘维尔量子引力和布朗模型这两种理论方法在本质上是相同的。在弦理论直接应用于解决物理问题之前,仍有工作要做,但最终它可能被证明是一个强大的统一原则,并运用在很多尺度上,从非常小尺度的弦到日常水平现象,如雪花或矿床的形成等。我们已经能够确定的是,随机性是物理宇宙的核心,而随机性的核心是数学。
真正随机的事物是难以预测的。我们没法预测一个真正随机的数列下一位数是什么。在物理学上,我们没有办法预知一个随机事件何时会发生,例如放射性核的衰变。如果某件事是随机的,它就被称为非确定性,因为我们无法计算出,甚至在原则上,无法根据已知的事判断接下来会发生什么。在日常生活中,我们常说如果某物是随机的,它就是混沌的。“随机性”和“混沌”在日常语言中几乎可以互换使用。但在数学中,这两者有很大的区别。接下来,我们将通过探索分形维度的奇特领域来感受“混沌”的魅力。