第2章
评价公式

我的朋友马克管理着一个金融交易团队，其成员都具有数学或统计学背景。马克发现出色的交易员有一个共同点：处理新信息以及对新信息做出反应的能力十分出色。随着突发事件的发生，他们会迅速调整对新现实的预期。

交易员从不说诸如“这家公司下季度将会赢利”或“这家初创公司将破产”这类绝对的话，他们会以概率的方式思考问题：“这家公司有34%的概率赢利”或“这家初创公司有90%的破产风险”。随着新的信息流入（例如首席执行官被迫辞职或初创公司开发的软件的测试版本很具潜力），他们会适时更新这个概率：34%变为21%，而90%变为80%，等等。

我从博彩行业的熟人詹姆斯那里听说了类似的故事。他们使用投注公式的变体估计结果，但由于线上流通的资金数额巨大，他们必须快速反应来验证他们的模型是否对即将到来的足球比赛有效。如果比赛前一小时首发阵容发生变化，或者他们的模型背后的假设不再成立，他们会采取什么措施？

詹姆斯告诉我：“只有在这种时候，你才能发现真正的好交易员。他们不会过度反应，如果首发阵容只变化了一个人，投注仍会保持现状；如果2～4个人发生变化，就需要开始权衡不同的可能性了；如果5个人或更多人发生变化，所有投注通道都会关闭。”

如果想学会像这些分析师一样思考，首先你必须让自己身临其境，处在有情绪压力的环境下。如果安全地站在地面上，我们很可能会觉得飞行并不危险，毕竟乘坐商用飞机死于坠机的可能性小于一千万分之一。但是当你在空中时，感觉就会大不相同。

设想一下，你是一位经验丰富的旅客，已经有超过100次的飞行经验，但是你这次乘坐的航班有些许不同，飞机在下降的时候以从未有过的方式剧烈晃动。你旁边的女乘客吓得喘不上气，坐在过道对面的那个人紧紧抓住自己的膝盖。显然，你周围的每个人都很害怕。最糟糕的情况会发生吗？

在这种情况下，数学家会深吸一口气，然后开始收集身边的所有信息。他们会先使用一些数学记号，将飞机坠毁的基准概率记为P（坠毁），P代表概率，“坠毁”代表最糟糕的情况——机毁人亡。从统计数据中我们知道，P（坠毁）=1/10 000 000，也就是一千万分之一的概率 ^[1] 。

为了弄明白这些事件之间有怎样的依赖关系，我们用P（摇晃|坠毁）表示飞机在即将坠毁时机身摇晃的可能性（竖线|代表“给定”）。一个合理的假设是P（摇晃|坠毁）=1，也就是说飞机坠毁之前一定伴随着一系列的摇晃。

我们还需要知道P（摇晃|不坠毁）是多少，也就是在安全着陆的前提下机身摇晃的可能性是多少。这里我们需要借助直觉，这是你经历过的100次类似的飞行中最可怕的一次，因此你的估计是P（摇晃|不坠毁）=1/100。

这些概率很有用，但并不是你想要的，你真正想知道的是P（坠毁|摇晃），也就是在飞机剧烈摇晃时你坠毁的可能性。我们可以使用贝叶斯定理：

公式中的点“·”代表乘积。我将在后面介绍这个公式是如何得到的，现在我们直接用就好。大约在18世纪中叶，托马斯·贝叶斯牧师证明了这一公式，从那时起，数学家就一直在使用它。把所有已知的概率值代入公式，我们可以得到

即便这可能是你乘坐飞机以来遇到的最为严重的湍流，你乘坐的飞机坠毁的概率也仅为0.000 01，因此你安全着陆的可能性是99.999%。

我们可以在各种不同的危险场景下应用这个推理过程。当你在澳大利亚的海滩游泳时瞥到水中出现了一些不明生物，那是鲨鱼的可能性是很小的。当朋友迟到而又无法联系到他们时，你可能会担心出了什么事，但最可能的解释是，他们只是忘了给手机充电。我们眼中的新信息——譬如飞机的晃动、水中模糊的影子或没人接的电话——最终都会被证明没那么可怕，只要我们正确地对待这个问题。

贝叶斯规则能让你正确评估信息的重要性，并让你在周围的人惊慌失措时保持冷静。

我以“看电影”的方式看待世界。不管我是独自一人，还是与他人相伴，我都会花很多时间在脑海中播放关于未来的电影。这不仅是一部电影，也不只是一种未来，而是很多部情节和结局都很曲折的电影。下面让我用飞机的例子来解释一下。

当我登上飞机和准备降落时，我会想象我们之前所谈论的坠机事故。如果我和家人都在飞机上，我会想象握住孩子的手，告诉他们我爱他们，让他们别太担心，不会有事的。在我的想象中，因为家人都在，所以当我们走向死亡时，我会保持镇定。当我独自一人坐在飞机上，周围都是陌生人的时候，我脑中的电影就不一样了，我看到的是家人失去了我的场景。我的葬礼很快结束了，我看到我的妻子和我们的孩子在一起，妻子向孩子们讲述我们在一起的故事。这部电影令人难以置信地悲伤。

这些影片持续不断地在我左眼上方的大脑区域循环播放，至少我是这样感觉的。不过，我脑海里播放的大多数电影都没有飞机失事那样具有戏剧性的情节。在我和图书编辑碰面之前，我会在脑海中先展开讨论，仔细考虑我要和她说些什么。如果我要准备举办一场研讨会，我会在脑海中思考如何展示研讨材料，想象听众可能会提出哪些棘手的问题。许多电影都是抽象的：我会试图寻找论文的写作思路；我会回想我指导的博士研究生的论文结构；我会回顾自己正在解决的数学问题。这些电影若是真的放到大屏幕上，效果肯定不佳，它们充满了数字、技术术语和学术参考文献。不过我很享受这些，毕竟我是一个非常专业的观众。

先强调一下，我并不想自诩为全能先知，我根本没有这样的念头。我创作的电影是零散的，缺乏细节，仍需现实填充。最重要的是，它们几乎总是错误的。跟编辑见面后，编辑将我们的讨论转向了另一个方向，我那时已经忘记了之前脑补的问题。科学论文的推理中出现了一个漏洞，我还无法解决。一开始，我就在计算上犯了一个巨大的错误，结果后面全错了。

心理学家研究了人们看待世界、构建未来故事的方式，但是对这一过程的科学描述并不是我们的重点，重要的是你如何看待未来。用文字、电影还是电脑游戏？是通过照片、声音还是气味？是一种抽象的感觉还是真实事件的具体化？你可以尝试找出你看待事物的方式。你应该用自己的方式看待世界——我无意改变你。如果有人想关闭我的电影，我也会感到不舒服，毕竟我的“电影”是我的一部分。

数学思维能够帮助我组织电影片段的播放，飞机失事就是一个很好的例子。当我在脑海中播放飞机坠毁的电影时，我会预估它真实发生的可能性，最终发现实际上不太可能发生坠毁，但这不会阻止影片的播放。当我坐在飞机上或在海里游泳时，我仍然会感到害怕，但这也有助于我集中精神。我并不只是在害怕，同时还在考虑家人对我的意义，以及为什么我应该减少出差，多在海里游游泳。

我脑海中播放的电影用术语来讲一般被称为“模型”。飞机失事是一个模型，鲨鱼袭击是一个模型，针对我的科学研究的计划也是一个模型。模型涵盖的范围很广，从定义模糊的思想到更形式化的公式，譬如说我在投注时用到的公式。用数学方法理解世界的第一步是了解使用模型的方法。

艾米刚来到一所新的大学上课，她想知道应该和谁走近点儿，和谁离远点儿。她很乐于信任别人，她在脑海中播放的电影内容都是其他人友善地欢迎她的场景，但是艾米也不傻。她知道并不是每个人都很好，而且她的脑海中也有一部“坏人”电影。不要批判艾米用的词语，毕竟这些想法只存在于她的脑海中。因此，当她和同桌的女孩雷切尔刚认识时，她觉得雷切尔是坏人的概率很低，比如二十分之一。

我并不认为艾米和陌生人认识时能够给出准确的“坏人”概率，之所以设置一个数值，是为了让我们更好地切入这个问题。你可以想一下你认识的人中有多大比例是坏人，我希望该数字小于二十分之一，但还是随你定。

在刚认识的那个早上，雷切尔和艾米一起复习了课上学的一些概念。艾米无法快速掌握所有细节，因为她在以前的学校里没有接触过相关概念的背景知识。雷切尔表现得很有耐心，但艾米可以看出来她心里有些不耐烦。为什么艾米学不了这么快？午餐后，发生了一件可怕的事情。艾米坐在洗手间隔间里玩手机，她听到雷切尔和另一个女生走了进来。

“那个新来的女生好蠢，”雷切尔说，“我给她解释文化挪用，但是她一点儿都不懂。她以为这是关于白人学习打邦戈鼓的故事。”

艾米一动不动地坐着，不敢出声，等着她们离开。她此时应该怎么想？

如果你是艾米，你肯定会感到伤心或生气，但是我们应该有这样的情绪吗？雷切尔确实做了不太好的事，这是艾米进入学校的第一天，以这种刻薄的方式对待她是不友善的。问题是，尽管经历了这种事，艾米是否应原谅雷切尔，并再给她一个机会？

是的，她确实应该这么做，我们应该原谅这些不和谐。我们不仅应该原谅他们一次，而且应该原谅很多次。我们应该原谅别人的愚蠢评价，原谅他们在背后说我们坏话而且还没发现我们。

为什么要原谅他们？是因为我们很善良吗？因为是我们让自己陷入了这样的境地？还是因为我们软弱，不敢反抗？

不是的，并不是这样。我们之所以应该原谅他们，是因为我们是理性人，我们相信逻辑和因果。之所以应该原谅他们，是因为我们要公平，也因为我们从贝叶斯牧师那里学到了一些理论，因为第二个公式告诉我们这是唯一正确的做法。

接下来我将具体解释为什么应该原谅他们。贝叶斯规则在模型和数据之间建立起了联系，它使我们能够检验脑海中的电影画面与现实的一致程度。在本章开始的例子中，我算出了飞机在剧烈晃动的情形下坠毁的概率P（坠毁|摇晃），对于艾米而言她想知道P（是坏人|说坏话），这里面的逻辑是一样的。

“坠毁”和“是坏人”是我们脑子里的模型，它是我们对于世界的观念，并且以想法的方式在脑海中呈现，在我这里是以电影的方式呈现。“摇晃”和“说坏话”是我们所能接触到的数据。数据是有形的事物，是已经发生的事情，是我们经历过且能感觉到的过去。许多应用数学模型涉及模型与数据的调和，让我们的梦想直面残酷的现实。

我们用M代表模型，用D代表数据。我们想要知道在给定数据（卫生间里的恶意议论）的情况下我们的模型为真（雷切尔是坏人）的概率。

为了理解这个公式，也就是贝叶斯规则，最好把公式右边的项拆分成两部分。

分子（等式右端项的上面一行）是两个概率P（M）和P（D|M）的乘积。第一个概率P（M）是在任何事情发生之前模型为真的概率，也就是飞机失事的统计概率或艾米对她遇到的任何人是坏人的概率估计，后者大约为二十分之一，这是艾米在去洗手间之前就知道的。第二个概率P（D|M）关系到在洗手间里发生了什么。也就是雷切尔真是个坏人，她在背后对艾米说三道四的概率，或者也可以说，P（D|M）是在模型为真的情况下，我们观测到数据D的概率。这个数值很难估计，但我们假设：P（D|M）=0.5。即便雷切尔真是个坏人，她也不会每次去洗手间的时候都说同学的坏话，我们假设坏人在50%的情况下谈论的是别的事情。

我们将分子中的两个概率相乘，即P（D|M）·P（M），就得到了这两件事同时成立的概率。假如我掷出两个骰子，想知道两个骰子都是6点的概率，那么我将第一个骰子掷出6的概率1/6乘以第二个骰子掷出6的概率1/6，就得到两个骰子均为6点的概率，这就是乘法原理。它同样适用于艾米的问题：分子中的P（D|M）·P（M）表示雷切尔是个坏人且在洗手间对艾米说三道四的概率。

虽然公式2的分子将雷切尔视为坏人，但我们还必须考虑雷切尔不是坏人的可能性，我们在分母（等式右端项的下半部分）中考虑了这一情形。雷切尔可能是个嚼舌根的坏人（M），也可能是一个犯错的好人（M C ）。上标C表示补集，在这种情况下，补集表示雷切尔不是坏人。请注意，分母中的第一项与分子相同，第二项P（D|M C ）·P（M C ）表示雷切尔不是坏人，只是一时没管住嘴说三道四的概率，乘以本来就很友善的可能性。通过除以所有可能性的总和，我们给出了对艾米在卫生间所听到的内容的所有解释，也就是得到了在给定数据的情形下模型为真的概率P（M|D）。

如果雷切尔不是坏人，那么P（M C ）=1-P（M）=0.95。我们现在需要考虑好人犯错的概率。雷切尔可能那一天心情很糟糕，我们每个人都会有这样的经历。我们记P（D|M C ）=0.1，也就是说平均每10天有一天心情很糟糕，可能会说出一些伤人的话。

现在所要做的就是进行图2-1所示的计算。和之前列举的飞机失事的例子一样，但这一次的数值有所不同：

雷切尔是个坏人的概率约为1/5，这就是为什么艾米应该原谅雷切尔：她是个好人的概率为4/5，单凭一件事来评价她是不公平的。艾米没必要提起她不小心听到的雷切尔在卫生间所说的话，也不要让这件事影响她与雷切尔的交流。她应该等一等，看看接下来如何发展，她们有80%的可能性会在大学毕业时将卫生间事件一笑了之。

我还要给躲在洗手间隔间里的艾米再提一个建议。也许那天早上她听到雷切尔对她的冷嘲热讽时会非常低落。之前她们一起学习时，艾米可能确实没有完全集中精力，而且艾米本不应该午饭后在洗手间隔间里玩手机。但请记住，贝叶斯会宽恕错误，艾米对自己也应该采用和对雷切尔完全相同的准则。贝叶斯规则告诉她要慢慢调整对自己的看法，不要因某些特定事件而意志消沉。

图2-1　贝叶斯定理的图像展示

你的所有行为塑造了你，而不仅仅是那一两个错误。贝叶斯要求你对他人保有理性的宽恕，对自己也是如此。

我们从贝叶斯规则学到的第一课是评价公式，这个公式告诫我们不要轻易就得出结论，而要三思而后行。我在之前的例子中使用的具体数字确实会影响结果，但不会影响逻辑。你可以试着想一下：你认为总体上来说有多少人是比较友善的？那些友善的人又多久会犯一次错？坏人多久会做一些坏事？将你自己的感觉数据代入公式中，你也将得到相同的结论：我们不能仅仅因为一句不好听的话，就认为某人是一个“贱人”。

有时我老板行事不妥，有时我的学生似乎缺乏专注力，有时与我合作的一位研究者想窃取我的创造性想法，有时我所在委员会的领导效率低下，浪费我的时间进行毫无意义的邮件交流。在这种情况下，我就会使用评价公式。这并不意味着我要通过计算来得到我的每个同事都很混账、无法专心做事或组织能力低下的可能性，我只是在用评价公式告诉自己尽量不要让某个个体事件决定我的感受。如果我发现与我一起工作的人犯错了，那么我会静观事态发展，因为结果也很可能是我错了。

在《傲慢与偏见》中，达西先生告诉伊丽莎白·贝内特，一旦失去了他的好感就会永远失去。在回信中，贝内特小姐说道：“无法抚平的怨气是性格的阴影。”简·奥斯丁的措辞谨慎而正确。甚至在批评达西时，贝内特小姐也保持克制，将他的怨恨视为淡淡的阴影，而不是深深的污点。在评判对他人看法时的谨慎，才是出色判断力的标志。

如果不了解拜十会的历史和哲学，我们就无法理解拜十会。拜十会充满了一小群人将理性思考的秘密代代相传的故事。他们提出了一些大问题，想知道如何更清晰、更准确地思考，希望能够评估我们所说的话的真实性，他们甚至会探究正确或错误到底意味着什么。他们关心真正的大问题：现实的本质是什么？我们在现实中处于什么位置？

这也是一个关于宗教的故事，关于对与错的故事，同时还是一个关于善与恶的道德话题。

我们的第一个故事发生在1761年，理查德·普莱斯博士刚刚发现了一位近期亡故的朋友的论文，这篇论文将数学符号和哲学思考结合在了一起。它让读者思考这样一件事：“一个刚来到这个世界上的人是如何通过自己的观测收集事件的规律和过程的？”文章里问，这样一个人在看到他人生中的第一次日出、第二次日出和第三次日出后应该做出怎样的推理。关于太阳每天升起的概率，他应该得出什么结论？

这篇文章得出了一个令人印象深刻的结论。每天都能看到太阳升起并不能使新来到这个世界的人相信太阳每天都会升起。相反，这使得他对太阳升起这件事相当谨慎，即使在看了一百次，甚至一辈子日出之后，也是如此。我们不应将任何事视为理所当然。

这篇文章的作者，也是理查德的朋友，就是托马斯·贝叶斯。他阐述了如何根据事件的历史数据来估计事件再次发生的概率。贝叶斯建议刚来到这个世界的人用参数θ来表示他对日出概率的估计。在看到第一次日出之前，此人没有任何关于太阳的知识，因此认为θ取所有值都是等可能的。此时我们可以认为太阳每天都会升起（θ=1），太阳隔一天升起（θ=0.5），或者隔100天升起一次（θ=0.01），这些假设都是可以接受的。尽管θ一定在0到1之间（所有概率都必须小于或等于1），但是它仍然可以取无穷多个值，可以是0.856 7、0.123 479 2、0.999 99等。我们可以通过调整小数点来达到任意精度，只要保证θ的值在0到1之间就行。

为了解决精度问题，贝叶斯建议此人为每天日出的可能性设置一个最小值。如果他认为每天至少有50%的机会会看到太阳，那么他应该设置θ＞0.5。如果他认为日出的机会大于90%，则应设置θ＞0.9。现在设想，在看到100次日出之后，这个人认为太阳在100天中有超过99天会升起，因此他估计θ＞0.99。我们可以用P（θ＞0.99|100次日出）表示他这个估值正确的概率。贝叶斯使用公式2的另一个版本证明了在不同的精度水平下，都有P（θ＞0.99|连续100次日出）=1-0.99 100+1 =63.8%。 ^[2] 因此这个人只有36.2%的可能性是错的，在那种情况下太阳升起的频率比他想象的要低。 ^[3]

如果此人已经在地球上生活了60年，每天都看到日出，那么他可以确定太阳每天都会升起这件事发生的概率超过99%。但是，如果他声称日出发生的可能性超过了99.99%，我们就必须稍微注意一下了。1-0.999 9 365×60+1 =88.8%，这意味着此人仍然有11.2%的可能性是错的。贝叶斯要求新世界的来访者描述他的模型，也就是他认为θ的最小可能值，然后告诉他，他的假设正确的可能性。

理查德·普莱斯意识到贝叶斯公式与18世纪关于奇迹的辩论有关。普莱斯和贝叶斯一样，都是牧师，普莱斯对如何用《圣经》中的奇迹来解释新的科学发现非常感兴趣。

10年前，哲学家大卫·休谟论证道：“没有任何证言足以证实一个神迹，除非该证言的反面比它力图确立的事实更为神奇。” ^[4] 休谟的论点可以看作对评价公式的一种支持。它要求我们将发生奇迹的模型M与没有发生奇迹的模型M C 进行比较。休谟认为由于我们从未见过奇迹，因此P（M C ）几乎等于1，而P（M）很小。因此，我们需要一个真实的、令人信服的奇迹，一个P（D|M）很高且P（D|M C ）很低的奇迹，才能使我们相信相反的事实成立。休谟的论点与我在本章开始时讨论的关于飞机晃动的论点相似：我们需要非常有力的证据来说服我们本来非常可靠的飞机将要坠毁，我们也需要非常有力的证据来说服我们耶稣曾死而复生。

普莱斯发现休谟的推理“完全没有道理” ^[5] ，休谟误解了贝叶斯。贝叶斯解释说，休谟必须对他所说的θ——发生奇迹的可能性——做出更为精确的描述。 ^[6] 即使是相信奇迹的人也不相信每天都会发生奇迹。为了使论点更具体，假设普莱斯要求休谟陈述自己对奇迹发生频率的看法，休谟觉得奇迹发生的频率最多为每1 000万天（也就是27 400年）一次，因此θ＞99.999 99%。 ^[7] 假设普莱斯认为99.999 99%＞θ＞99.999%，也就是奇迹发生的频率为每274年中不超过一次，但每27 400年中又至少发生一次。现在我们已经知道的是在2 000年内没有任何奇迹发生，在给定的数据下，休谟正确的概率约为7.04%，普莱斯正确的概率约为92.89%。即使几千年来没有奇迹发生，当前的证据也不足以表明世上不存在奇迹。显然，一个人一生的时间是不足以采集足够的数据来支持休谟的说法（世上不存在奇迹）的。

理查德·普莱斯带领拜十会走上了基督教道德之路。他相信基督曾复活，并且用理性的论据反驳了质疑。普莱斯坚信逻辑思考可以揭示我们日常经验中隐藏的关于这个世界的真相，上帝的存在就是其中之一。

两千年前，希腊哲学家柏拉图提出洞穴寓言，将没有批判思维的人形容为一群被束缚在洞穴中的人，他们只能看到阴影，即外面更真实、更具有逻辑的世界的投影。柏拉图的寓言经常被用来解释数学拥有的强大力量，普莱斯也十分看重它。他认为我们要先承认洞穴内的投影不是现实，之后才能发现新的真理。我们的日常经验是一个更真实世界的表层体现，借助独立于数据的模型，通过更清晰地思考世界的真实形态，我们就可以更清晰地思考混乱的情况，更理性地认识我们的日常生活。

普莱斯所设想的拜十会是由他的宗教信仰和柏拉图的形而上学组成的。 ^[8] 他认为数学中包含着道德，也含有对待生活的正确和理性的方式。他不仅口头上如此宣扬，还将其付诸实践。他制作了预期寿命表，据此设计的保险支付方式在人寿保险业被沿用了将近一个世纪。 ^[9] 他希望通过自己的工作可以保护穷人免受不确定性的影响，并认为当时几乎所有的担保公司都无法履行其未来的义务，因此需要改善其策略。 ^[10] 普莱斯是美国革命的热心支持者和本杰明·富兰克林的密友，他认为美国有机会建立一个基于自由原则、平等的土地所有权、公平分配的政治权力的制度。 ^[11] 理查德·普莱斯认为，美国将成为一个能让兼顾宗教与理性的拜十会蓬勃发展的国家。

当代的拜十会实践者很少谈论道德，只有少数人信仰基督教，但是许多人继承了普莱斯的价值观：精算师精心计算你岳父的汽车保险费；政府官员规划着我们的退休金，并设定利率；联合国的科学家制定发展目标；气候学家估算未来20年气温上升的不同可能性；专业的医疗工作人员在医疗风险和医疗费用之间找到平衡。他们利用贝叶斯的结论来建立一个更加有序、公平，且结构更为优化的社会。他们帮助我们分担风险和不确定性，这样，当一件可怕而罕见的事降临到某个人身上时，我们其他人所做的贡献就足以弥补其损失。

评价公式引导着拜十会成员为所有人的利益而行动。从普莱斯的角度来看，好的判断力要求我们既要宽容又要体谅他人，它告诉我们不应该不相信奇迹的存在。它表明，这十个公式中至少有一个使我们走上了正义之路。

听众安静地坐在听众席，等待当天的活动开始，比约恩的脸上明显带着紧张的表情。在过去的5年里，他一直从事学术研究，把自己全部投入对真理的追求中。我是他博士期间的导师，指导他去实现自己的目标。现在，他站在同学、同事和答辩委员会的面前，准备开始他的博士论文答辩了，他的朋友和家人在下面当听众。

让比约恩感到紧张的正是听众的多样性和他富有挑战性的研究领域。他的论文有一章名为“瑞典的最后一夜”，是对他的国家的移民和暴力犯罪之间联系的研究。在另一章中，他探讨了一个反对移民的民粹政党——瑞典民主党——在过去10年中是如何在这个以自由社会主义闻名的国家中成为执政党的。

对于答辩委员会和坐在听众席的数学家来说，这是一篇关于统计方法的博士论文。对于他的联合培养导师——经济学教授兰朱拉·巴利·斯温（Ranjula Bali Swain）而言，比约恩的论文旨在解释全球文化融合所带来的影响，斯温本人的研究领域从可持续发展到小额信贷如何使女性摆脱贫困等，涉猎广泛。比约恩的家人们和朋友们则想知道他对不断变化的瑞典的看法。他们的国家正在从只有维京人居住的地方转变为阿富汗人、厄立特里亚人、叙利亚人、前南斯拉夫人和英国人共同居住的多元文化熔炉。

比约恩担心自己会为了取悦不同的人而得不偿失。瑞典博士学位的答辩要求提问方阅读论文并与答辩人讨论，提问人还需要介绍研究背景。比约恩的提问人是来自英国杜伦大学的伊恩·弗农（Ian Vernon）。

伊恩从贝叶斯定理开始了他的演讲。尽管本章中的范例仅关注了对一个模型或一个参数的测试，但科学家通常会建立多个不同的假设。伊恩面临的挑战是为所有这些可能的模型确定一个概率。没有任何假设是百分之百正确的，但是随着证据的积累，某些模型会变得比其他模型更合理。他通过举例来论证，先从寻找油藏开始。石油公司使用伊恩和他同事开发的专利算法来寻找可供长期开采的最佳油藏。然后他转到了健康主题，当研究人员试验一种旨在消除疟疾或艾滋病的干预措施时，他们首先会创建数学模型来预测该措施的效果，比尔和梅琳达·盖茨基金会就在使用伊恩的方法来规划消灭疾病的项目。

最后，伊恩开始讨论人类最根本的问题之一。在宇宙的早期发生了什么？大爆炸之后，最初的星系是如何形成的？什么样的模型可以解释我们今天观测到的星系的大小和形状？通过找到17个不同参数的可能值，伊恩排除了关于早期宇宙的几个模型，这些参数决定了星系是如何扩展到太空中的。 ^[12] 伊恩的演讲完美平衡了观众的口味，展示了数学方法的强大功能和广泛的应用。比约恩的家人和朋友看着银河系旋转和碰撞的模拟大吃一惊，这是关于宇宙早期演化的可能模型，其参数是使用贝叶斯定理得到的。

现在轮到比约恩介绍他的工作了，对宇宙规模的介绍可能会使这位已经很紧张的博士生不堪重负，比约恩可能会担心自己对斯堪的纳维亚某个国家的研究范围没有伊恩那么大。但是，当我看向比约恩的时候，我发现他情绪放松并且信心十足。我回望观众席看他的父母时，也看到了他们脸上的骄傲。布洛姆奎斯特夫妇可能认为，这些都是用比约恩一直在学习的数学知识来完成的。他们的比约恩已经掌握了这些技能：关于宇宙的数学。

其实社会的变化与宇宙的起源一样复杂，尽管它们的方式截然不同。比约恩主要展示了如何通过地理位置来解释反对移民的瑞典民主党的崛起。某些地区的选民更倾向于支持民主党，尤其是斯科讷最南端以及达拉纳中部的某些地区，而令人惊讶的是，这些地区并不是移民人数最多的地区。显然，并不是新移民的涌入引起了更多的民怨，反而是农村地区，特别是受教育水平较低的地区，更支持民主党。

比约恩完成演讲后，伊恩和论文委员会对他进行了提问，伊恩和委员会中的其他数学家想知道比约恩将模型与数据进行比较的技术细节。兰朱拉的经济学家同事、委员会成员林·莱尔波德（Lin Lerpold）指出了比约恩研究的一些重要的局限性，主要是因为比约恩还没有完全了解反移民情绪的根源，他虽然研究了当地社区的变化模式，但他不了解居住在这些社区中的人们的想法。只有进行深入的访谈和问卷调查之后，才能够全面回答林的问题。

委员会的提问虽然严格，但很公正，他们的结论是一致的，比约恩通过了答辩。他正式加入了贝叶斯精英学派。

在过去的几十年中，贝叶斯定理改变了人类科学研究和社会科学研究的方式，它要求我们以科学的方式看待世界。实验学家收集数据（D），而理论学家则针对这些数据建立假设或模型（M），贝叶斯定理将这两部分有机结合在了一起。

请思考以下科学假设：手机的使用不利于青少年的心理健康。在我家，这是一个备受争议的问题，我们家有两个青少年整天沉溺于手机（实话说，还有两个成年人）。在我小的时候，父母总是关心我在哪里，在做什么。我和妻子没有这个困扰，倒是会担心孩子花太多时间坐在沙发上盯着散发着柔和蓝光的屏幕。以前的父母经常会问诸如“为什么你没准时回家？和谁在一起玩？”等问题，我们这一代就不会问了。

社会学家克里斯汀·卡特（Christine Carter）博士写了几本关于如何养育孩子和提升效率的自助书，她反对过度使用手机，曾写道：“花太多时间玩手机很可能是青少年抑郁症、焦虑症和自杀持续增加的原因。”她刊登在加州大学伯克利分校的《至善杂志》上的文章分两步对该观点进行了论证。 ^[13] 首先，卡特引用了一项针对父母的调查，其中近一半的人认为他们处于青少年时期的孩子“沉迷”于移动设备，其中50%的人担心这会对他们的心理健康产生负面影响。第二步她引用了来自英国的120 115名青少年的调查数据，在这项调查中他们回答了14个有关他们的幸福感、生活满意度和社交生活的问题。问卷调查得到的结果显示，如果以每天一小时为阈值，花在智能手机上的时间超过这一阈值的孩子的心理健康状况较差。换句话说，孩子使用手机越多，就越不快乐。

听起来很有说服力，是不是？我必须承认，当我第一次阅读这篇文章时，我被说服了。该文章的作者具有博士学位，文章也发表在世界一流大学的杂志上，并使用了经过同行评审的科学且严格的调查数据来支持其论点。但是这个论证里面存在一个大问题。

克里斯汀·卡特仅仅得到了评价公式中的分子。为了描述父母的恐惧，她第一步给出了一个类似于P（M）的量，也就是父母认为玩手机的时间对心理健康的影响程度。她的第二步是证明当前数据符合这些父母的假设，也就是说P（D|M）相当大。但是她忽略了其他模型对青少年健康状况的解释。她得到了公式2中的分子，但没有告诉我们分母是什么。卡特并未告知我们备择假设得到目前结果的概率P（D|M C ），因此没有提供关于P（M|D）的任何信息。我们不清楚手机的使用对青少年抑郁的影响究竟有多大，而这正是我们想知道的。

加利福尼亚大学欧文分校心理学教授康迪斯·奥杰斯（Candice Odgers）填补了卡特研究的空白，并在《自然》杂志上发表了评论文章，她得到了一个截然不同的结论。 ^[14] 她在这篇评论的开头承认：在美国的调查数据中，12岁到17岁的女孩患抑郁症的比例从2005年的13.3%增加到2014年的17.3%，同龄男孩抑郁的比例也上涨了，不过幅度小一些。毫无疑问，在这一段时间，手机的使用量大幅上涨，关于这一点我们不需要统计数据的支撑就能达成共识。奥杰斯和克里斯汀·卡特均没有质疑关于英国青少年研究的数据，该数据表明，重度手机用户患抑郁症的数量有所增加。

奥杰斯指出，尽管如此，但她也有其他合理假设能够解释年轻人的抑郁症。在测试影响心理健康状况的因素时，早餐不规律或每天睡眠不足等因素所占比重是过度使用手机这一因素的三倍。 ^[15] 套用贝叶斯定理的话，早餐和睡眠是可以解释抑郁症的备择模型，并且这些模型为真的概率P（D|M C ）很大。如果将这些模型放入贝叶斯定理的分母中，它们将会超过分子，导致手机使用率与抑郁症相关的概率P（M|D）发生变化——虽然不能完全忽略不计，但小到不足以解释青少年的心理健康问题。

而且，你还会从一些研究中发现，青少年使用手机也有大量好处。大量研究表明，孩子们用手机建立联系，有助于创建持久的社交网络。对于大多数中产阶级的孩子（这是玩手机时长问题通常关注的对象）来说，手机提高了他们建立真正且持久友谊的能力，这不仅是线上的友谊，也包括来自现实生活中的友谊。康迪斯·奥杰斯在她的文章中指出，问题主要出现在来自弱势家庭的孩子身上。来自较为贫困家庭的青少年更有可能就社交媒体上发生的事情发生争执，在现实生活中被霸凌的孩子也更有可能受到网络暴力的伤害。

我的孩子与世界各地的人们保持着联系，他们经常在线上交流新的想法。我在前几周还无意中听到了埃莉斯和亨利在讨论邦戈鼓和文化挪用。

埃莉斯说：“这是基本的尊重，如果有人告诉你，你因演奏他们的民族音乐而让他们感到冒犯，那么你就不应该再这么做了。”

“那埃米纳姆是文化挪用吗？”亨利反驳。

我们这代人在十三四岁时不太可能和兄弟姐妹进行这样的讨论，甚至如今也不会。然而，出生于21世纪初的孩子们则可以通过网络获取重要的思想和信息，这是我们这代生长于20世纪七八十年代甚至90年代的人所无法理解的。

下面我再来聊一聊艾米和雷切尔，之前我省略掉了一些重要的事情。

我在之前例子中使用的数据——平均20个人中有一个是坏人、坏人有50%的时间很坏、即便是好人也可能每10天就有一天情绪不佳——不仅有些武断，而且相当主观，因为这些情况因人而异。根据你自己的生活经历，你和艾米对别人的信任度也是不一样的。对人性善恶的判断与飞机坠毁截然不同，后者是一个可怕的客观事实，而艾米看待新同学或者我对同事进行分类的方式完全基于我们对熟人的主观经验，其实并不存在客观衡量一个人是卑鄙还是讨厌的方法。

艾米故事中的数据确实是主观的，但这也是我们需要强调的：贝叶斯定理不仅适用于客观概率，对于主观概率依然适用。只要我们可以给出数据（这些数据并不需要完全准确），那么贝叶斯定理就可以对这些数据进行推理。虽然我们可以更改数据并获得不同的结果，但是不变的是贝叶斯定理所蕴含的逻辑。

这些假设被称为先验知识。在公式2中，P（M）是模型为真的先验概率。在很多情况下，先验概率可以从主观经验中得到。但P（M|D），即在我们观测到当前数据的情况下，模型为真的概率，是我们无法决定的。因此，这类计算必须遵循贝叶斯定理。

很多人认为数学是完全客观的，但实际并非如此。数学是一种表示和论证世界的方式，有时我们论证的事物只有我们自己清楚。最后可能没人能真正了解或者在乎艾米是否认为雷切尔是坏人，整个思考的过程可能永远隐藏在她的脑海中。

回想一下我通过电影认识世界的方式——我每天都在脑海里播放这些电影，其中有些是非常私人的。这些画面里可能有对我妻子的担心，对我女儿未来的考虑，又或者包含我带领儿子的五人足球队取得胜利，并最终赢得了校园杯冠军，或者我幻想有一天自己能成为畅销书作家。我不需要告诉你有关它们的任何事情，因为它们完全属于我。评价公式无法告诉我们哪些电影值得收藏或者我们应该幻想些什么，它只会告诉我们应该如何用理性思维分析这些幻想，因为每部“电影”都是关于这个世界的模型。评价公式让我们不断赋予每个幻想一个相关的概率，但是并不能告诉我们应该幻想哪些事物。

伊恩·弗农在比约恩博士答辩后的庆功宴上对我说：“许多人，包括一些数学家和科学家，都没有意识到贝叶斯定理的真正力量在于它促使你在进行实验性研究之前和之后转变思考方式。它要求你将论点分解为不同的模型，然后寻求支撑每个模型的数据。你可能会认为这些数据会支持你的观点，但是你必须诚实地提醒自己，在进行实验之前，你对该假设成立抱有多大的预期。”

我也十分同意。伊恩是在一般的意义上谈论这一点。让我们回想一下比约恩的答辩以及他利用贝叶斯定理来解释瑞典政治中极端主义兴起的过程。在这个项目中，我与比约恩一起研究了所有细节，了解了导致人们投票支持民粹政党的所有因素。现在，我试着将相同的方法应用于我的家庭生活中的问题。我不是心理健康专家，也不是手机专家，但是评价公式为我提供了一种解释他人研究结果，并比较科学家提出的不同论点的方式。我使用贝叶斯定理去验证每个人的论点是不是理性判断的结果。研究人员在关心自己模型的同时是否还关注了备择模型？康迪斯·奥杰斯兼顾了她论点的各个方面，但克里斯汀·卡特只考虑到了对模型的一种解释。

看到所谓的亲子教育和健康生活领域的专家提出的建议被大家不加批判地接受时，我通常会比较失望。就像那些无知的赌徒向我寻求有关接下来的大型比赛的投注建议一样，他们只看到了最新的研究结果，却没有意识到养成健康、平衡的生活方式需要长期的坚持，就像如果想在赌博上挣钱需要长期策略一样。

不过，对于克里斯汀·卡特而言，陈述她所研究模型的各个方面并非她单方面的责任。你可能认为我持这种观点很奇怪，因为我发现她的工作具有某种误导性，但我也意识到她的观点反映了包括我自己在内的许多父母的担忧。她引用的数据是真实的，而且她也给出了论证，我们不能要求她也对备择假设提供论证。

在很大程度上，检查模型的有效性是我们的责任。我在阅读评论文章时，会检查作者（不论其资历如何）是否把公式中的每一项都清楚无误地给出来了。我自己也是一名家长，对我来说要想更全面地了解电子产品在我们生活中所起的作用并不难。我阅读的所有文章都可以在线免费获得，我花了两个晚上把它们下载下来并且读完。了解了论证过程之后，我与我十几岁的孩子讨论了结果。我告诉他们，睡个好觉和吃早餐对他们的心理健康而言要比他们对手机上瘾这个因素重要3倍。我和他们解释了这是什么意思，也强调了这并不意味着他们应该每天晚上躺在沙发上看视频网站。锻炼和社交活动也同样重要，他们绝不应该在卧室里沉溺于手机，我认为埃莉斯和亨利能够理解这一点。

不加批判地接受各种育儿经验的人，在听到其他科学家，例如康迪斯·奥杰斯所采取的更为折中的观点时，可能会产生怀疑。科学家从各个角度论证一个观点，很可能会被认为是对自己的结论不够确信。学术界积极讨论诸如气候变化、不同饮食的优点和犯罪原因等话题，这样的讨论以及对所有潜在假设的比较，并不表示参与这些讨论的人优柔寡断。相反，这是周密而强大的表现，这是考虑了所有可能性，因而拥有优势的表现。

这个世界上充满了提供建议的人：如何在工作和家庭中进行权衡，如何保持冷静专注，如何成为一个更好的人，如何挑选理想的工作，如何挑选完美的合作伙伴，如何选择美好的生活，开始一份新工作时要做的10件事，不能做的10件事，最重要的10个公式……

用瑜伽保持镇定，正念冥想，呼吸放缓。老虎、猫和狗，大众心理学和进化行为。成为穴居人、狩猎专家或者希腊哲学家。关掉，连接，平静下来，充电。站直腰板，永不说谎。适当的饮食能助你长寿。活得随性一些，你会永远快乐。现在就做，而且要快。

所有这些建议都缺乏条理，重要的信息常常混杂在观点和废话中，而评价公式可以帮助你把这些信息组织起来进行评估。它把每条建议（不管你是否需要）变成可以通过数据来测试的模型。我们可以认真倾听他人的意见，列出备选方案，收集数据，做出判断，并且随着数据的积累，适时调整自己的观点。在评判他人的言行时，你也应遵守同一套规则。多给他们几次机会，确保是数据而不是情绪主导了你的决策。如果你遵循贝叶斯定理行事，你不仅可以在生活中做出更好的选择，而且还能赢得他人的信任，你会拥有精准的判断能力。

[1] 不应把一千万分之一视为一个确切的值，据英国民航局报告《2002年至2011年全球致命事故回顾》（CAP 1036，2013年6月）估计，在2002年至2011年间，每一百万次飞行中，如果不考虑恐怖袭击，大约会发生0.6起致命事故。并非所有人都会死于灾难性的事故，而且每个国家的统计方法不同，所以很难给出一个确切的数字。但可以明确的是在任何情况下，这个概率都是大约百万分之一。

[2] 从贝叶斯定理导出该公式需要一些微积分的基础，对于测度θ（θ可以在0到1之间任意取值）来说，贝叶斯公式可写作

其中，函数p被称为密度函数，分母上的积分对于所有可能的θ取值，起到和公式2中的分母类似的作用，从上面公式我们可以得到

我们知道，假设每天观测到太阳升起的概率是θ，连续100次观测到太阳升起的概率就是p（100次日出|θ）=θ 100 。然后，我们设定p（x）=1，意味着在这个人到达地球之前，x的所有取值都是等可能的，这一假设是贝叶斯在描述新来的人时就包含的。把这些数值代入上面公式，得到：

[3] 该结论是反直觉的，但在数学上是正确的。为了说服自己，假设θ=0.98，并且日出的真实可能性为98%，那么在他观测的100天里面每天都有日出这件事不会显得过于令人惊讶。连续100天日出的概率为0.98 100 =13.3%，虽然比较小，但还没到可以忽略的程度。同样的逻辑可以应用到θ=0.985（0.985 100 =22.1%）以及其他小于0.99的θ上。尽管θ的值很可能大于99%（对于θ=0.99的情况，连续100天日出的概率是36.2%），但如果它小于99%，连续100天观测到日出的可能性也是存在的。

[4] David Hume,An Enquiry Concerning Human Understanding（London, 1748）.

[5] 该引用和本段的论证来自David Owen,‘Hume versus Price on miracles and prior probabilities : testimony and the Bayesian calculation’, Philosophical Quarterly 37（147）（April 1987）:187-202。

[6] 此处的计算留给有兴趣的读者，记得使用脚注2。

[7] 此处的计算留给有兴趣的读者，记得使用脚注2。

[8] Martha K. Zebrowski, ‘Richard Price : British Platonist of the eighteenth century’,Journal of the History of Ideas 55（1）（January 1994）:17-35.

[9] Richard Price,Observations on Reversionary Payments...To Which Are Added, Four Essays on Different Subjects in the Doctrine of Life-Annuities... A New Edition,With a Supplement,etc.,Vol.2（London:T.Cadell,1792）.

[10] Geoffrey Poitras, ‘Richard Price, miracles and the origins of Bayesian decision theory’,European Journal of the History of Economic Thought 20（1）（February 2013） : 29-57.

[11] Richard Price and Anne-Robert-Jacques Turgot, Observations on the Importance of the American Revolution, and the Means of Making it a Benefit to the World（London:T.Cadell,1785）.

[12] Ian Vernon, Michael Goldstein and Richard G. Bower, ‘Galaxy formation: a Bayesian uncertainty analysis’, Bayesian Analysis 5（4）（2010） :619-69.

[13] Christine Carter,‘Is screen time toxic for teenagers?’,Greater Good Magazine,27 August 2018;at＜https://greatergood.berkeley.edu/article/item/is_screen_time_toxic_for_teenagers＞.

[14] Candice L. Odgers, ‘Smartphones are bad for some adolescents, not all’,Nature 554（7693）（February 2018）:432-4.

[15] 该结果最初来自对英国青少年的研究，见Andrew K. Przybylski and Netta Weinstein, ‘A large-scale test of the Goldilocks hypothesis: quantifying the relations between digital-screen use and the mental well-being of adolescents ’, Psychological Science 28（2）（January 2017）:204-15。

第2章 评价公式

第2章
评价公式