译者序
预测是一朵带刺的玫瑰

从几千年前的巫祝开始，人类就开始预测未来。只不过那个时候的预测，往往是基于极其朴素的世界运行原理：例如以“水为万物生长和运动之源”为核心的泰勒斯假说和以“对立、协同、转换”为核心的阴阳学说；又或者一些重大事件之间的偶发联系，例如某一次日食后出现了持续数月的大旱。至于本书的重头戏——关于末日的预测，在宗教与科学“相爱相杀”的人类历史演进中，从来就没有缺席过。然而，以现代科学的标准看，除了少量极其罕见的严肃讨论外（本书将介绍几乎所有有价值的讨论），这类“预测”不过是人类的卑微理性在无常的自然和缥缈的未来面前无畏的挣扎罢了。

基于预测所使用的理论和方法的坚实程度以及相应的对于预测结果正确性的信念，我们可以大致把预测分为三类。一个极端是基于严格理论的预测结果，例如基于量子力学理论，预测某粒子在某时间段内出现在某区域内的概率。这种预测可以用来检验相应的物理理论是否正确。另一个极端是对未来的定性预言，这些预言往往来自未来学家和科幻作家，例如法国小说家儒勒·凡尔纳（Jules Verne）在《从地球到月球》中对人类登月和在《海底两万里》中对海底潜艇的预言，世界著名未来学家阿尔文·托夫勒（Alvin Toffler）在《第三次浪潮》中对互联网科技时代的预言，以及法国预言家诺查丹玛斯（Nostradamus）在《诸世纪》中对世界末日的预言，等等。这类预言更像是猜测而非预测，往往只能给出定性的判断，而不能给出定量的精确度。有时，预言模糊到可以有不同的解释方法，以至于连定性的判断都做不到，例如我们对李淳风和袁天罡所著的《推背图》的解读。而我所感兴趣的预测，是介于两种极端之间的第三类：既没有一套坚实的理论作为支撑，也不是漫无边际的未来学说，而是基于手头已经掌握的一些数据，利用概率统计、数据挖掘或者机器学习的方法，对未知的数据或者未来的发展进行的可量化的预测。

对于自然科学和努力向自然科学靠近的社会科学来说，“解释—预测—干预”（或称“解释—预测—控制”）是我们回答科学问题的三部曲，其任务分别是：（1）提出理论模型，解释已经观察到的现象；（2）预测未被观察到的数据或现象（可能是缺失的数据，也可能是未来才会发生的事件）；（3）通过对真实系统进行具体的干预以达到提前预设的目标。针对一个现象“看起来正确”的解释，并不能说明相应的理论或机制就是正确的，而仅仅是指出了一种正确的可能性。事实上，这种解释的可信度往往都是比较低的。

很多社会科学研究都是典型的“事后诸葛亮”，当一个事件发生之后，总能提出一些经过修修补补的理论模型，对已经发生的事件给出定性正确甚至定量精确的解释。自然科学亦是如此，通过添加越来越多的本轮和均轮，打了补丁的托勒密的地心说“苟延残喘”了1500多年。经济学界有一句谚语，大意是“能预测经济危机的理论一个也没有，能解释经济危机的理论却俯拾皆是”，从这个意义上来讲，预测一般要难于解释，正确预测对于理论正确性的背书力度也要强于解释。当然，这里的更难主要是指预测尚未发生的事，而不是缺失的数据，预测后者通常要更容易一些。正确的预测也可能翻车，比如地心说也可以成功预测很多天象，只是随着测量精度的提升以及对预测精度要求的相应提高，错误的理论终究会破绽百出。与解释和预测相比，成功的干预可以极大地增强我们对理论正确性和适用性的信心，因为在不知道或者弄错了因果关系的前提下，恰好出现我们期望的干预结果的可能性是很小的。

尽管对于理论正确性的背书力度是干预超过预测、预测超过解释，但我认为预测在科学研究，特别是社会科学研究中处于最重要的位置，因为社会科学的研究对象具有极大的不完备性和不确定性。影响社会发展的因素数不胜数，任何理论都不可能将它们全盘纳入，而单个因素也是不独立且不稳定的，会受外部环境和其他因素的影响。因此，在一个封闭的环境中，通过设计可控的重复实验，观察干预的结果，从而对社会理论进行定量验证，是不太可能实现或者成本极高，而这恰恰是物理科学和其他自然科学得以螺旋式前进的基本方法 ¹ 。在这个前提下，预测尚未观察或尚未发生的数据或事件，就成了检验理论正确性最有效的手段。

另外，从更广泛的意义上讲，干预中必然包含预测，因为我们需要提前预测干预的结果，并且和真实的实验结果做对比。由于干预工作的绝大部分工作量往往都集中在实验设计和实施，所以我们往往忘记干预之前总是需要做预测的。一种可能的做法是，在干预实验之前没有理论和预测，而需要根据干预实验的结果“重新发现”合适的理论，这种因果倒置的研究方法是极度危险的，因为理论模型会根据干预实验的结果进行各种调整，从而变成一个过拟合的理论。以上林林总总，导致了社会科学领域的理论模型和实验结果高度不可信 ² 。只有当一套理论解释还能够持续地、高精度地对尚未发生的事件进行预测时，我们才能真正信服 ^3-4 。

得益于可获取数据量的暴涨和计算能力的飞升，预测在现代社会学、经济学、管理学乃至政治学中似乎已经开始并即将扮演统治性的重要地位 ^5-6 ！这些预测涉及我们可以想到和难以想到的方方面面：从一个人的民族、信仰、政治态度、性别取向 ⁷ ，到一个人是否罹患抑郁症 ⁸ ；从社交网络未来的演化 ⁹ ，到生物网络中未知的链接 ¹⁰ ；从恐怖袭击最可能发生的时间和空间 ¹¹ ，到各个国家和地区政治大选的最终结果 ¹² ……在本书中，各位读者还可以看到更多更奇妙的“可供预测的对象”，而在阅读这本书之前，大家恐怕都不会想到这些对象也可以用科学的方式进行预测。

然而，预测绝不仅仅是一朵盛开的玫瑰，而是一朵带刺的玫瑰。即便排除因为实验人员有意识或者无意识驱动预测结果向有利于理论的方向滑动而带来的问题、错误地使用数据和方法，以及错误地理解和应用预测的结果，都有可能带来灾难性的后果 ^13-14 。下面我选择三个较为重要的批判性论题，供各位读者讨论。

第一，预测中存在自证陷阱和自否偏差。预测都是在某种前提或环境下做出来的，而预测本身有可能改变这种环境。所以，我们看到的正确或者错误，有可能都是预测本身带来的，而和预测结果没有关系 ¹⁵ 。首先，很多预测具有自证的特性。例如，基金委员会召集资深专家或者利用机器学习的方法，试图预测未来学者能够在哪些研究方向中做出颠覆性或系统性的贡献。这就是一个典型的自证场景。因为无论是专家意见、机器学习还是随机乱说，只要基金委员会处在正常的逻辑下，必然会大幅提高对这些“重要方向”的支持力度，那么学者更可能在这些方向做出更多贡献，而这又反过来证明了预测的正确性。其次，很多预测具有自否的特性。比如，我们通过对治安事件时空模式的分析，预测出了接下来一段时间最容易出现街头犯罪的场所，于是公安部门在相应的时间和地点增加了巡逻的警力，结果街头犯罪量大幅降低。请问，这个预测本身是正确的还是错误的呢？又比如我们自动监测慢性肾病患者的用药和饮食习惯，发现有一个患者经常不按时按量服药并且不忌口，根据大量病历样本，我们预测他2年之后会转为尿毒症。患者震惊于这个警告，然后改变了自己的习惯，尽最大可能配合医嘱，结果5年过去了，病情也没有进一步发展。请问，这个预测本身是正确的还是错误的呢？

第二，数据偏差会降低预测结果的适用度。如果用于预测的数据不能很好地表示该理论或模型所应用或针对的目标群体，就会出现数据的表示偏差，这是最常见的数据偏差之一。例如，想通过分析微博的语言来看整个中国民众的情绪状况和幸福水平，就可能会出现表示偏差，因为微博用户全体或随机抽样会对年轻人“表示过度”而对老年人“表示不足”。因此，从微博数据中得到的中国民众幸福水平，以及通过进一步文本分析获取的中国民众诉求，可能无法准确反映老年人的情况。也就是说，用被某来源数据训练出来的模型，有可能对于该来源中表示不足的群体并不适用或者效果较差。如果把模型和结论用到其他来源的数据集中，则需要更加小心，因为一般而言都会存在表示偏差。例如ImageNet 中来自中国和印度的照片只占1%和2%，因此直接用ImageNet训练出来的分类器在分类物品和人的时候，如果这个图片来自中国或印度，其精确度就显著低于平均水平 ¹⁶ 。

第三，预测可能会加剧偏见和歧视。即便数据本身是真实的，如果数据中存在大量的负面内容，基于这些数据的预测结果就可能学会甚至放大与这些负面内容相关的偏见。例如，基于谷歌新闻、维基百科等超大规模历史语料库数据的预训练模型（该模型的结果已经被广泛应用于自然语言处理的各种分析和预测工作中）所得到的单词的向量表示中，已经沉淀了严重的性别和伦理方面的刻板印象，比如词语“护士”和女性高度相关，词语“工程师”和男性高度相关，词语“同性恋”与疾病、耻辱高度相关 ¹⁷ 。我们现在努力消除的一些偏见可能在历史语料库中很常见，如果不加分辨地应用，聪明的预测算法可能很快就学会了这些偏见。

哪怕直接应用真实的数据，也可能导致加剧歧视的结果。在职场中性别歧视非常严重，例如某互联网求职简历数据显示，在同等学历条件和行业背景下，女性要多工作5～10年才能获得和男性相当的薪水 ¹⁸ 。使用这类数据进行职位推荐（本质上是预测你适合什么样的职位，然后把这个职位推荐给你），结果必然自带歧视。例如，谷歌广告系统的人工智能算法在推送职位招聘信息的时候，同等教育背景和工作经历下的男性要比女性以高得多的频率收到高收入职位的招聘信息 ¹⁹ 。如果我们有一组人力资源数据，数据中显示，每十个前1%高年薪的高端职位中只有一位女性，于是“性别为女性”这个特征值在获得高端职位匹配预测中将是一个负面的因素，算法的结果自然也将避免给女性推送高端职位信息。在没有基于大数据预测和推荐服务的情况下，男性和女性获得高端职位信息的数量可能相差不大，这种情况下女性真正获聘高端职位的可能性也远低于男性。如今，计算机的自动服务在源头上就让女性获得信息的机会更少，所以可以预测，女性获得高端职位的比例将进一步降低，而这又再次降低新数据中女性获得高端职位的比例，从而让算法更少向女性推荐高端职位。这种恶性循环，会进一步加剧原本就存在的性别歧视和不公。

我们正在进入一个“一切皆可预测”的时代，但诸位手头的这本《概率思维预测未来》，本质上不是讲预测的，而是讲概率论的，因此，我的序言起到的是抛砖引玉的作用。我只是借着写序的地方，表达一些关于预测有好有坏的看法。

译者序 预测是一朵带刺的玫瑰

译者序
预测是一朵带刺的玫瑰