购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

前言
如何用数据说谎

问题的重点不是去伪,而是鉴真。

——安伯托·艾柯 [1]

你听说过鹳鸟送子的故事吗?我告诉你这事千真万确。我可以用数据证明给你看。

我们先看看每个国家鹳鸟的大概数量,再比对每年的婴儿出生数量。在整个欧洲,这两个数字的关联性很强。统计的某年鹳鸟数量多,婴儿出生率也高;相反,某年鹳鸟数量少的话,婴儿出生率也低。

用数据论证十分符合学术期刊对论文的科学严谨要求,而且还有人真的发表过一篇题为《鹳鸟与生育率(p=0.008)》的论文,光是题目里那些精确到小数点后面好几位的零就已经足以让读者买账。 [2]

但也许聪明的你已经看出问题。德国、波兰和土耳其这样的欧洲大国,自然是家中婴儿多,房顶鹳鸟多。同理,阿尔巴尼亚和丹麦这样的小国,婴儿和鹳鸟的数量都少得多。虽然论文中的数据明确表明婴儿和鹳鸟呈正比关系,但事实上,这种正比关系并不能说明家有鹳鸟就会让这家人丁兴旺。

既然任何东西都可以用数据来证明,那数据也可以用来证明鹳鸟送子这样的故事是骗人的。

你如果读过《统计数据会说谎》这本书,就知道我说的是什么意思。1954年,一位名叫达莱尔·哈夫的美国自由撰稿人写了一本妙语连珠、针砭时弊的小册子。这本小册子出版后立即受到《纽约时报》的好评,并成为有史以来在数据统计方面最受欢迎的书,销量超过100万册。

这样的赞誉和喜爱并不为过。这本书简直就是数据统计领域里的一部神作,也让哈夫这样一位名不见经传的学者成为传奇人物。流行病学家,同时也是畅销书《科学弊病》的作者本·戈尔达克曾不无赞赏地说“愤青”哈夫“揭开了一块遮羞布”。美国作家查尔斯·惠兰更是将他的书《数字裸奔》形容为对哈夫“经典”的“致敬”。权威期刊《统计科学》在哈夫的书出版50年后组织了一次声势浩大的回顾展。

我以前对这本书也是顶礼膜拜。我十几岁时就开始阅读《统计数据会说谎》。我对这本书的印象是精辟、犀利,还有很多搞笑的插画,最大的亮点还在于内容:揭秘如何在幕后操纵数据,怎么做局。我读后大呼过瘾,如开天眼。

哈夫的书里举了很多例子。他说他最早是好奇“耶鲁大学毕业生一年能赚多少钱”这个问题。根据1950年的一项调查,耶鲁大学1924届毕业生的平均年收入相当于今天的50万美元。这听起来很有道理,毕竟是耶鲁毕业的,但每年50万美元也不是个小数目啊!他就开始怀疑他们是否能赚这么多。

这当然不可能是真的。哈夫解释说,这个“看上去很美”的数字都是人们自己报的,未经核实,也就是说,会有人为了面子而夸大收入。此外,这项调查也只找到了能找到的和愿意填写调查问卷的那些耶鲁校友。哪种人找得到,还愿意发声呢?当然是富人和名人,换句话说是那些达则兼济天下的人。那些“地址不详”的独善其身者又能赚多少呢?哈夫也很想知道。耶鲁大学一向追踪杰出校友的情况,但那些混得不怎么样的毕业生可能就不在被追踪者之列了。所以这一切都意味着,这项调查得出的结论注了水。

哈夫爆料了各个领域的数据造假情况,例如,为了牙膏广告而做的数据漂亮的证明实验,又如随意上色的图表。正如哈夫所写,“骗子们见人说人话,见鬼说鬼话,老实人千万要小心”。

如果你读过《统计数据会说谎》,一定会对数据产生警惕,这本书的确为人们拉响了数据骗局的警报。

十多年来,我一直在和数据打交道,知道真实反映事实是数据的诉求。所以这些年来,我开始重新审视《统计数据会说谎》这本书,渐渐地对书中的观点产生了怀疑。这本在数据统计方面卖得最火的书,到底想给我们灌输什么观点呢?从头到尾,它都只是在提醒大家警惕虚假数据的误导吗?

哈夫于1954年出版了《统计数据会说谎》。同年,还发生了一件事:两位英国研究人员理查德·多尔和奥斯汀·布拉德福德·希尔发表了第一份确凿的调查研究,证明吸烟会导致肺癌。 [3]

没有统计数据,多尔和希尔是不可能得出这一结论的。英国的肺癌发病率在短短15年内增加了6倍;到1950年,英国成为世界上肺癌死亡人数最高的国家,该数目首次超过肺结核的死亡人数。要让人们认识到这个变化,只有统计做得到,尽管个别医生似乎也感觉到肺癌病人多了起来。

指证吸烟是罪魁祸首,是统计数据的功劳,因为当时很多人并不同意这个观点,他们认为汽车尾气才是肺癌发病率上升的元凶。这也不无道理。20世纪上半叶,汽车普及开来,新铺的沥青道路上,汽车尾气交织着沥青散发出的难闻气味,让人作呕。人们觉得这种气味绝对会影响人的健康,与此同时,肺癌发病率上升,所以人们自然而然地将肺癌归咎于汽车。汽车尾气引起人的不适,这是可以看到、感觉到的,但要证明香烟对肺部有致命作用就不是那么容易了。研究人员开始收集数据,并进行各种比较。简而言之,他们必须用数据证明。

吸烟致癌不是什么新观点,但一直以来,许多人对此持怀疑态度。所以,为了证明吸烟是危险的,德国在纳粹执政期间曾进行过一次大规模的研究,当然,这也是极其厌恶吸烟的元首阿道夫·希特勒授意的。当德国医生证明了吸烟致癌时,希特勒很满意。不过,后来大家都知道,香烟并没有因为它是“纳粹憎恨的”就销声匿迹。

所以多尔和希尔决定亲自进行统计调查。多尔是个英俊、文静、彬彬有礼的年轻人,参加过第二次世界大战。从战争经历中,他萌发了用数据统计来改进医疗的想法。希尔是多尔的导师,在第一次世界大战时当过飞行员,后来得了肺结核,差点死掉。 [4] 希尔风度翩翩,才思敏捷,据说是20世纪最优秀的医学统计学家。 [5] 他俩珠联璧合,进行数据调查,挽救了许多人的生命。

1948年新年,两人的首次吸烟与癌症研究开始了。多尔负责调查伦敦西北地区的20家医院。调查方法就是,每当一个癌症患者被送进来,护士们就会在同一家医院找到同一性别、年龄相同的另一个病人;然后多尔对癌症患者和他的比对病人进行深入调查,比如他们在哪里生活和工作,他们的生活方式和饮食习惯,以及他们的吸烟史。一周又一周,一月复一月,数据就慢慢积累起来了。

1949年10月,实验开始还不到两年,37岁的多尔吃惊于数据呈现的证据,马上戒了抽了9年的烟。他和希尔发现,大量吸烟会使患肺癌的风险增大不止两倍,甚至是三到四倍,患肺癌的概率因此增加了16倍。 [6]

多尔和希尔于1950年9月公布了他们的研究成果,并迅速展开了一项规模更大、时间更长、目标更宏伟的调查。希尔写信给英国的所有医生——共59600人——要求他们完成一份关于自我健康和吸烟习惯的调查问卷。两人认为医生是记述自己吸烟及身体状况最合适的人群。他们的记录会存档,查找起来也容易。一旦一位医生死了,那些记录方便其他医生对他的死因进行诊断。希尔和多尔现在要做的就是等着真相慢慢显现。

虽然有4万多名医生填写了希尔的调查问卷,但其中不少医生是不太情愿的。要知道,吸烟在当时极为普遍,所以在两人的最初样本中,85%的男性医生自述是吸烟者不足为奇,没人喜欢被告知他们可能正在慢性自杀,尤其这种自杀方式还很容易让人上瘾。

在伦敦的一个聚会上,就有一位医生拦住希尔,不客气地问道:“你就是那个要我们戒烟的人吧?”

“我可没想让你戒烟。”希尔回答说(那时他还是个抽烟的烟民),“你可以继续开心地抽,我很有兴趣见证你的死亡。或者因为你不想让我如愿,就不抽了,然后寿终正寝。所以你抽不抽,我都无所谓。但不管你因何去世,我都会对你的死亡做记录。” [7]

前面提到希尔一开始学的是经济学,所以他反应快,很会说话。

尽管这项针对医生的调查研究进行了几十年,但多尔和希尔没花多长时间就有了足够的数据,可以得出明确的结论:吸烟会导致肺癌,吸烟越多,风险越高。更重要的是,吸烟也会导致心脏病。

医生不是傻瓜。1954年,当这项研究发表在专业杂志《英国医学杂志》上时,医生一下子就心里有数了。当年,希尔就戒了烟,他的许多医生同事也戒了。医生成为英国第一个大量明确戒烟的社会群体。

于是在1954年,对统计数据的两种不同观点同时出现。对于达莱尔·哈夫的《统计数据会说谎》的许多信众来说,统计数据就是一个游戏,都是些坑蒙拐骗的把戏,我们的任务就是识破它们的伎俩。但对于多尔和希尔来说,统计数据可不是儿戏,真实的数据是可以拯救生命的,不是说救人一命,善莫大焉吗?

到了2020年春天,当我对本书进行最后润色的时候,严谨、及时和真实的统计数据的重要性一下子凸显出来。新冠病毒正在全球肆虐,各国政要不得不迅速做出几十年来最重要的决策。其中许多决定都有赖于流行病学家、医学统计学家和经济学家竞相进行的数据调查工作。新冠病毒威胁着千万人的生命,几十亿人的生活受到严重影响。

当我写下这些文字的时候,已经是2020年4月初。世界各地也已封城、封国好几个星期,全球新冠肺炎导致的死亡人数刚刚超过6万,疾病的未来走向还很不明朗。也许,当本书到你手中的时候,我们将陷入自20世纪30年代以来最严重的经济萧条,死亡人数将激增。也许,由于人类的聪明才智或命运眷顾,我们侥幸逃脱末日的诅咒。种种猜测似乎都有道理。这就是问题所在,我们很被动,因为我们没有可靠的数据,所以根本没有办法预估情况并采取对策。

流行病学家约翰·约安尼迪斯在2020年3月中旬写道,新冠“可能是百年一遇的数据滑铁卢”。 [8] 统计人员本希望能用数据为领导人的决策助一臂之力,但他们手头的数据要么不完整,要么对不上,要么样本不够,无法在这生死攸关的时刻让它们发挥应有的作用。

毫无疑问,后人一定会对这场数据惨败的原因进行追查。但有些事情似乎已经很清楚。例如,在危机开始时,真实数据似乎成了政治的牺牲品,我们将在第八章中讨论这个问题。

由于病例每两三天翻一番,我们永远不知道如果警告早发出几周,事情会不会完全不一样。显然,许多领导人总是不慌不忙,缺乏危机意识。例如,特朗普总统在2020年2月底还宣称“新冠会走的。有一天,它会神奇地消失”。但事实并非如此,四个星期后,1300名美国人死于新冠,确诊病例也高于其他国家,但特朗普仍在兴致勃勃地怂恿大家在复活节时去教堂聚会。 [9]

我写本书时,大家还在争论。有人问快速检测、隔离和追踪接触者能不能一劳永逸地遏制疫情,还是只能延缓疫情的传播?家庭室内聚集和大型户外聚会,哪个风险更大?关闭学校的确可以防止病毒的传播,但孩子和年迈的爷爷奶奶待在家里就没有弊端吗?戴口罩到底有多大作用?诸如此类的问题只有等待关于新冠病例感染人数和时间等具体数据出来了才能有答案。

但是,由于缺乏检测,大量感染病例并没有包含在官方的统计中。而报道中的检测正在进行也并非真实情况,因为报道关注的都是医务人员、危重病人,以及有头有脸的人。在写这些文字的时候,我们仍然不知道轻微症状或无症状的患者的人数,也就是说,我们还无从得知这种病毒的致命性到底有多大。由于2020年3月死亡人数呈指数上升,每两天翻一番,我们其实是没有时间观望的。结果,美国领导人的反应迟钝连累经济产生休克:3月下旬,一周内就有超过300万美国人申请失业救济,是之前人数的5倍。接下来的一周更糟,又有650万人申请救济。有人问:“新冠这种传染病真的有那么严重,以致让这么多人失去工作、坐吃山空吗?”十有八九会是这样的,这是流行病学家依靠现在非常有限的信息尽可能准确预测得出的结果。真是没有什么情况能比新冠更生动地说明数据的重要性了。人们平时对准确、系统地收集来的数据太不以为意了。在新型冠状病毒出现之前,多年来,勤勉的统计学家辛辛苦苦地收集了大量重要问题的统计数据,供人们随时随地免费下载。但是,人们被这种免费惯坏了,往往不以为意地随口说一句“假的,都是些骗人的话”。现在好了,新冠的例子给我们上了生动的一课:没有统计数据我们会面临怎样的绝境。

达莱尔·哈夫把统计学说得跟舞台上的魔术师耍把戏似的:看看就好,不必当真。早在冠状病毒出现之前,我就开始担心这种心态会让人类自食恶果。我们已经失去一种认知,那就是统计数据可以帮助我们把世界真相拼凑起来。失去这种信念不是因为我们认出了数据的假,而是因为我们难以找到世界的真。所以你到底对这个数据拼图拼出来的世界愿意相信多少是你的选择(下一章会继续讨论),或者你也可以用哈夫的方法:冷笑一声,耸一耸肩,任凭你说什么,反正我就是不信。

这种对统计学的不屑一顾现在已经不仅仅是一种统计的耻辱,而是一种悲剧。如果我们真的因为觉得我们不可能再找到真相而不做挣扎,就此放弃,那就等于自动放弃了一个至关重要的工具。这个工具曾让我们知道吸烟可致命,所以也可以提供给我们唯一的解决新冠病毒危机的机会,或者往大了说,这个工具可以帮助我们了解复杂的世界。但是,如果我们对任何统计数据都不屑一顾,习惯性排斥,那么这个工具就无用武之地。诚然,我们不能轻信,但不轻信不意味着矫枉过正,变得什么都不相信了,而是要有信心,用探究心和合理的怀疑态度去评估信息。

真正的数据统计不是一种儿戏,它的作用往往让人啧啧称奇。真正的数据统计不是空穴来风,事实上,它让我们看到事物的本质。真正的统计学就像天文学家的望远镜、细菌学家的显微镜、放射科医生的X射线。只要我们愿意,真正的统计数据可以帮助我们见天地、见自我——无论是微观的还是宏观的——而且非此不可,别无他法。

写作本书的主要目的就是希望你能接受多尔和希尔对统计数据的观点,而不是像哈夫一样抱着嗤之以鼻的态度。我要让你相信,统计数据是可以清晰、真实地反映事实的。要做到这一点,我要告诉你,你可以自己辨别数据,来判断你身边的报纸电视、社交媒体和日常谈话内容的真真假假。我会教你学习如何辨别真假,知道去哪儿找可以信赖的帮助。

我保证这学起来一点都不无聊。这里讲的都是让你弄清楚统计真相的干货,你会越学越自信,越学越明白。你会因洞悉某个真相而会心微笑,不会一脸困惑地傻笑。达莱尔·哈夫的态度就像快餐食品:一开始看起来很好吃,时间一长就食之无甚滋味了,所以学他的否定态度对我们是没什么好处的。但不吃垃圾食品并不意味着只能吃发面馍馍就萝卜这么难以下咽的饭菜,让人健康、开心的饮食有很多,所以擦亮我们的眼睛也可以是件很愉快的事情。

我在本书记录了2007年以来我学到的东西,当时BBC(英国广播公司)让我接手一档名为《或多或少》的广播节目,因为节目的创始人记者迈克尔·布拉斯特兰和经济学家安德鲁·迪尔诺爵士做别的项目去了。《或多或少》是一档讲述新闻和生活中的各种数据的节目。BBC当时有点高估了我的能力,因为我学的是经济学,而不是统计学。虽说经济学让我谈数据还有些许自信,但也仅限于应付场面:我知道怎么找数据的漏洞,仅此而已。

就是这个经历让我与达莱尔·哈夫的观点分道扬镳了。

一周又一周,我和同事们评估着那些从政客口中冒出来或在报纸上用大字印出来的统计数据。很多言辞往往会夸大事实,虽然每每就“此话当真?”进行核查不是什么大事,但我们发现,在每个数据的背后,不管其是真是假,还是半假半真,都藏着一个个意味深长、需要抽丝剥茧的目的。无论我们是评估中风的发病率,还是债务影响经济增长的证据,抑或霍比特人使用“她”这个词的次数,这些数字既可以照亮事实,也可以模糊真相。

正如新冠疫情所凸显的,无论是个人、组织,还是社会,我们都必须依赖可靠的数据来做决定。也正如在面对新型冠状病毒时的表现一样,统计数据往往是我们在面临危机时才去临时抱的佛脚。以衡量有多少人想要工作却没有工作的失业率为例,现在,任何政府要了解经济状况,失业率都是一个基本信息,但是早在1920年,没人告诉你有多少人在找工作。 [10] 只有当经济严重衰退,民生艰难到要动摇政权基础时,政府才开始着急地收集相关的数据。

我们这个庞大而令人困惑的世界问题很多,只有仔细辨别那些数据才能回答以下这些问题:使用脸书让我们更快乐还是更悲伤?我们能搞懂为什么同一件事情不同的人会有不同的反应吗?有多少物种濒临灭绝,这些物种是不是已经占到物种总数的相当比例了?这是气候变化的原因,还是因为人类农耕的扩张,或者完全是其他原因造成的?人类创新是在加速,还是在减速?阿片危机对中美洲人的健康影响有多严重?酗酒的青少年越来越少了吗?如果是,是什么原因造成的?

当《或多或少》的听众粉丝称赞我们“揭穿假数据”时,我却越来越不安。当然,我们做到了打假,打假也的确很有意思,但慢慢地,在工作中,我开始意识到真正的快乐不是揭露谎言,而是努力理解谎言背后的真相。

在《或多或少》节目组工作期间,我领悟到所谓常识会成为你变成数字慧眼达人的绊脚石。我将在本书中将这些所谓常识一一总结出来。大多数节目调研员和制作人和我一样,缺乏数字认知的严谨培训。即使是在技术含量很高的领域,问一些简单的问题——那种在网上随便一搜就能搜出答案的问题,大腕们的回答也千奇百怪,让人脑洞大开。是的,有时候统计学的高学历会派上用场,但我们不需要有高学历才能问对问题,对吧?

1953年圣诞节前夕,烟草公司高管在纽约广场酒店会面。多尔和希尔的重大研究要到第二年才能发表,但烟草公司高管已经意识到,这项科研结论对他们不利。他们聚在一起讨论如何应对这场迫在眉睫的危机。

不得不说,他们的应对方案相当高明,并从此树立了公关的标杆。

他们开始混淆视听。他们的第一招是质疑现有的研究结果;第二招是呼吁进行更多的研究;第三招是转移注意视线,资助其他容易让媒体兴奋和大肆报道的研究项目,比如室内装修污染综合征或疯牛病的研究。他们成功地让人们对研究结果的准确性产生了怀疑。 [11] 一份行业的秘密备忘录后来提醒业内人士,“让民众产生不信任感就是我们的目的”。 [12]

所以这就是为什么当我们要说服人们的时候,人们总是暗想这又是什么(我们在下一章再讨论这个问题)。所以,有时候问题不是人们太急于相信某件事,而是相反,人们被培养出了不轻信的习惯。吸烟者喜欢吸烟,尼古丁上瘾,只要能吸,他们就会继续吸。对于吸烟致癌的警告,烟民耸耸肩,心想“反正我也搞不清那些说法是真是假,管它呢”。烟草行业也是这么一副掩耳盗铃的德行。他们根本不用费劲地游说吸烟者吸烟是安全的,只要让人们对证明吸烟危险的统计数据产生怀疑就够了。

事实证明,让人疑神疑鬼简直太容易了。几十年前,美国心理学家卡里·爱德华兹和爱德华·史密斯进行了一项实验,他们要求人们对当时争议很大的政治议题,如堕胎权、打孩子、允许同性恋伴侣领养孩子、领用少数族裔的配额、判决未满16周岁者死刑等表达他们的立场。 [13] 结果不出他们的意料:每个人都有立场,都觉得异己分子的观点不可理喻,无法公正客观地看待问题。爱德华兹和史密斯还发现了一个更显著的现象,就是当人们对一个事情持否定意见时,他们的偏见会更明显。因为人们更容易产生不信任感,所以实验对象也发现,做一个观点的反方比做正方容易得多。这让人感觉“凡事怀疑”是有一种力量加持的。

质疑也很对大众的胃口,毕竟科学探索和辩论就是一个不断质疑的过程。学校里教的,或者应该教的就是鼓励学生对证据提出质疑。英国皇家学会是历史最悠久的科研机构之一,它的座右铭就是“凡事不可尽信”。一个想要否认统计数据的游说团体总是能够指出目前统计学中尚未解决的某些问题,强调问题的复杂性,呼吁进行深入研究。这些说法听起来很科学、很理性,但传达给人们的却是一种危险的假象,那就是:真相还没找到。

烟草行业那些脱罪的手段也被别的行业用得得心应手。 [14] 最明显的例子就是今天否认气候变化的人,这个问题不再是科学领域的问题,它也成了政治敏感问题。罗伯特·普罗克特,一位花了几十年时间研究烟草业的历史学家,称现代政治为“无知的黄金时代”。尽管许多烟民希望继续吸烟,但我们对政客口吐莲花的事还是怀有一种朴素的直觉,而政客要做的就是说服我们不要相信自己的直觉。

正如特朗普前得力助手史蒂夫·班农对作家迈克尔·刘易斯说的:“民主党人算什么,媒体才是真正要对付的。对付它们的办法就是把整个媒体搞臭。”这句话传出来后,班农算是把媒体全得罪了。 [15]

特朗普的金句则是“那个新闻是假的”。他这招其实挺有启发性。最初,新闻造假是指这样一个现象:一个网站先发布假消息、假故事,从而获得点击量,最终获得广告收入。最典型的例子就是教皇支持特朗普竞选总统的假消息。特朗普获胜后,严肃的政治观察员一度很担忧,他们担心特朗普获胜是由于那些容易上当受骗的选民相信了这个离谱的谎言而投了他的票。那么,这样的诱导性投票其实就是干扰投票的行为。

这种担忧是多余的。研究发现,假新闻从来就没有多少传播广度和力度:愿意接受和相信那个假新闻的本来就是特朗普的坚定支持者,他们只是一小撮极其保守的老年选民。随着社交媒体网站意识到假新闻的危害而开始采取行动,这些假新闻就逐渐没有市场了。 [16]

但“那个新闻是假的”这个概念却有了市场,成了政客面对不利于自己的消息时可以拿来一用的说辞,愤愤然“假的、骗人的谎言和统计数据”的另一个版本。特朗普先生就有这样混淆视听的本事,他爱用这句话将复杂问题变成立场大棒,抹黑记者。其他许多政客也一样,包括时任英国首相特雷莎·梅和她的竞争对手、工党领袖杰里米·科尔宾。

“那个新闻是假的”之所以引起共鸣,是因为它触及一个不可回避的事实:正如我们将要看到的,即使在主流媒体中,也有大量草率的新闻报道。也有认真负责的记者,他们会仔细审核他们的报道依据,但可悲的是,他们发现人们已经认定:记者都是一丘之貉,就是炮制教皇支持特朗普假新闻的那类人。

在一个社会里,如果人们容易轻信,是让人担忧的,但如果人们除了自己的见地,拒绝相信任何事,这样的社会更成问题。

1965年春,美国参议院下设的一个委员会正在讨论是否要在香烟上印上健康警告的标识,毕竟吸烟是涉及生命、健康的大事。一位专家证人说他对能证明吸烟有害健康的数据把握不准,于是用鹳和婴儿的话题做了比喻。专家说,新生婴儿的数量与附近的鹳鸟数量之间确实存在正比关系,但鹳鸟送子的传说断不可信以为真。 [17] 这一点他说得对。他接着说,相关性不是因果关系。鹳怎么可以影响婴儿的数量呢?房子大既意味着房顶上可以容鹳鸟筑巢,也意味着房间里有更大的空间可以养孩子。同样,不能仅仅因为吸烟与肺癌相关,就说吸烟——完全不可能——导致癌症。

“您真的认为吸烟有害健康的统计数据和鹳鸟送子的统计数据是一回事吗?也就是说,两者是没有关系的,是吗?”委员会主席问。专家证人回答说:“我看不出来两个统计数据的含义有什么区别。” [18]

这位证人叫达莱尔·哈夫。

他已经被烟草集团买通,尽其能事举一些聪明的例子,卖弄一些统计知识,配上犀利抨击的言辞,去质疑吸烟对健康的危害。他甚至还在为自己的杰作写续集,续集的名字就叫作《吸烟有害健康的数据是如何造假的》,幸好这本续集从未出版。 [19]

质疑是一种威力强大的武器,人们太容易拿统计数据开刀了,所以统计数据是需要有人守护的。的确,统计数据很容易撒谎,但没有统计数据,撒谎更容易。 [20]

更重要的是,如果没有统计数据,就更不可能了解真相、了解这个世界,所以我们只能像多尔和希尔那样,用真相将世界变得更美好。他们对世界的贡献不是他们天赋异禀或有凡人难以企及的数学才华,凭的只是一点洞察力和决心。他们统计的就是一些相关数据:吸烟者、不吸烟者、肺癌患者、心脏病患者。他们有条不紊、耐心地数数,根据收集到的证据严谨地得出结论。这些年来,这些结论挽救了数千万人的生命,包括他们自己的生命:希尔后来戒了烟,和多尔一样成为一名无烟者,两人都活到90多岁。

当信任数据的作用,并加以聪明利用时,我们会洞察到起于青萍之末的趋势。现代世界太大,太让人眼花缭乱,也太让人目眩神迷。世界上有近80亿人,每天进行着数百万亿次的金融贸易。一个人的大脑有平均860亿个神经元。 [21] 互联网上有大约20亿个网站。一种新的病毒可以从一个人传播给数千人、数百万人,甚至数十亿人。我们无论是要去了解世界,还是了解彼此、了解自己,如果没有统计数据,就会像不用X光片检查骨骼、不用显微镜观察细菌,或者不用望远镜瞭望天空一样,无以为继。

伽利略的望远镜有一个广为人知的故事:伽利略这位天文学之父被罗马天主教会指责为异端,可那些资深红衣主教不会检查他制作的设备,只说伽利略的望远镜是一个魔术师的把戏。伽利略宣称他从望远镜里可以看到月球上的山?那他的望远镜的透镜肯定是脏的。他看到了木星的卫星?啊呸!月亮就在望远镜里,但他们拒绝观看。

400年后的今天,我们对这个故事可以哈哈一笑。顺便说一句,这个故事多年来也被添油加醋了不少。 [22] 可是我们也别得意。现在,我们中的许多人也是拒绝看统计数据的,因为害怕上当受骗。我们认为用哈夫那样怀疑一切的态度来否定所有的统计数据是一种精明的表现,其实不然,这正好中了民粹主义者和某些鼓吹者的圈套,他们正希望我们用这种不以为意、放弃逻辑思考和用证据证明的态度,养成什么顺耳就信什么的懒惰思想。

我要让大家觉醒。我要让你们有信心勇敢地拿起统计学的望远镜审视世界,并且帮助你理解统计背后的逻辑,越过逻辑错误、情感因素和认知偏见的障碍到达真相的彼岸。

当透过统计望远镜环顾四周时,你会惊讶地发现你能将这个世界看得如此清晰。

[1] Umberto Eco, Serendipities: Language and Lunacy , London: Hachette, 2015.

[2] Robert Matthews, ‘Storks Deliver Babies (p = 0.008)’, Teaching Statistics , 22(2), June 2000, 36–8, http://dx.doi.org/10.1111/1467- 9639.00013.文科论文喜欢拿数据说事,本来两个事物无关联,但作者观察了二者20次事件中发生过1次关联,就会记录P值为0.05,遂得出结论:二者有很强的关联性。鹳鸟论文的数据是p=0.008,即这种事125个例子中可以观察到1例。数据统计运用到这个程度是统计的悲哀,原因在此不做讨论。

[3] Conrad Keating, Smoking Kills , Oxford: Signal Books, 2009, p.xv.

[4] 希尔后来成功治愈自己的结核病,他对自己的成功治疗被公认为世界上第一个严格的随机临床试验。

[5] Science Museum, Sir Austin Bradford Hill, http://broughttolife. sciencemuseum.org.uk/broughttolife/people/austinhill; Peter Armitage, ‘Obituary: Sir Austin Bradford Hill,1897–1991’, Journal of the Royal Statistical Society , Series A (Statistics in Society),154(3), 1991, 482–4, www.jstor.org/ stable/2983156

[6] Keating, Smoking Kills , pp.85–90.

[7] Ibid., p.113.

[8] John P.A. Ioannidis, ‘A fiasco in the making?’ Stat, 17 March 2020, https:// www.statnews.com/2020/03/17/a-f iasco-in-the-making-as-the-coronavirus-pandemic-takes hold-we-are-making-decisions-without-reliable-data/

[9] Demetri Sevastopulo and Hannah Kuchler, ‘Donald Trump’s chaotic coronavirus crisis’, Financial Times, 27 March 2020, https://www.ft.com/content/80aa0b58-701011ea-9bca-bf503995cd6f

[10] David Card, ‘Origins of the Unemployment Rate: The Lasting Legacy of Measurement without Theory’, UC Berkeley and NBER Working Paper, February 2011, http://davidcard.berkeley.edu/papers/origins-of-unemployment.pdf

[11] Naomi Oreskes and Eric Conway, Merchants of Doubt , London: Bloomsbury, 2010,Chapter 1; and Robert Proctor, Golden Holocaust , Berkeley and Los Angeles:University of California Press, 2011.

[12] Smoking And Health Proposal, Brown and Williamson internal memo, 1969 https://www.industrydocuments.ucsf.edu/tobacco/docs/#id=psdw0147.

[13] Kari Edwards and Edward Smith, ‘A Disconfirmation Bias in the Evaluation of Arguments’, Journal of Personality and Social Psychology , 71(1), 1996, 5–24.

[14] Oreskes and Conway, Merchants of Doubt .

[15] Michael Lewis, ‘Has Anyone Seen the President?’, Bloomberg, 9 February 2018, https://www.bloomberg.com/opinion/articles/2018-02-09/ has-anyone-seen-the-president.

[16] Brendan Nyhan, ‘Why Fears of Fake News Are Overhyped’, Medium , 4 February 2019; and Gillian Tett, ‘The Kids Are Alright: The Truth About Fake News’, Financial Times , 6 February 2019, https://www.ft.com/content/ d8f43574-29a1-11e9-a5ab-f8ef2 b976c7?desktop=true&segmentId=7c8f09b9-9b61-4fbb-9430-9208a9e233c8

[17] CQ Quarterly: https://library.cqpress.com/cqalmanac/document. php?id=cqal651259268; and Alex Reinhart, ‘Huf and Puf’, Signif icance , 11 (4), 2014.

[18] Andrew Gelman, ‘Statistics for Cigarette Sellers’, Chance , 25(3), 2012; Reinhart, ‘Huf and Puf’.

[19] How to Lie with Smoking Statistics is stored in the Tobacco Industry Documents library. Alex Reinhart pieced together the manuscript and various documents pertaining to the project: Reinhart, ‘The History of“How To Lie With Smoking Statistics”’, https://www.refsmmat.com/articles/smoking- statistics. html

[20] 这句格言在统计学家中很流行。很多人说它是伟大的统计学家弗雷德里克·莫斯特勒说的,但一直未能确认。

[21] Suzana Herculano- Houzel, ‘What is so special about the human brain?’, talk at TED.com given in 2013: https://www.ted.com/talks/suzana_herculano_houzel_ what_is_so_special_about_the_human_brain/transcript?ga_source=embed&ga_ medium=embed&ga_campaign=embedT

[22] On Galileo’s telescope: https://thonyc.wordpress.com/2012/08/23/ refusing-to-look/;and https://www.wired.com/2008/10/ how-the-telesco/; and https://thekindlyones.org/2010/10/13/ refusing-to-look-through-galileos-telescope/ XD0KWPJwkjiEKtTq4KjMMXmxNNpB3R3YfEswwPWQzcnDYtyr2cxXugbyvrbExy7U

点击中间区域
呼出菜单
上一章
目录
下一章
×