我天生就很排斥数学。我对数字本身没有任何好感,对那些在现实世界中毫无用处的骗人公式也没有什么好印象。我尤其不喜欢高中的微积分课,原因很简单,因为从来就没有人告诉过我学习这门课的意义是什么—有谁会在乎抛物线下方的区域代表什么?
而事实上就在高中三年级的时候,我迎来了人生中的一个重要时刻,那时我正在准备第一学期微积分课程的期末考试,虽然那几天我也算用功学习了,但总体来说还是以偷懒为主,因为几个星期前我就申请到了理想的大学,当然随之而来的是我对这门课本来就少得可怜的学习动力也消失殆尽。考试那天我盯着试卷上的题目,发现它们竟是如此陌生。这已经不是会不会答的问题了,而是根本就搞不清楚题目问的是什么。我对“裸考”其实并不陌生,借用美国国防部前部长唐纳德·拉姆斯菲尔德的话说就是,我总是知道我有不知道的东西。但这次考试比以往的题目都难,我草草地翻了一下试卷,几乎没有会答的题。我走到教室前面,来到监考老师—我们的微积分老师卡罗·史密斯的面前,“史密斯夫人,”我说,“试卷上的很多东西我都不认识。”
相比起我对史密斯夫人的“喜爱”,她对我的“不喜爱”要更甚。是的,现在我承认作为学生会主席的我,有时会动用手中有限的权力来安排一些全校性的集会,这样史密斯夫人的微积分课就被迫取消了。我和朋友们也曾以“一位神秘的仰慕者”的名义派人在课堂上给她送花,然后看她尴尬地环顾四周,而我们则在教室后面得意地窃笑。是的,在我得知自己被大学录取之后,我就真的再也没有做过任何作业了。
所以,当我走到史密斯夫人的面前,告诉她那些题目看上去很陌生的时候,她并没有流露出一丝的同情。“查尔斯,”她大声说—表面上是对我说,但她的脸却朝着全班同学,以确保教室里的每一个人都能听到—“如果你用功了,这些题目看上去就会熟悉得多。”这一点确实很有说服力,所以我只得溜回座位。几分钟以后,我们班这门课的“尖子生”布莱恩·阿尔贝特尔走到教室前面,和史密斯夫人耳语了几句,史密斯夫人也轻声地回了几句,之后,一件十分离奇的事情发生了。“同学们,请注意一下,”史密斯夫人宣布,“我误把下学期的试题发给你们了。”当时考试已经进行了一段时间,所以这次考试不得不取消择日重考。我当时的欣喜之情无以言表。
在我之后的人生中,我娶了一位漂亮的妻子,育有3个健康的孩子。我出版了几本书,游览过泰姬陵和吴哥窟这样的名胜。但是,那天微积分老师得到“因果报应”的一幕,依旧是我人生中最难忘的5个时刻之一。(事实上,在之后的补考中我差点儿没及格,但这一点儿都没有使这一美妙的人生经历褪色丝毫。)
微积分考试的小插曲极大地说明了我和数学之间的关系,但这并不是事实的全部。有趣的是,尽管物理课也需要进行像微积分课那样令人厌烦的演算,但我在高中时却十分喜欢物理课。这又是为什么?因为物理课有一个明确的目的。我清楚地记得在世界职业棒球大赛期间,我们的物理老师教我们如何运用加速度的基本公式来预测一个本垒打能打多远。这简直酷毙了—这个公式在生活中也有很多重要的应用。
上大学之后,我彻底沉醉于概率学之中,因为它同样为我在洞察现实生活中的一些有趣场景提供了解释。回想过往,我意识到让我痛恨微积分课的不是数学,而是从来就没有人想到要告诉我数学的意义是什么。如果你没有被“高雅”的公式本身所吸引—反正我是一点儿都不觉得有什么“高雅”的—那么,你面对的只会是繁冗而机械的公式,至少我的老师当初就是这样把它们教给我的。
也正是因为这一点,我与统计学结了缘(本书所指的统计学包括概率学在内)。我爱统计学。生活中的一切一切,从脱氧核糖核酸(DNA)检测到买彩票的白痴行为,统计学通通都能做出解释。统计学能帮助我们识别诱发某些疾病的因素,比如说癌症和心脏病;统计学还能帮助我们在标准化考试中甄别作弊行为;统计学甚至能帮助你在电视游戏节目中获胜。在我的孩童时代有一档非常出名的节目,叫作《让我们作个交易》,由当时极受欢迎的蒙提·霍尔主持。在每天节目快要结束时,胜出的选手和蒙提都会站在3扇大门的前面,蒙提·霍尔会告诉观众和选手,在其中一扇大门的门后会有一项大奖,如一辆小轿车,而另外两扇门的门后则各站着一头山羊。玩法很简单:选手选择一扇门,然后就会得到这扇门后面的奖品。
当选手和蒙提·霍尔站在这3扇门的前面时,这位选手中大奖的概率为1/3。但是,这档节目却有其微妙之处,这让统计学家们欣喜万分(却也使其他人困惑不已)。在选手选择了其中一扇门之后,蒙提·霍尔会先打开剩下的两扇门中的一扇,而打开的这扇门后面站着的永远是一头山羊。举个例子来说,假设选手选择了1号门,那么蒙提会先打开3号门,它的后面站着一头山羊,此时1号门和2号门依然紧闭。如果大奖就在1号门后面,则选手获胜;如果大奖在2号门后面,则选手失败。但节目进行到这里的时候,会变得更加有戏剧性:蒙提会转向选手,问其是否更改之前的决定(在这个例子中就是把1号门改为2号门)。需要注意的是,此时剩下的两扇门依然是关着的,而选手得到的唯一的新信息,就是他之前没选的那两扇门中,有一扇门的后面经证实是一头山羊。
那么,这位选手是否应该更改之前的选择?
答案是肯定的。为什么呢?本书之后的内容会做出解释。
统计学的悖论就在于,从棒球比赛的击球成功率到美国总统大选的民意调查,它几乎无处不在,但是这个学科本身却因为乏味无趣和难以理解而“臭名昭著”。许多统计学方面的书籍和课程也都过多地充斥着数学和术语。相信我,技术细节十分重要(也十分有趣),但是如果你不知道它们的出发点是什么,那么摆在你面前的将会是一堆天书般的符号。如果连你自己都不相信学习统计学是一件有意义的事情,那么你或许根本不会去关心所谓的出发点。本书中的每一章都旨在回答我向高中微积分老师提出的那个基本问题:学习统计学的意义是什么?
这是一本有关直觉的书。书中很少出现计算、公式和图表;当用到它们的时候,我保证它们都存在一个清晰和富有启发性的目的。与此同时,书中常常会出现很多例子,目的就是让你相信,学习统计学是很有必要的。统计学真的可以非常有趣,而且其中绝大部分的内容也没有那么难。
在学习过史密斯夫人讲授的微积分课程后不久,我就萌发了写这本书的想法。那段“不堪回首”的经历就发生在我读研究生期间,那时我学的是经济学与公共政策专业。在开始学习这门课之前,我和班上的大部分同学都毫无意外地被指派到了一个“数学营”进行集训,为接下来的“数学轰炸”作准备。在3周的集训时间里,我们整天待在一间没有窗户的地下室里学数学—真的一点儿都不夸张。
就在其中的某一天,我离顿悟仅有毫厘之差。那时,负责集训的老师正在费劲地教我们在某些情况下能够从一个无穷级数求得一个有限数。请不要跳过这一段内容,因为这一概念马上就会清晰起来(现在,你可以想象我在那个没有窗户的教室里是什么感受了吧)。无穷级数指的是一个可以无限地写下去的数字组合,如1+1/2+1/4+1/8……最后的省略号表示这个算式还将无限地继续下去。
到了这一步,我们基本上已经开始感到困惑了。老师试图通过一些我早已遗忘的定理向我们证明,一个无穷尽的算式依然可以通过求和得到一个(大概)确定的数值。尽管有很多令人信服的数学证明,但班上的威尔同学却死活不能接受这一结论(老实讲,我自己对此也心存疑惑)。无限的东西经过叠加怎么可能得到一个有限的结果呢?
突然我灵光一现,更准确地说,是我的直觉让我想通了老师要表达的意思。我对威尔说了我的头脑里刚刚闪现出来的想法:想象自己站在离一堵墙正好两英尺(约0.6米)的地方。
现在朝墙壁的方向移动1/2的距离(即1英尺),这样你离墙壁就只剩下1英尺的距离了。
再面向墙壁的方向移动1/2的距离(即6英寸或1/2英尺),继续重复相同的动作(即移动3英寸或1/4英尺),再移动剩下距离中的1/2(即1.5英寸或1/8英尺),不断重复。
最终你将十分贴近墙壁,假设现在你离墙壁只剩下1/1024英寸,然后你还需要朝墙壁的方向移动1/2的距离,即1/2048英寸,但你永远都不会撞到墙壁,因为理论上你所移动的每一步都只有剩余距离的1/2。也就是说,你将无限接近墙壁但永远碰不到墙壁,如果我们统一用英尺作为计量单位,那么你所移动的距离就可以表示为1+1/2+1/4+1/8……
问题的核心就是:即使你正在不停地靠近墙壁,而且每一步都是剩余距离的1/2,但你所走过的总距离永远都不可能超过两英尺,也就是一开始你与墙壁之间的距离。出于计算的目的,你所走路程的总长度可以简单地估算为两英尺,但数学家会说1+1/2+1/4+1/8……最终收敛于2,这也是那天老师想要教给我们的。
关键在于我说服了威尔,也说服了自己。虽然我不记得这道题的数学推理论证过程,但我总是可以在网上寻找答案,而且当我找到答案的时候,我或许还能看出一点儿门道来。以我的经验来看,直觉会让数学和其他技术细节更加容易理解,但是反过来就不一定说得通了。
本书的目的就在于使重要的统计学概念变得更加直观和便于理解,不仅让我们这些被迫在没有窗户的教室里苦学过的人,更可以让任何对数字和数据的惊人力量感兴趣的人都爱上统计学。
刚刚我还在说统计学的核心并没有那么的直观和好理解,现在我却要提出一个貌似自相矛盾的观点:统计学可以变得非常好理解,任何人只要拥有数据和一台电脑,就可以通过简单地敲击几下键盘来完成复杂的统计流程。问题是如果数据不足,又或者统计方法错误,那么得出的结论将会谬以千里,甚至还会有潜在的危险。就比如下面的这条虚构的网上新闻快讯:工作时小憩的人更易死于癌症。假如你在上网时这个标题突然从页面弹出呈现在你眼前,你会怎么想?一项基于3.6万名办公室白领(多大的数据组啊!)的调查显示,那些表示会在工作期间偶尔离开办公室休息10分钟的员工在未来5年内身患癌症的概率要比那些从不离开办公室的同事高41%。显然我们需要为此做点什么,比如在全美国范围内掀起一股抵制办公期间小憩的热潮。
或许,我们只需要对员工在休息的10分钟里干了什么事情作些思考。我的工作经验告诉我,这些离开办公室休息的员工中有很多人都聚在办公楼的入口处吸烟(其他人如果要进入或走出大楼都必须一头扎进他们吞吐的“云雾”之中)。那么,我会进一步推断是香烟而非小憩引发了癌症。我举的这个例子当然十分荒谬,但现实生活中有许多统计学结论在经过解构之后,也产生了类似荒谬的效果。
统计学就像是一种高智商武器:正确地使用它能够帮助我们,但错误地使用它也会产生灾难性的后果。本书不会将你变成一个统计学专家,但会让你对这个领域保持谨慎和尊重,不至于酿成大祸。
如果这是一本统计学教科书,那么各种概念和方法都会罗列其中,而不管普通读者是否能够消化。不过,本书的创作初衷就是介绍那些与日常生活联系最为紧密的统计学概念。科学家们是如何总结癌症诱因的?民意调查是如何发挥作用的(哪些方面又会出问题)?哪些人设计了“统计陷阱”,这些人又是如何做到的?你的信用卡公司是如何根据你的消费数据,来判断你是否会错过还款期限的(别笑,它们真的做得到)?
如果你想要理解新闻中出现的数字背后的含义,并见识到“数据”的巨大力量,统计学就是你的不二法宝。最后,我还想与大家分享瑞典数学家、作家安德烈斯的一句话:用数据说谎容易,但是用数据说出真相却很难。读罢此书,我希望你们也能感同身受。
除此之外,我还有一个更加宏伟的目标,那就是让作为读者的你真正地喜欢上统计学。这是一门充满乐趣且与我们的生活息息相关的学科,关键在于如何将学习过程中涉及的技术细节与那些重要的理念剥离开来,这就是赤裸裸的统计学。