下面让我们作别20世纪90年代的圣达菲,来到今天的伦敦。
伦敦4月的一个阴天,气温15℃,下着小雨。伦敦上班族的平均通勤时间是42分钟,平均收入约为4万英镑。晚上回到家,他们会平均花183分钟看电视(少于2011年的242分钟)。大约51%的伦敦人每天会使用不止一次社交媒体,2%的人会根据建议每天吃5种蔬菜,64%的人每周会喝酒。他们中的异性恋夫妇通常每周做爱一次,平均时间为7.6分钟。男同性恋者的性生活频率略高,每周1.5次,而女同性恋者的相关数据很难找到。这些伦敦人的平均寿命为80岁,每个家庭生1.6个孩子。如果问及他们对生活的满意度(所有事情都考虑在内),并从1到10打分,他们给出的平均分是6.94分。
我可以轻松地罗列好几页的统计数据,提供关于伦敦人口或世界各地居民的研究结果,因为英国国家统计局、数据世界网、Gapminder网站、世界银行、各国人口普查局、皮尤社交媒体报告、盖洛普咨询公司、经合组织发布的经济透视、《全球幸福指数报告》及无数的大学研究,都会调查记录我们的健康状况、福利、幸福感和行为。从所有这些数据中发现的统计关系,不仅能为政府、企业和其他组织的决策提供信息,还会影响个人的决策。对于生活的各个方面,包括应该吃什么、多久锻炼一次、怎样从生活中获得最大的满足感、如何为考试做好充分准备,我们几乎都会遵循科学研究给出的建议。
当把统计思维应用于我们自己的生活时,我们面临的挑战不仅是需要知道我们能用数据证明什么,还要清楚我们不能证明什么。在众多的科学研究中,哪些是真正适用于我们的?我们看到的统计数据是否揭示了因果关系,还是只是偶然相关?我们应该在多大程度上允许统计数据影响我们对世界的理解?什么时候我们应该忽略数字,转而使用其他工具?
在回答这些问题之前,我们需要先快速了解一下统计学的基础知识,因为统计数据有时会被滥用,只有在了解了统计数据的使用方法之后,我们才会变得更加审慎。
在开启我们的旅程之前,考虑一下为什么我只是列出了伦敦的一些平均数,就能让大多数人感受到一个城市及其居民的基本情况,包括天气、通勤、工资、生活方式选择、性生活等。每个数字都反映了伦敦生活整体印象的一个方面。平均数是最基本、最有力的统计数据,可以告诉我们一个城市的真实情况。
统计数据还会透露小型群体的情况。在本书中,我将以10个住在伦敦的朋友的生活为例,来阐明不同的思维方式。这10个人完全是虚构的,但在介绍他们的时候,我不会描述他们的长相,也不会说他们从事何种工作,而是在下面的表格中提供了关于他们的一些统计数据(同样是虚构的)。
如果用文字介绍这些人物,我可能会这样写:“妮娅会在去伦敦市中心上班的路上买一杯燕麦奶拿铁,她的助手在10点的时候还会再给她提供一杯拿铁”,“詹妮弗一直不停地学习,为了维持学习她还从事兼职工作。在她看来,一边看网飞电视剧一边吃腌黄瓜是一种奢侈”。数字不如文字生动,但令人惊讶的是,它们也能让我们对一个人产生一种印象。我们可以想象他们的工作、他们的生活方式和他们对腌制食品口味的特殊偏好。
这些数字还透露了这个群体的很多信息。他们的平均年龄是:
理查德、约翰、妮娅和安东尼的年龄稍大,而贝琪、詹妮弗和查理的年龄稍小。但他们(基本上)都出生于20世纪90年代初,因此我们可以认为他们是千禧一代。
在比较收入时,我们通常会使用中位数,而不是平均值。计算中位数的方法是先按升序写出所有收入:
1.2万英镑,2.2万英镑,2.3万英镑,3.1万英镑,3.4万英镑,
3.6万英镑,4万英镑,5.2万英镑,6.2万英镑,10.6万英镑
可以看到排在中间的两个数字分别是3.4万英镑和3.6万英镑,取它们的平均值,得出该群体年收入的中位数是3.5万英镑。这个数字略低于整个伦敦的收入中位数,但考虑到该群体中的大多数人还处于职业生涯的早期阶段,我们认为他们还是比较富裕的。虽然他们中的一些人现在还没有能力买房,但他们都不是穷人。我们可能会想,年薪1.2万英镑的安东尼每天如何喝得起一杯拿铁?但我没有提到另一件事:安东尼娶了收入最高的妮娅。总的来说,这些朋友生活无忧,他们面前有很多机会。
关于何时使用中位数而何时使用平均数,并没有硬性规定(统计学家说的“平均”指的是平均数,而不是中位数)。在说到朋友的年龄时,使用平均数最合理,因为年龄的变化非常小。就收入而言,中位数更有意义,因为妮娅10.6万英镑的年收入将使平均数向上偏移。据《福布斯》杂志报道,伦敦有63人的财产多达10亿英镑。如果计算收入水平时把这些超级富豪包含在内,得出的平均数就会远远大于中位数(大城市的收入平均数通常比中位数高出25%~50%),这会让其他人感觉自己更穷。因此,该使用平均数还是中位数取决于我们想要通过数据强调什么。使用中位数可以让我们忽略为数不多的亿万富翁。
每周喝的燕麦奶拿铁杯数是最能体现平均数和中位数之间差异的一个特殊例子:中位数是0(大多数人不喝这种饮料),而平均数是3.9。在总结这些人的整体特点时,我们需要同时使用平均数和中位数,说他们不喜欢喝拿铁或说他们每周喝接近4杯拿铁都是错误的!
平均数和中位数之间的区别说明,可以正确描述数据的统计方法通常不止一种。但这是否意味着在使用数字时任何方法都行得通呢?
并非如此,统计实践是有好坏之分的。但是,我们如何确定将10个朋友的年龄先加起来再除以10这种计算平均年龄的做法是一种好的统计实践呢?我使用的是我们所有人在学校里都学过的方法,但为什么它是正确的呢?针对我们衡量世界的基本方式提出这类批判性的问题,就是统计思维的关键。
让我们按照这个批判性思路,仔细观察关于这个群体是否喜欢吃腌黄瓜这个问题的数据。“是”和“否”这两个答案可以分别表示为1和0。让我们把他们的回答重新整理一下,用1表示“喜欢”,用0表示“不喜欢”。
利用这些数据估算千禧一代伦敦人喜欢吃腌黄瓜的比例,最准确的答案是什么?
直觉告诉我们,正确答案是4/10,即40%。取上表中所有1和0的平均数,就会得到这个答案:
我们怎么知道这个答案是正确的呢?假设有些朋友反对使用平均数,并且提出了一些公认的非常不可靠的理由。例如,安东尼说,我们应该给最先被问到的那些人给出的回答赋予更大的权重,因为“他们给出的是初始数据”。他将前5个数相加,2+0+2+0+2=6,再将后5个数相加,0+0+1+0+0=1,最后估算出这个比例是(6+1)/15=7/15。
听到安东尼给出的理由,阿伊莎反驳说,最好只问5个人而忽略其他人。她只看了偶数序号的人的回答,并发现在这些人中,只有一个人(约翰)喜欢吃腌黄瓜,于是她得出结论,这个比例是1/5。最后,查理说:“嘿,伙计们,让我们听听第一个人的回答,然后把它作为正确答案吧。这样我们就不用再争吵了。”
查理宣布:“安东尼喜欢吃腌黄瓜,这说明所有人都喜欢吃腌黄瓜!”
贝琪举手投降:“在是否喜欢吃腌黄瓜这个问题上,我已经糊涂了。查理说了一种意见,安东尼和阿伊莎又说了各自的意见,这让我很困惑。我们还是搁置争议吧,因为我们根本不可能知道人们是否喜欢吃腌黄瓜。”
贝琪错了。她说朋友们应该停止争吵,这是对的,但她认为根据我们收集到的数据无法判断人们是否喜欢吃腌黄瓜,这是错的。一群朋友有不同的意见,并不意味着他们的观点都有同样的价值。
但难点在于,如何让贝琪、安东尼、阿伊莎和查理接受只有一种方法可以正确测算喜欢吃腌黄瓜的人的比例——40%。我们知道朋友们的理由不可靠,但我们如何证明这个比例是最准确的估算结果呢?
要解决这个难题,我们需要回溯过去,找到第一个意识到需要确定最佳测量方法的人。