谁都不能否认统计是科学,而且是一门很高深的科学,但为什么有时候统计学结果会与公众的感觉有出入呢?这里面有个人感觉与平均效应存在偏差的问题,也有统计数据本身的问题。美国统计专家达莱尔·哈夫(Darrell Huff)曾经写过一本传世之作《统计数字会撒谎》,该书引发的“编造虚假信息”话题受到美国社会持续普遍的关注和美国权威媒体的激烈争论。本话题中的后三篇文章从不同侧面揭露了几种统计学陷阱,以飨读者。
撰文:约翰·艾伦·保罗斯(John Allen Paulos)
翻译:王栋
在社交网站上,大多数人都感到自己受关注的程度没有朋友高。原因很简单——平均效应与个人的感觉会截然不同,我们拥有朋友的数量只是其中一个典型的例子。
你的朋友比你本人更受欢迎吗?虽然看起来,并没有什么理由相信这是真的,但很可能确实如此。与只有很少朋友的人相比,我们更容易跟同一个拥有很多朋友的人成为朋友。这并不是因为我们在刻意躲避朋友很少的人,而是因为我们跟一个受人欢迎的人做朋友的可能性更高,原因很简单——这样的人拥有的朋友数量也多。
这个简单的道理不仅体现在真实的交友过程之中,还体现在社交媒体之上。在Twitter社交网站上,它就导致了所谓的“关注者悖论”(follower paradox):大多数人被关注的数量都比他们关注的人被关注的数量要少。在你急于变得更受欢迎之前,要记住:大多数人其实都跟你一样,关注他们的人寥寥无几。
在许多情况下,平均效应与个人感受会截然不同,我们拥有朋友的数量只是其中一个典型的例子,另一个例子是课堂上的人数。
指在逻辑上可以同时推导出两个互相矛盾的命题的命题或理论体系。悖论的出现往往是因为人们对某些概念的理解不够深刻所致,其成因极为复杂,对它们的深入研究有助于数学、语义学等理论学科的发展,因此具有重要意义。悖论主要有逻辑悖论、概率悖论、几何悖论、统计悖论和时间悖论等。
不妨设想,某所大学里的一个小院系在某个学期开了三门课:一门是基础概论课,有80名学生;一门是高等专业课,有15名学生;还有一门研究讨论课,只有5名学生。请问:每门课的平均人数是多少?显然,应该是(80+15+5)/3,也就是33.3名学生。这个数字就是院系计算的平均课堂人数。
现在再来算一遍,这次我们从一个普通学生的角度来看待问题。在100名学生中,有80个人会发现,他们的课堂上有80名学生,有15个人会发现,课堂上有15名学生,只有5个人发现,课堂上只有5名学生。因此,在学生眼里,课堂的平均人数是(80×80+15×15+5×5)/100,也就是66.5名学生。不过,这个数字不太可能被系里采用。
当然,这种论证方法在很多情况下都能被采纳。看看人口密度问题,地球表面单位面积上的平均人口数量其实不多,然而,从人的平均眼光来看,人口密度要高得多,因为大多数人都居住在城市里。因此,我们能够得出这样的结论:虽然生活在远比平均人口密度更高的环境里,我们中的大多数人的受欢迎程度却达不到平均水平。
撰文:约翰·马特森(John Matson)
翻译:红猪
统计学规律告诉我们:篮球运动员在投中三分球后再次命中的概率,比第一次失手后再次命中的概率低。但篮球运动员往往倾向于在第一次投中后马上试第二次,因为此时自己的手感正佳。
在NBA赛场上,雷杰·米勒(Reggie Miller)、迈克尔·乔丹(MichaelJordan)、科比·布莱恩特(Kobe Bryant)都曾有过投篮连续命中的难忘瞬间。但过去的研究表明,所谓“手感好”只是一种“迷信”,究其原因,是我们有一种在没有规律的地方“看见”规律的倾向。
无论是否迷信,当统计数字显示篮球运动员的投篮命中率不高时,他们有时仍会认为自己的手感正佳。最近的一项研究显示,职业篮球运动员在比赛中过于看重上一个三分球的结果。一旦投中,他们再次投掷三分球的意愿就会大大提高。这项刊登在《自然-通信》(Nature Communications)杂志上的研究分析了数百场NBA和WNBA比赛的统计数字。
湖人队的科比在2007~2008赛季的表现就是一个很好的例子。科比曾在那个赛季赢得“最有价值球员”的称号,每次投中三分球后,他在三分线外再次投球的次数几乎是投偏后再次投球次数的四倍。不过,指望连中三分是一条错误的策略。数据显示,球员在投中一次后再次命中的概率其实比失手后再次投篮的命中率要低。这再次证明,“手感好”什么的只是浮云。
撰文:戴夫·莫舍(Dave Mosher)
翻译:王栋
英国的一项统计数据表明,每个抢银行的劫匪平均能分得19,900美元赃款,大约相当于一位咖啡店员工一年的薪水。但抢银行可是一份高风险的“工作”,差不多33%的银行劫匪会空手而归,还有20%的劫匪最终被捕。
有志当银行劫匪的人要注意了,最近一项对银行保密数据的统计分析显示,一夜暴富差不多是在做梦,身陷囹圄才更有可能。
“坦白地说,抢银行的平均回报真的很‘垃圾’。”这是2012年6月,在《显著性》(Significance)(美国统计学会和英国皇家统计学会联合出版的双月发行统计学期刊)上刊载的一篇关于英国银行劫案的经济学研究文章所得出的结论。为了进行这项研究,英国萨里大学的经济学家尼尔·里克曼(Neil Rickman)和罗伯特·威特(Robert Witt),与英国苏塞克斯大学的经济学家巴里·赖利(Barry Reilly)一起,同英国银行家联合会谈判了数月,才得到其详细记录2005~2008年364起银行劫案的保密数据。与之相反,在美国,这样的详细数据记录压根就不可能存在,因为即便银行进行了记录,它们也会埋没在美国联邦调查局关于银行劫案的匿名季度报告里。
图为1932年时臭名昭著的银行劫犯邦妮·帕克(Bonnie Parker)和克莱德·巴罗(Clyde Barrow)。
统计研究显示,平均而言,每一起英国银行劫案的案犯为1.6人,劫得31,900美元。假设案犯之间均匀分赃,平均每个人每次抢劫能分得19,900美元赃款——大约相当于一位咖啡店员工一年的薪水。
如果是持枪抢劫的话,则能将每一起抢劫得到的赃款增加16,100美元,虽然通常这也需要更多的同伙来参与。然而,单枪匹马地去抢能获得更高的平均赃款,因为增加一个同伙而多劫的钱不足以抵消多一个人分赃带来的损失。
里克曼评论道,虽然数目看起来并不小,但抢银行可是一份高风险的“工作”。在英国,差不多33%的银行劫案都以劫匪空手而归落幕,还有20%最终被捕。试图抢劫的次数越多,被捕的风险就越大。例如,如果一个劫匪已经是第4次抢银行了,那么其被捕的概率就会增加到59%。“不知怎么回事,在我原先的预想中,银行劫匪的表现应该不至于像实际数据显示的这么差劲。”里克曼说。
一些立志当罪犯的人就是比别的坏人强。意大利都灵大学卡洛·阿尔贝托学院的经济学家乔瓦尼·马特罗波尼(Giovanni Matrobuoni)认为,该论文没有考虑到专业劫匪。而根据推测,专业劫匪应该收获了2005~2008年英国银行被劫所损失的1,160万美元中的大部分。例如,这篇论文提出,一些银行中安装的速升防弹屏将抢劫成功率降低了1/3。“但我却认为,只有笨贼才会选那些装备有速升防弹屏的银行,专业高手都会在实施抢劫前仔细踩点的。”马特罗波尼说。对此,里克曼回应道,关于专业劫匪的记录信息更难获得,因为那需要获得警方和银行的机密记录。经济学家们评论说,这份新出炉的报告表明,还需要关于银行劫案更多、更好的数据记录。
撰文:约翰·艾伦·保罗斯(John Allen Paulos)
翻译:郭凯声
疾病检测结果并不像我们想象的那样可信。假设某种癌症的发病率为0.4%,那么,即使一种检测手段只有1%的可能性得到假阳性结果,也会使真正的阳性结果只占检测出的阳性结果的28.6%。
似乎每隔几个月,就会有一项研究爆出猛料,说又有一种广泛使用的癌症普查手段其实并无多大的作用。2009年,美国预防医学工作组指出,许多妇女拍乳房X光片的时间比专家建议的时间晚,检查频率也比专家建议的要低,因为每年拍片检查一次似乎没有带来什么好处。不久前,该工作组还针对检查前列腺癌的前列腺特异性抗原化验术,抛出了更为尖锐的说法:这种检查的效果是让许多人受罪而非挽回他们的生命。
最近,美国达特茅斯卫生政策与临床实践研究所的研究人员宣称,通过拍乳房X光片(美国每年有将近4,000万人接受此项检查)查出一个癌症病例,并不意味着就能挽回一条人命。研究人员发现,这项检查每年大概会检查出138,000个乳腺癌病例,但对其中120,000~134,000名妇女并没有什么好处。这些病例要么发展得很慢,健康不会受到太大的影响;要么就是病情太严重,已无力回天。拍胸部X光片检查肺癌,以及检查宫颈癌的巴氏实验也受到了类似的抨击。
也称贝叶斯定理,由英国数学家贝叶斯(Thomas Bayes)提出,是概率统计中用观察到的现象对先验概率进行修正的标准方法。例如,在本文的例子中,99.5%和1%就是观察到的现象,0.4%为先验概率,把这些数据代入公式,就可以得到某人检查结果呈阳性时确实患病的概率。
当然,对于单个病例而言,最好的检查和治疗方法可能是不一样的,但在所有检查方法的背后,其实都隐藏着一种“数学把戏”。这种把戏是什么,虽然很多数学家已经耳熟能详,但仍值得重述一次:人们在搜寻相对罕见的东西时(不仅仅是癌症,甚至还有恐怖分子),假阳性结果极其常见——要么是查出来的致命癌症根本不存在,要么是你患的病并不至于要你的命。
现在,我们既不去考查上面提到的各种癌症的发病率数据,也不考虑所提到的每一种检查方法的敏感度和特异性,而是来看一种名叫X的假想癌症。假设在某一时间,X在某一特定人群中的发生率为0.4%(五百分之二)。一方面,我们假设,如果你患上这种癌症,那么检查结果有99.5%的概率为阳性;另一方面,我们假定,如果你未患此癌症,那么你在检查时被查出阳性结果的概率为1%。将这些数字代入概率论的重要成果——贝叶斯公式中,我们可以获得一些深刻的认识,但直接做点儿简单的算术来阐释它,则更为生动有趣。
假定有100万人接受了针对这种癌症的检查,由于此癌症的患病率为0.4%,因而约有1,000,000×0.4%=4,000个人患有此病。根据假设,这4,000个人中将有99.5%的人得到阳性检查结果,也就是说,会出现4,000×0.995=3,980起阳性结果。而其余996,000个人(1,000,000-4,000)将是健康的。但又根据假设,在这996,000位健康人中,会有1%的人得到阳性检查结果,也就是说,将会出现996,000×0.01=9,960起假阳性结果。因此,在总共3,980+9,960=13,940起阳性检查结果中,真正的阳性结果仅占3,980/13,940,即28.6%。
如果那9,960位健康人士因此而接受了相当伤身的治疗,如开刀、化疗、放疗之类,那么这些检查造成的最终效果就可能完全是负面的。
对于不同的癌症及检查方法,相应的数据也不同,但在心理学与数学之间朦胧不清的灰色地带中,总会出现这样一类需要权衡利弊的问题。一次检查救了一条命,这种事情即使不多见,其产生的心理效果也远比此项检查常常会带来众多相当严重、却比较隐蔽的有害影响强烈得多。
撰文:查尔斯·塞费(Charles Seife)
翻译:王栋
一份调查结果显示,无信仰人士似乎比信徒们更加了解宗教。这项调查其实很不精确,因为“无神论者/不可知论者”在这项调查中只占了很少一部分,少量样本无法给出可靠的数据。
2010年9月底,美国皮尤宗教和公共生活论坛(Pew Forum on Religion and Public Life)公布的一份调查结果显示,无信仰人士似乎比信徒们更加了解宗教。一些媒体便开始大肆宣扬这一结果。例如,《时代》(Times)杂志宣布:“无神论者比信徒们更了解宗教”;其他一些媒体则试图安慰信徒们,福克斯新闻网站就坚称:“宗教测验,我们没有不及格。”几乎没有人意识到,这项调查其实很不精确。事实上,这个事件为被我称为“错误估计”的一种现象提供了绝好的例证,那就是对不精确的数据太过较真。
乍一看来,这项测验及其结果似乎没有什么问题:在一个由32道问题构成的宗教知识小测验中,将自己归入“无神论者/不可知论者”一组的人平均答对了20.9道问题,比其他任何一组的正确率都高,也高于整体的平均正确率(答对16.0道)。但是,由于“无神论者/不可知论者”在这项皮尤论坛进行的测验中只占了很少一部分(全部3,412位参加测验者中仅有212位),20.9道问题的正确率掩盖了背后的高度不精确性——少量样本无法给出可靠数据。如果采用标准制图技术来表示测验结果,并在图中标出不确定性的话(上图),就会发现“无神论者/不可知论者”跟“犹太教徒”“摩门教徒”的测验结果之间的差距消失了。
皮尤论坛还留了“没有特别的信仰”这一组供受试者对号入座,这让测验结果变得更加不可靠。许多把自己归入“没有特别的信仰”一组的人都曾经明确表示他们不信神。有趣的是,这一组人在宗教知识测验中的得分要比典型的美国人低。如果把他们也归入“无神论者/不可知论者”,那么这一组人的平均得分就会比“白人福音派新教徒”的得分还要低一些。
皮尤论坛采取了更严谨的分析——根据受试者的教育及收入背景(遗憾的是,这些数据在报告中很不明显)对结果进行修正。修正后,信徒和无信仰人士之间就没有明显的区别了。那些声称不信神的人的平均得分比全国平均得分仅仅高了0.3分,考虑到如此大的误差范围,这点儿分差没有任何意义。
在没有认真核实数据的情况下,新闻媒体就急不可待地将无神论者和有神论者的争执放在了新闻头条。皮尤论坛的这项调查,与其说反映了我们对神的信仰度,还不如说真正揭示了我们对调查结果的信任度——结果显示,在绝大多数时候,我们对调查结果都只是盲目地相信。
撰文:约翰·艾伦·保罗斯(John Allen Paulos)
翻译:郭凯声
你相信吗,有些时候对统计分析进行轻微调整,能让完全相同的数据得出截然相反的结论?对于一些弱相关的量,只要巧妙设定分类的定义,就能造出你希望的结果。
不久前,美国犹他大学的研究人员进行了一项调查,他们发现,食客在餐厅里吃东西的多少与餐叉的大小有关。我没有见到这项调查的细节,不过,它倒是让我想起,只需稍稍改变一下定义,人们便可以根据相同的数据得出截然相反的结论。
如果这些互相矛盾的结果是预先做了手脚的个别现象,那倒也罢了,但情况并非如此。我们在处理弱相关的量时,常常会巧妙地设定我们使用的类别的大小。在近来对暴力犯罪所做的调查中,我们就可以看到这种手法,其目的是想证明,若干个类别的犯罪正朝着期望的方向变化。本文中,我也打算通过一个类似的例子来阐明问题的关键所在。
相关是以量化形式对客观世界中事物之间普遍联系的反映,两个变量之间的变化关系表现在变化方向和密切程度两方面。弱相关,又称低度相关,即当一列变量变化时,与之相对应的另一列变量增大(或减少)的可能性较小,也即两列变量之间虽然有一定的联系,但联系的紧密程度较低。
这里,我们只用关于餐厅的调查作为启示,看看稍微改变一下定义为何会起到如此大的作用。假定饭店里有10位食客,而我们要考虑的是,餐盘的大小会对食客吃多少东西有什么影响。3位食客面前摆的是人们眼中的小餐盘(如直径小于20厘米),他们分别吃了250克、310克和280克的东西,平均吃了280克。现在又假定,4位食客面前摆的是中等大小的盘子(直径为20~28厘米),而他们分别吃了500克、200克、400克和100克的东西,平均吃了300克。
最后我们假定,剩下的3位食客用的是大盘子(如直径大于28厘米),他们分别吃了370克、310克和340克的东西,平均吃了340克。
看出规律了吧?当盘子的尺寸由小增至中再增至大时,食客的平均食量由280克增至300克再增至340克。嗯,这个结果挺不错的!
且慢高兴。如果我们把中等大小盘子的定义稍稍改一下,规定直径21~27厘米为中等,且小盘子与大盘子的定义也做相应改动,那结果又将如何呢?如果重新定义之后,导致2位食客分类错位,那又会怎么样呢?吃了500克东西的那位食客其实用的是小盘(如直径为20.5厘米),而只吃了100克东西的那位食客其实用的是大盘(如直径为27.5厘米)。
现在,根据这一假设再来计算一次。4位(而非3位)食客用的小盘子,分别吃了250克、310克、280克和500克的东西,平均吃了335克。2位(而非4位)食客用的是中等大小的盘子,分别吃了200克与400克,平均吃了300克。4位(而非3位)食客用的大盘子,分别吃了100克、370克、310克与340克的东西,平均吃了280克。
又看出规律了吗?随着盘子的尺寸由小增至中再增至大,食客的平均食量由335克减至300克再减至280克。啊哈!这也是一个很妙的结果!
而且,在这里,样本过小并非关键问题。其实,对于大量的数据点,这种手法玩起来恐怕会更加得心应手,因为对类别做手脚的机会更多。有谁想玩一玩太阳黑子强度或美国橄榄球超级杯大赛的结果吗?
撰文:安德鲁·格尔曼(Andrew Gelman)
翻译:郭凯声
统计学家在估计小规模人数时很容易出错,因为被错误分类的比例可能远远高于真实的群体大小。
随着美国军方开始着手审查所谓“不问,不说”政策(Don't Ask, Don't Tell,即军方不可询问军人的性取向,军人也不能向军方透露自己的性取向,最终审查结果将于晚些时候公布),人们自然会想:有多少军人受到这项政策的影响?为了回答这个问题,五角大楼于2010年夏天对军队进行了调查,询问军人们在服役期间或以前在服役时是否有他们认为是同性恋者的战友。此调查存在一个明显的问题——它所依据的完全是推测。撇开这一点不说,这项调查还提出了一个常见的统计学问题,即群体大小的不对称性。由于军人中绝大多数是异性恋者,因此,异性恋军人被误当作同性恋者的情况,将比同性恋军人被当作异性恋者的情况多得多。
这是问卷调查中普遍存在的一个问题。哈佛大学研究人员戴维·海明威(David Hemenway)证明,某些广为人知的调查把美国人用于自卫的枪支数目高估了10倍之多。即使所有受访者中错误回答问题的人只占1%,这个错误率与持枪用于自卫者在总人口中所占的比例(据一些靠谱的调查披露,此比例约为0.1%)相比也够大的了。换言之,被错误分类的比例远远超过了真实的群体大小。要想避开这个问题,更明智的做法是,相信对犯罪受害者的调查结果,因为这类调查把使用枪支的问题限制在一个规模更小的群体上。
对于我们开头提出的那个问题,要调查军人中同性恋者所占的比例,一个还算不错(但仍不完美)的解决办法就是,把下面两项估计综合起来:一是估计同性恋者在总人口中所占的比例(从全国性调查中得出这一估计值易如反掌);二是估计同性未婚伴侣中曾在军队中服役者所占的比例(用概率表示)。从总人口类推到军人,并把分析限制在同性未婚伴侣这个小圈子里,从而缩小了可能被误判为同性恋者的群体。加利福尼亚大学洛杉矶分校的加里·盖茨(Gary J. Gates)用这种方法估算出美军中1.5%的男性和6.2%的女性是同性恋者或双性恋者。