撰文:约翰·艾伦·保罗斯(John Allen Paulos)
翻译:郭凯声
你相信吗,有些时候对统计分析进行轻微调整,能让完全相同的数据得出截然相反的结论?对于一些弱相关的量,只要巧妙设定分类的定义,就能造出你希望的结果。
不久前,美国犹他大学的研究人员进行了一项调查,他们发现,食客在餐厅里吃东西的多少与餐叉的大小有关。我没有见到这项调查的细节,不过,它倒是让我想起,只需稍稍改变一下定义,人们便可以根据相同的数据得出截然相反的结论。
如果这些互相矛盾的结果是预先做了手脚的个别现象,那倒也罢了,但情况并非如此。我们在处理弱相关的量时,常常会巧妙地设定我们使用的类别的大小。在近来对暴力犯罪所做的调查中,我们就可以看到这种手法,其目的是想证明,若干个类别的犯罪正朝着期望的方向变化。本文中,我也打算通过一个类似的例子来阐明问题的关键所在。
相关是以量化形式对客观世界中事物之间普遍联系的反映,两个变量之间的变化关系表现在变化方向和密切程度两方面。弱相关,又称低度相关,即当一列变量变化时,与之相对应的另一列变量增大(或减少)的可能性较小,也即两列变量之间虽然有一定的联系,但联系的紧密程度较低。
这里,我们只用关于餐厅的调查作为启示,看看稍微改变一下定义为何会起到如此大的作用。假定饭店里有10位食客,而我们要考虑的是,餐盘的大小会对食客吃多少东西有什么影响。3位食客面前摆的是人们眼中的小餐盘(如直径小于20厘米),他们分别吃了250克、310克和280克的东西,平均吃了280克。现在又假定,4位食客面前摆的是中等大小的盘子(直径为20~28厘米),而他们分别吃了500克、200克、400克和100克的东西,平均吃了300克。
最后我们假定,剩下的3位食客用的是大盘子(如直径大于28厘米),他们分别吃了370克、310克和340克的东西,平均吃了340克。
看出规律了吧?当盘子的尺寸由小增至中再增至大时,食客的平均食量由280克增至300克再增至340克。嗯,这个结果挺不错的!
且慢高兴。如果我们把中等大小盘子的定义稍稍改一下,规定直径21~27厘米为中等,且小盘子与大盘子的定义也做相应改动,那结果又将如何呢?如果重新定义之后,导致2位食客分类错位,那又会怎么样呢?吃了500克东西的那位食客其实用的是小盘(如直径为20.5厘米),而只吃了100克东西的那位食客其实用的是大盘(如直径为27.5厘米)。
现在,根据这一假设再来计算一次。4位(而非3位)食客用的小盘子,分别吃了250克、310克、280克和500克的东西,平均吃了335克。2位(而非4位)食客用的是中等大小的盘子,分别吃了200克与400克,平均吃了300克。4位(而非3位)食客用的大盘子,分别吃了100克、370克、310克与340克的东西,平均吃了280克。
又看出规律了吗?随着盘子的尺寸由小增至中再增至大,食客的平均食量由335克减至300克再减至280克。啊哈!这也是一个很妙的结果!
而且,在这里,样本过小并非关键问题。其实,对于大量的数据点,这种手法玩起来恐怕会更加得心应手,因为对类别做手脚的机会更多。有谁想玩一玩太阳黑子强度或美国橄榄球超级杯大赛的结果吗?