这一章的观点很简单:在进行任何像样的统计工作之前,你必须先要真正熟悉数据:它们是哪儿来的,是谁因为什么原因收集了这些数据,这些数据看起来是什么样的,你对它们有什么直观感受,等等。在这里多花些功夫,你可以避免很多麻烦。事先下一分的功夫,胜过事后十分的补救。
你可能认为,一本有关统计学的书并不需要讲解这些简单的内容。其实很需要。你还记得我的主要观点吧?我们需要对自己的工作有清醒的认识,我们 不 完全了解真实的模型、真实的设定以及其他真实的事情,因此并不能确保得到的数字是真实的。为什么我们 不 了解真实的设定呢?有三个理由。首先,我们关心的大多数理论问题涉及到的过程(例如“影响”)或者状态(例如“政治老练”)并不能直接测量。即便你 可能 想出了一种办法来测量它,但数据中未必有这样的测量。其次,我们并不充分了解这个世界的运行方式,因此无法对它提出一个足够好的模型来。这是很严重的两点局限,但我们对它们无能为力。第三个原因不一样,那是我们自己的原因:我们由于 愚蠢和懒惰 而没有真正去了解数据。
当然,我不是说所有人。但是,确实有不少社会学者并不真正 了解 他们所使用的数据。他们并不真正理解数据是怎么来的,因为他们根本没有亲自收集过数据;他们只负责书写项目申请书,数据是请别人去收集的。他们会天真地看待数据,就像小孩以为礼物是圣诞老人为他们放在圣诞树下的。他们没有想过,这个天上掉下来的礼物可能是里面隐藏着危险的特洛伊木马,需要谨慎检查。正如我在《领悟方法》中讲过的:“送到眼前的礼物,收下便是;但是一定要先认真检查一番。”
导览 :首先,我会先讲几个警示故事,说明在使用调查数据时我们很容易自以为有所发现,实则不然。然后,我会论证有一种对科学的认知是有害的,因为它诱导我们误以为通过 命名 就可以把一组数字变成一个理论术语,但实际上稻草永远也无法变成金子。测量就是测量。如何发现测量的本质?接下来,我会依次讲解三个策略:第一,用描述方式(尤其要用可视化方式)来考察数据;第二,尽其所能地了解数据的生成过程;第三,去考察数据的形式特点:它在整个可能性空间里居于何处,它的变异范围和共变范围(variation and covariation)落在了哪里。最后,我会说明哪一类研究项目最有可能在数据质量上引发争议。我建议你在那里安营扎寨,然后做出好的研究来。 [1]
我小时候,大人都是这么教育小孩的:“你想玩那个搅拌机吗?是个好主意!你把手伸进去,然后摁一下开关,墙壁上就会布满血迹,你会拉出来一块儿洁白的、像铅笔一样尖的骨头,然后你会血流不止,当场丧命。”这样小孩就会牢牢地记住:搅拌机可不是玩具,千万别碰它。我讲下面这些警示故事,也是要你牢牢地记住:一定要对论文质量严格把关,否则就可能当众出丑——不要指望同行评审人。希望你在读完本章时一定记住这一点。
勒诺·韦茨曼(Lenore Weitzman,1985)使用洛杉矶离婚法庭得到的抽样数据考察了男性和女性在离婚之后生活质量的变化。她惊奇地发现,男性的生活质量有显著改善(42%),女性的生活质量却下降了73%(在这个测量中100%意味着生活毫无质量可言)。她觉得这太极端了,于是让下属核对了好几次,结果没人发现有错误。于是她发表了这项研究,引起了很大的震动。以前也有人进行过类似的研究,但没有人有过类似的发现。最后,彼得森(Peterson,1996)回去找到了那些纸质的档案,重新进行了数据录入,发现从原始数据中根本没法得到那些结果。韦茨曼(Weitzman,1996)解释说,她想过重建数据来把问题搞清楚,却没有 追根究底去查看那些原始数据 。她基本上是说,她对事情不知情,很多决策其实是那些默默无闻、早被遗忘的研究助理做出的。
犯过这种错误的不只是社会学家。汤姆斯·赫恩登(Thomas Herndon)是阿默斯特学院的一个学生,他有个课堂作业是要求他们找一篇经济学论文来模仿重做一遍。他选择了卡门·莱茵哈特和肯尼思·罗格夫合写的《债务时代的增长》(ReinHart and Rogoff,2010)。这篇论文很有影响,被很多人引用来为政府的紧缩政策辩护。但是,莱茵哈特和罗格夫的数据遗漏了澳大利亚、奥地利、比利时、加拿大和丹麦(这些国家的英文首字母正好是从A到D)。赫恩登发现,如果把这些国家包括进来,结论就会发生很大变化(Herndon, Ash, and Pollin,2013)。
你可能认为没有人会再犯这种错误。但是,我刚刚读完一篇寄给我让我评估作者是否有资格获得终身教职的论文。这篇论文使用的是美国综合社会调查(General Social Survey,GSS)数据中的2000个案例,但是结论却比我用GSS数据来考察类似问题时发现的结论更加言之凿凿。原因在于,他的分析中包括了两百多个原本不应该包括的案例,这可以从他对数据的描述中看出来。他把很多的缺失值重新赋值为“0”,正是这一举动使他得出了那样的结论:在很多个变量上都是缺失值的人,在散点图上被放到了左下角,由此出现了完美的相关关系,而这些案例原本是根本不应该放进去的。这样一份教职申请,真是太糟糕了。
有时候,你的理论会蒙蔽你。人人都会出错。不过,如果错误正好和自己的理论吻合,我们就可能会犯了错却毫无察觉。一个原因在于,它让我们很愉悦;另一个原因在于,此时我们的头脑处于亢奋模式而非怀疑模式,即便那些验证了我们成见的数据模式看似 有点 奇怪,我们也总能够想出些辅助解释来把它说通。我们不会琢磨这些辅助解释是否靠得住,因为大多数人在失望的时候才会去反思。这就是社会科学应该采用我在第1章里提出的“竞争性研究模式”(competing research programs)的另一个原因:这种模式比让人去验证某种理论的模式更容易发现自己的错误。
举一个宗教社会学里的例子吧。这个领域里曾经有一个最受人关注的命题,认为我们可以用理性选择模型来完美地解释人们的教派归属:不同宗教之间的竞争越激烈,人们的宗教情感投入就会越高。这和以往的“神圣的帷幕”(sacred canopy)观点完全相反,那种观点认为宗教的多元化将会削弱人们的宗教信仰基础
。芬克和斯塔克(Finke and Stark,1988)给出了一些与理性选择理论相吻合的证据。但是,布劳尔特(Breault,1989a)用另外一组数据得到了完全相反的结论。芬克和斯塔克(Finke and Stark,1989)回应说,他们有一个同事用布劳尔特的数据进行了更全面的分析,结论和布劳尔特完全不一样。这是怎么回事呢?
丹尼尔·奥尔森(Daniel Olson)最后平息了争议。劳伦斯·扬纳科内(Laurence Iannacone)很大方地把用来计算表明“每个县的宗教多元度与宗教信仰比例存在正相关”这一关键证据的SAS程序给了奥尔森。他们用
这一公式来计算宗教多元度,其中的
是这个县属于第
个宗教群体的人数比例。但是奥尔森发现,程序中用的却是
,并没有用1来减。他们为什么没有自己发现这个错误呢?因为得到的结果与自己的理论吻合,所以就不再认真检查了。相比之下,布劳尔特是怎么做的呢?“我谨记从方法教育中学到的忠告,不畏繁琐地对每条观察记录进行了核对,计算了3100多个县的宗教多元性得分,以此来确保结论是正确的。”因此,他对于自己结论的信心从未动摇(参见Breault,1989b)。
现在,这一争论已经完全解决了。人们逐渐认识到这一理论问题是有关历史变迁的,它无法用横截面数据来解答(参见Voas, Olson and Crockett,2002)。我们在第6章里还会看到,线性模型对于那些彼此纠缠的因素不一定管用,而我们在处理比值时经常会遇到这种情况。但是,要认识到这些问题,就需要有人对原先的做法提出否证。
因此,即便你的发现和你的理论相吻合,也要再细致地检查一下。这一建议同样适用于你有别人从未提及过的新发现时。人们都没有发现它,可能只是因为它根本不存在。我在第9章中将会简要提及的布鲁赫和迈尔的那篇论文就是这样一个例子(Bruch and Mare,2006)。他们有一些稳健的结果,但是有一个结果出乎所有人的意料:这一个众所周知的居住隔离模型的结果居然和大家预想的完全相反。但是,这类模拟程序是那种计算机新手在学会了“Hello World”
之后就可以上手的东西。因此,
所有
人都没有发现,唯独你发现了这一问题的可能性是很小的。如果你有类似的发现,明智的做法是在发表之前先去广泛征求一下大家的意见。
最后,如果你的发现会产生轰动效应,你往往会急于发表。最为极端的一种情况是你想做一些被年轻人称为“搏出位”(dick move)的举动,好比为了吸引别人的眼球而把强奸归咎于受害者,或者说种族主义有助于经济发展,或者说肥胖者更可能会犯罪,等等。那确实会让你获得许多关注,但未必是你想要的那种关注。因此,你最好还是 真正 细致地核对一下自己的研究。即使你的动机并不是想博人眼球,这一点也仍然成立。
例如,约翰·多诺霍和史蒂文·列维特(Donohue and Levitt,2001)有一个惊人的发现,美国堕胎的合法化使得二十年后的犯罪率降低了,因为堕胎合法化使得那些最有可能犯罪的年轻人不再被生出来。这是一个很严肃的论点,逻辑链条听起来合乎情理——这种从人口构成出发提出的命题,我还会在第3章中提及。但是,很多人觉得这里有问题,因为它似乎把犯罪归咎于穷人,而不是不平等或受剥夺。我其实认为,这里最重要的问题是数据中的变异方式诱导了研究者,使得他的提问方式预先决定了他更可能得出某些答案,而不是其他答案。(这一问题极其重要,因此我们接下来会花整整两章来讲解“变异范围处在哪里”。)如果我们只把犯罪和罪犯关联起来(而不考虑社区环境或受害者),那么我们对于犯罪“成因”的解释最后就很可能落在了那些“罪犯”头上,即便它未必是最重要的成因。
再者,这种命题得到证实的难度是非常大的,因为这需要提出确凿的反事实证据,而大自然很少为我们提供这类证据。但是,批评者却比较容易找到其中的错误,他们发现多诺霍和列维特遗漏了一些控制变量,也没有用人口数把他们的关键测量标准化(Foote and Goetze,2005)。
因此,在发表这类研究之前,不要相信你的理论,也不要相信你的朋友。把它寄给和你意见相左的人。他们才是你真正的朋友,因为他们会给你挑错。再举一个例子吧。我在这本书里用了很多真实的例子,因此我把初稿寄给了提及到的那些人。大多数人都有反馈意见。他们的反应各不相同,但是都有助于我表述得更为准确。我有一个地方绝对是犯糊涂了(现在想起来还让我直冒冷汗),迈克尔·罗森菲尔德(Michael Rosenfeld)客气地向我指了出来,从而使我免于丢脸。
犯错我们都会,但是说到挑错,我们都更擅长挑别人的错而不是自己的错。所以让别人来帮助你吧。在公开发表自己的成果之前,先去征求别人的意见。
上面考察的是分析者犯错导致的差错。但是有时候我们还要考虑到,
受访者
同样也会犯错,而且小差错会产生大影响。米赛雷等人(Micceri et al.,2009)把这称为“格列佛效应”(Gulliver effect):由于“大人国”的误差干扰,我们很难准确估计“小人国”的规模。比如说,我们想了解有同性性取向的青少年数量。没有人能说清楚,才刚刚经历青春期的青少年在多大程度上能够理解性取向这个概念,但是有研究表明在9到14岁的青少年当中可能约有1%的人有同性性取向(Austin et al., 2004),这个数字到了高中会更高,但具体是多少仍然不清楚。假定我们对9到14岁的青少年进行一次大规模调查,问他们是否有同性性取向。如果每一个人有3%的概率会答错,我们得到的结果就不会是1%,而是3.94%(
)。我们不仅夸大了这个群体的规模,而且被我们当成有同性性取向的人当中其实多数人并没有。由于规模较大的群体中有人会犯错,规模较小群体的人数就会被大大推高。这是经常发生的事情,尤其是你最感兴趣的那些群体。你去看一下调查当中的“上层阶级”,就会发现其中有很多是工人,他们只是答错了或者编码编错了。
你可能认为把随机误差定为3%有些不合情理。但是,实际情况可能更糟,因为误差通常都 不是 随机的。也就是说,样本里面包括进来的人可能是捣乱鬼或糊涂虫:他们有意地在搞乱你的调查。比如说,这些捣乱鬼会扭曲我们对青少年同性性取向的考察。我们发现那些有同性性取向的年轻人在随后的成长中遭受到了很多挫折,但是这既可能是因为他们确实遭受了痛苦,也可能是因为那些所谓的同性恋者其实原本只是一些捣乱鬼:他们坐在班级的后排,故意声称自己对男孩有兴趣,或者有其他各种怪癖,最终找了几年乐子之后被送到了教管所。
越是廉价的数据,其中捣乱鬼的比例越高。说实话,我有时也会接到一些用机器提问的电话调查。这时如果身边有小孩,我就会把听筒递给他;如果没有小孩,我就会去厨房一边做饭,一边随机按键。我猜想,在每一个生产垃圾信息的廉价电话调查背后,都可能有一份调查公司和某个研究生签订的合同。不过,即便是最高质量的研究数据,也存在有捣乱鬼的问题。
比如说“全国青少年健康纵贯调查”(简称Add Health),这是研究青少年发展最重要的调查数据,用它进行过很多重要的研究,数据质量相当高。即使如此,它也不能够完全避免捣乱鬼的问题。沙文-威廉姆斯等人发现(Savin-Williams and Joyner,2014),在学校里进行的自填问卷当中,有253个学生说自己装有假肢,但是随后进行的家访中发现其中只有两个人承认装有假肢。难道他们像蝾螈一样,具有断肢再生能力吗?或者,在学校面对不是自己人的场景下,他们只是认为给出一些滑稽的答案会显得特别逗乐?在调查中被认为对同性具有“浪漫好感”(romantic attraction)的年轻人当中,很可能有相当一部分只是捣乱鬼。还有另外一些人误解了这道题目,因为“浪漫好感”这种说法对于美国人来说实在有些含糊不清。
因此,当你对规模相对较小的群体下判断时,一定要相当谨慎。最后再讲一个现在很有名的例子。马克·雷格勒鲁斯(Regnerus,2012)使用新数据写了一篇文章,那个数据原来的目的是确定不同类型的儿童养育环境对其随后健康状况的影响。(他并没有认真核对结果就发表了结果,那些同行评审者也是相当草率。)他想看一看同性家长(gay parents)养育的儿童在长大后心理健康状况是否会更糟糕。他发现确实如此。但是对于他研究的那代人来说,被同性家长养育大的儿童是极少的。他需要特别小心来确定他研究的那些人确实是他想要谈论的那些人,而不是一些糟糕的受访者或者捣乱鬼。但是他并未这样做。他还混淆了家长中只有一方对同性有“浪漫好感”的情况(沙文-威廉姆斯指出,这种措辞特别容易使得原本并不是同性性取向的人误答成自己是)和双方都是同性恋的情况。程和鲍威尔(Cheng and Powell,2015:620)发现,在数据中有一些关键案例中的受访者的身高为7英尺8英寸,体重88磅,结过8次婚,有8个小孩;还有一个受访者在1岁时就曾经被捕,他完成整个调查只花了不到十分钟。把这些可疑的案例都剔除之后,你猜怎么着?作者的结论也被剔除出去了。
[1] 本书出版的过程中,霍华德·贝克尔(Howard S. Becker)也出版了一本极好的书《证据》( Evidence )。研究者都应该去读一下那本书。(本书已经有中文版。——译者注)