你现在已经明白,不能因为它是“数据”,你就可以放心地用它来解决自己的疑惑。如何解决这个难题呢?首先,你要留心它的“出身”。在多数情况下,数据源于访谈。作为数据来源的访谈,和很多问卷调查的分析者认为没有科学性的深入访谈,并无本质区别。数据质量取决于整个链条中最薄弱的一环,这往往就是访谈本身。可是,很多定量研究者对于访谈过程毫无了解,甚至根本不想去了解。(感兴趣者可以参看海曼[Hyman,1954]对于访谈过程进行的精彩的现象学描述。)
第一个警示故事讲的是美国社会的隔绝程度在快速增长。在美国社会学会的头号期刊上,迈佛森等人(Mcpherson et al.,2006)发表了这个惊人的发现。他们使用的数据非常好,那应该是美国质量最高的数据——美国综合社会调查(General Social Survey,简称GSS)。在1985年,GSS调查中包括了“社会关系”(Social Ties)模块,询问人们会和谁交流重要的事情。(这被称为“核心讨论网”;这种测量亲近关系的方式好不好,我们一会儿再讨论。)这个模块在2004年又被调查了一次。迈佛森和他的同事分析了新的数据,发现连一个亲近关系都 没有 的人数有了大幅度增长。这个发现如此重大,他们自己也有一些怀疑,因此讨论了好几种可能的解释(但就是没有推敲结果本身的真假)。在论文里,他们表示并不能确定变化的幅度范围。但是既然这是一个无法给出合理解释的谜题,他们就发表了这篇文章。
回头去看,他们还是有些草率;对美国社会非常了解的社会学家(如费舍尔[Claude Fischer])会确切地告诉他们,这 不可能 是真的。如果温度计显示室外是华氏75度,但你看到湖水还在结冰,那你应该相信温度计呢,还是自己的眼睛?
安东尼·裴和肯尼思·桑切格林(Paik and Sanchagrin,2013)最终解开了这个谜题。问题出在访谈上。有些访谈员很糟糕,他们(直接或间接地)表达出自己不想在访谈上花过多的时间。他们在做访谈的时候,诱导受访者回答说自己一个朋友也没有,这样就可以把这整个部分跳答过去。裴如何能意识到这一点,而其他分析者和批评者没有意识到?因为他在芝加哥大学读研究生时,亲身参与过这个机构(即全国舆论研究中心)的数据收集工作(但参加的不是这一项调查)。他明白访谈的过程,所以知道该去哪儿找问题。
现在我们讨论一下调查题目本身,即用“核心讨论网”来测量社会关系的方式。它合乎情理吗?答案是:在测量一个极其含糊的抽象概念(如“网络”)的所有方式中,它合乎情理的程度至少不低于其他方式。问卷里的提问方式和具体措辞是花了大量心思才选定的,绝对不能是随便抓来的一句话(比如“你有几个好朋友”之类)。问卷编写者已经做到了最好。但是,如果你因此把网络当成确定不移的实体,那就不合乎情理了。大多数人都会有一些社会关系是起伏不定、时断时续的,在朋友和熟人之间、熟人和陌生人之间也没有一条清晰的界限划分。在回答这类有关“谁”的问题时清楚地列出名字来,这是相当困难的认知任务。困难程度其实还得加倍,因为题项还需要一些解读才行:什么才算是“重要的事情”?
你自己
怎么理解这道题无关紧要,关键是你得知道受访者是怎么理解的。比尔曼和派瑞吉(Bearman and Parigi,2004)使用同样的题项进行了一次调查,但是还询问了他们谈论的是些
什么事情
。结果发现,有些人认为自己谈论的所有事情都算不上“重要”(你仔细想想还真是这么回事),而另外一些人认为鸡毛蒜皮的事情也很“重要”。
此外,我们可以想到,在一段时间被认为是“重要的事情”,随后可能会变得不那么重要了。在《辛普森一家》里,丽莎原本为自己难看的项链而忧心,但国家危机出现后,这件事的重要性就下降了。如果有重要的政治事件在发酵时,很多受访者会下意识地以为,“重要的事情”指的就是那些有争议的
政治
事件——那些自己根本不会去谈论的事情(Lee and Bearman,2017)。
在涉及抽象的事物(如“社会网络”)时,一定要先把那些标签搁置到一边去,努力去理解人们起头(prompting)、回想、标记的整个过程,数据就是在这些过程中生成的。即便我们无法实际观察这一过程,通过看问卷也能明白这一过程的很多方面。如果我们发现数据的生产过程是有缺陷的,就要对数据有一些怀疑的态度了。
在另外一些情况下,数据的来源并不是访谈,因此你无法追根究底,找到原始的纸质资料。对于有些很有吸引力的数据来说尤其如此,它们本身是组织机构工作的副产品。你要牢记:分析的可靠性取决于最薄弱的环节。把可靠的数据和不可靠的数据拼接在一起进行分析,结果也不可靠。这一问题日益突出,因为现在出现了各种各样的“免费数据”,据说能够便捷地帮你解决问题。但是,老话可能还是对的:一文钱一文货。
我们来看一个最近的例子。如果你生活在美国,就会感觉到现在的富人比以前更有钱了。人们想知道这种变化背后是什么原因。吕雨佳(音)和格伦斯基(Lui and Grusky,2013)认为,原因主要在于这些精英具有的 技能 ,如今“分析性”技能的回报比以前更高了。
但是,如何判断一个工作需要多少“分析性”技能呢?他们在网上找到了一个免费数据库,名叫“职业信息网络”(Occupational Information Network,简称O*NET),上面有每种职业需要多少某种技能的得分。这些估计量的构建花费了大量的工作(参看Tippins and Hilton,2010),有很多研究证明它们是有信度的。但是,信度和效度是两回事,这里最关键的是效度。O*NET花了很大力气来确保回答的效度:他们要求受访者辨别某种技能对这一职业的
重要性
和需要的技能
平均水平
,还用简要示例进行了锚定校准(anchoring)。
前述两位研究者完全了解这个数据的性质,他们讨论了上述议题。
但是,他们的关键论证取决于对分析性技能的评分是否有效。我不太确定人们是否擅长于给自己的工作评分。但是,我确信那些专业评分员们不擅长于此。在大多数情况下,他们对这项工作的了解只是工作名称和一小段工作简介。很多O*NET评分似乎完全是根据偏见给出的。例如,哪些职业最需要推理能力?排在第二位的是“法官”和“警方侦探”(O*NET区分了一项技能的 重要性 和现职者在这项技能上的 平均水平 ;在O*NET数据中,对于侦探来说推理能力很重要,但是他们实际拥有的推理能力却和泌尿科医生差不多)。水管工需要的推理能力比这两种职业都要低很多。令人生疑的是,“赌场筹码兑换员”和“赌场发牌计分员”所需要的推理能力和实际拥有的推理能力居然完全一样。
这并不是说,只有赌场筹码兑换员才有资格评判自己的工作需要多少推理能力。我也承认这些技能都是工作所需要的,人们的评分和实际的技能之间存在非随机性的关联。但是,在涉及像“分析性技能”这样的抽象概念时,我们需要心生警惕:无论是受访者还是评分员,他们的态度虽然很认真,但也可能只是在重复某种偏见。人们可能只不过是对此持有
相同
的偏见,这并不能确保我们能够发现上层越来越有钱的原因
,而只会遮蔽不平等的真正原因。
“分析性技能的回报在增加”只是一种解释方式,但是还可能有另外一种解释。想象一下,在十八世纪的加勒比海上,海盗黑胡子(Blackbeard)
和他的朋友努力建立了一个水手数据库。他问道:“弟兄们,当海盗船长最需要什么本事呢?”棉布杰克(Calico Jack)正在用心地啃骨头,他说:“要我说,咱们这号人的分析能力就是比人强。”“就是!千真万确!”随后,有些对航海一窍不通的人想搞清楚为什么基德船长那么有钱。他们找到了那个数据库,然后认真地做了回归分析,最终得出结论:这是因为他们的分析能力更高。看吧,那些有分析能力的人才能当上船长,就连海盗们自己也这样
说。
我也认识一些高层经理人,其中有些人也不能说一点分析能力没有,但肯定远远低于那些退休金都被他们掠夺走了的下属们。这里说的其实是人们熟知的一个马克思主义观念:有钱的人往往会制造出一些有利于他们进一步获取金钱的“事实”来。这种解释未必正确,但是你必须认真考虑这种假设!
最后,在进行跨国研究的时候,仅仅去读翻译过来的编码手册是不够的。很多常用的跨国研究数据库都存在严重的翻译问题。2001年的世界价值观调查(World Value Survey)显示,99%的越南人赞同军事统治!其实这是因为翻译成越南语之后,意思从“军人统治”变成为“统治军人”(Kurzman,2014)。更麻烦的是,在研究像“价值观”这一类事情时,并不是所有的文化中都有能够彼此清晰对应的内容,因此根本不可能找到 正确 的翻译!遇到这种情况,还是放弃为好。
如果你已经搞清了数据的来源出处,并没有发现有什么大问题,那么下一步应该怎么办?你应该尽可能地进行描述性分析来了解数据的内在效度。
我在威斯康星大学的时候听过一个求职演讲。那个演讲者使用的数据是从两方面收集来的,例如分别问丈夫和妻子每个人做家务的比例。她的研究问题是妇女的工作时间是否会改变这种平衡。她把丈夫和妻子的回答进行了平均,但是却没有去考察丈夫的回答和妻子的回答的一致程度及其原因。杰里米·弗里兹(Jeremy Freese)和我对视了一下,都下意识地摇了摇头。结果当然没有通过。你首先得了解自己手里的东西是什么,然后才能去“解释”它,对吧?
我吃惊地发现,人们在使用这类从两方面收集来的数据(如学校中学生的打架和欺凌、夫妻间的暴力)时,很少去列一个简单的列联表,来核对他人的说法和自我的说法。要想 从 数据中了解东西,首先应该了解数据 本身 。要了解它们在哪些地方是一致的(处在列联表的对角线上),在哪些地方 不一致 。不要掩盖不一致,而要去认真考察。你会从中得到大收获。
例如,我一直在使用“本杰明·泽布劳基城市交往数据”(Benjamin Zablocki’s Urban Communes Data Set)中的社交网络数据。这个数据质量很高,我认为是极其优秀的社交网络数据。但是,数据里仍然有不一致之处。张三说他和李四从来不见面,但李四却说他和张三经常见面。有一两个地方,这是由于受访者或访谈员的差错造成的;但在多数地方(数量其实也很少),这是由于解读不同造成的。怎么样才算是“见面”呢?泽布劳基的题项没有歧义的(“…… 当面 聚会”),但还是有些人会认为打电话也是“当面”。
甚至关于是否已婚,数据里也有一两处不一致。这并不意味着这个数据很“糟糕”,或者这个受访者说了“假话”。很多受访者认为稳定的同居就是婚姻关系,另一些人则认为必须要领证才算是婚姻关系。甚至,对于两个人是否办过婚礼也可能有不一致的看法。你可能短暂地参与过一个异端教会,在那里由教主主持仪式与某人结婚了。但你觉醒之后不再相信这些了,于是认为那个婚礼是无效的,你从来没有结过婚,现在也不是已婚的人。但是你的那位“对象”仍然在那个教会里,坚信你们的灵魂已经生生世世永远捆绑在一起。
事实上,不一致之处往往比一致之处更能给人启发。以“全国健康与社会生活调查”为例(Laumann et al.,1994),它不只是简单地调查发生了什么事,而且还调查人们行动的 意义 ,质量非常高。在这项调查中(与其他对当代美国人的调查一样),男性声称拥有的性伴侣的平均数量要比女性声称的多。这初看起来似乎是不可能的。这种不一致有时被人用来证明这类调查结果是不可靠的(如Lewontin,1995)。其实这并不是摒弃使用这些数据的理由,相反它是研究男性和女性如何理解性这件事的极好机会。首先,只要进行细致的分析,就能发现这些偏差有可能并不是想象出来的。如果对女性来说性伴侣越多就越不会回答上述问题,对男性来说性伴侣越少越不会回答上述问题,那么两者的实际差异就会被夸大。如果样本中的男性比样本中的女性更可能在样本框之外有性伙伴,那么也会有同样的结果。比方说,如果男性往往与比自己年轻的女性有性关系,那么他们的性伴侣中就有更高比例落在样本框(通常只包括成人)之外。
此外,批评者以为上述差异的存在只能说明人们在 说谎 。但是,上述差异可能源自人们 回忆 上的差异、 定义 上的差异、 认知 形式上的差异。例如,如果你现在15岁,去参加一个啤酒聚会,在喝掉五杯啤酒之后,第六杯又喝了一点但没有喝完。那么你喝了多少杯?如果是和朋友们聊天,你就会说:“这次聚会真嗨呀,我喝了六杯!”如果是被警察约谈,你就会说“只喝了四杯”,因为那都是些小杯子;你甚至会说“只喝了三杯”,因为杯子只有八成满。在确定某种肢体互动属于什么性质时,同样的事情也会发生。
幸运的是,我们可以去检验这些解释是否成立,办法是将伴侣关系分为不同类型分别考察,看男女两性在自我表述上的不一致是扩大了还是缩小了。例如,我们可以只考察年龄相近的伴侣关系(或者只考察年龄差距较大的伴侣关系),看男女两性的不一致程度是否会变小。如果不一致完全是由于抽样框的差异造成的,我们在进行这样更聚焦的比较时,就会看到不一致程度会变小。当然,不一致程度变小并不意味着我们能够认定男女两性在自我表述上就完全一致。但是,如果发现这种不一致 并未 降低,我们就可以认定男女两性在自我表述上确实存在差异;这在理论上有重要意义,我们可以继续探究其原因。此外,如果你发现在某些类型的伴侣关系中,男女两性的自我表述差异最大,这其中很可能就包含了能够帮你找到差异产生原因的线索。
为了说明如何进行这类分析,我们来看“全国健康与社会生活调查”中的一个令人惊奇的结果。它发现男性天主教徒声称自己有过异性肛交的比例是最高的,几乎是新教徒的两倍,甚至高于无宗教信仰者。(安德鲁·格里利[Andrew Greeley]是一位天主教神父,但他也在全国舆论研究中心工作,同时还写色情小说。在不写小说的时候,他就很喜欢到处讲这些事情。)但是女性天主教徒声称自己有过肛交的比例要低于男性天主教徒,虽然高于新教徒而低于无宗教信仰者。即便我们考察最近一次性行为的情况(这会更为准确),男女天主教徒的上述差异仍然存在。当然,男性天主教徒可能与不信仰天主教的女性进行肛交,因此这并不一定意味着男女天主教徒的自我表述存在差异。他们也回答了其性伴侣的宗教信仰,因此我们可以只考察发生在天主教徒之间的关系,但此时上述差异仍然存在:声称自己与天主教女性有过肛交的天主教男性比例,高于声称自己与天主教男性有过肛交的天主教女性比例。
样本中的天主教男性与女性并不是彼此的伴侣,因此有可能男性和女性的回答都是准确的,两者的不一致可能是由于抽样误差造成的。那么你可以推算一下,如果总体当中男女两性不存在差异,你在样本中观察到这么大差异的概率有多大。这一系列考察可以帮助你逐步把握男女两性存在差异的本质所在。在这个例子中,数据分析结果会告诉你,你根本不必再去继续追究这种差异是由于尴尬(如肛交被作为一种避孕措施),还是由于不同的表述习惯了(男性认为只要有这种方式的性行为就是肛交,女性认为只有这种方式而没有其他方式的性行为才算肛交)。
总而言之,你不要害怕回答者对同一件事情有不一致的回答,这正是你想要的入手点。这会让你有能力借此厘清那些用单方面数据难以厘清的事情。
这里我们讨论的是不同的人对同一件事的不同回答。你还可以用多种方式或者在多个时点向同一个人提问,然后比较其回答。两次回答存在不一致,这并不意味着数据是糟糕的。人确实会改变主意。但是,没有人会从断肢变成健全人。在“青少年健康纵贯调查”中,我们就是用这种方式甄别出了那些糟糕的回答者。如果能够去检验个体回答的内部一致性却 故意不去 检验,那你就是在耍心眼了。最后,有时候我们能够从人们的回答模式中甄别出存在问题的访谈来:在某道题后,他突然全部都回答“同意”或者“不知道”,这通常表明他对访谈厌烦了或生气了,或者把电话递给了他一周岁的儿子。