我们已经讲过由于计算错误而引发的差错,以及由于受访者误答而引发的差错。但是这些仅仅是最明显的,还有许多其他原因要求我们必须在进一步分析数据前反复思考。即便面对如普查数据这样的高质量数据,我们也要对“数据记录的究竟是什么”有怀疑性的审视。在此我想用一个时髦的词“物化”(reification)
,或者用怀特海(Whitehead)的话来说,叫“实际性误置的谬论”。在理论课上,总有些学生自作聪明,把“物化”说得一无是处,好像只有笨蛋才会那样做。其实不然。正如黑格尔所表明的,如果你拒绝把任何东西视为确定不移的物,你就根本无法思维。在资料当中,多多少少总会把某些东西看成是确定不移的物。只要测量过程中被视为确定不移的物的东西,在现实世界中人们也视其为确定不移的物,那么这种测量方式就行得通。但如果情况并非如此,我们就需要对测量结果保持警惕。
一个很好的例子就是官方统计数据(如美国人口普查)中对种族的分类。普查数据来源于问卷调查,现在越来越多的是用自填问卷的方式进行。许多学者已经注意到了美国人口普查局对人们的分类方式在发生变化。但是除此之外还有一些变化,那些变化并不在普查局的计划之内,而是来源于回答过程的复杂性,而正是这一点可能会使得某些研究设计以失败告终。事实上,人们对美国人口普查员的行为进行了研究,发现种族测量的结果其实是普查员与当地居民的一场谈判。对拉丁美洲人口普查的研究更加有力地证明了上述结论。容易预想到,对于某些问题来说,不同的数据收集方式(邮件问卷还是上门面访)会得到不同的调查结果。
研究者发现,在拉丁美洲的跨种族婚姻中,妻子通常会“随”丈夫的种族。如果丈夫是白人,妻子更可能“变成”(即自认为是)白人,而不是丈夫“变成”非白人;如果丈夫是黑人,她更可能自认为是黑人,而不是丈夫自认为是非黑人。把种族当成一种确定不移的物,这种做法在道德上或科学上是否正确姑且不论,但是在这里它作为一种分析策略是有问题的。因为我们的研究对象自己并没有把种族当成一种确定不移的物,他们拒绝如此行事。不能因为政府这么说,我们就认为就是这么回事。
事实上,使用普查中的种族数据需要很小心才行,因为种族的类别和用来判定种族的程序一直处于 持续的流变 (constant flux)当中。有些数据(如1890年人口普查数据中的“混血”类别)在调查刚结束时,普查局就承认是不可靠的。政客们会对统计部门施加压力(Hochschild and Powell,2008),要求调查人员把有黑人血统的比例控制在接近八分之一左右(Bennett,2000:166),但是具体怎么做却没有明显的指示。混血人数从1910年到1920年急剧下降,“全国城市联盟”的官方杂志《机会》对此大加评论,但其实这只是因为1910年普查中雇了很多黑人调查员,使得调查出来的混血人数大大增加(Hochschild and Powell,2008:70)。人口普查中的种族在1960年以前是由调查员来填写的,1960年后改为受访者自己填写,结果导致此前与此后的统计数据很难直接比较。
“物化”是一个远比你想象的要更大的陷阱,因为对很多人来说,它其实是以某种 解决方案 的形式出场的。我们被教导说,如果人们对某些理论术语有争议,那么解决方案就是让每人都以自己的方式去“定义”它们。在多数情况下,这相当于让人们进行有误导性的物化而不予纠正。下面我会先讨论这种方式当中存在的问题,然后再讨论如何解决这些问题。
在《领悟理论》(Martin,2015)中,我强调过,社会学家 想事 的时候往往用理想类型,但 做事 的时候往往遵循唯名论。 唯名论 是一种认知理论(同时也是一种认识论的基础),这种理论认为我们能够在外部世界中看到一般性(如“哺乳动物”)的唯一原因就是,我们以这种方式界定出了一般性。如果我们并不相信“哺乳动物”这一概念,我们就无法把它们看成是哺乳动物。与此相反, 实在论 认为普遍性是内在于外部世界的本质当中的。
因此,我们(唯名论者)对于知识的 理论 是,研究者可以根据自己的目标“构建”出“概念”来,好比可以造出一些盒子来把具体的事物归置进去。你把少年犯“界定”为“年龄在18岁以下、有过一次以上被捕经历或三次以上轻微罪行记录者”,那么对于你的操作来说,“少年犯”就是这样的。我在此并非想说唯名论的做法一无是处。但是问题在于,我们 做事 的时候是按唯名论来做的,但是轮到解读研究发现的意义时,我们却又转向了实在论。无论你对于少年犯如何 界定 ,以及对于案例如何进行编码归类,轮到你在 想事 的时候(比如琢磨少年犯的成因或后果时),你头脑里依据的很可能是对少年犯的某种具体而 实在 的图像(也许是高一时欺侮过你的那个混蛋),但是这种图像可能和你界定到那个类别中的典型案例并不一样。
再比如说“移民”。人们通常按照是否在美国出生来界定“移民”,这当然可以。但是,学生们常常会把“移民”认为是 成年 后移居美国的人,这才是他们对“移民”这一概念的理想类型。除了公民身份以外,一个在8个月大的时候随父母来到美国的孩子,可能和那些父母在临产前四个月移居美国因此在美国出生的孩子更为相近,而不是和那些成人之后才移居美国的人更为相近。
你不能界定完就了事。拿你自己的定义之网向世界随便一撒,然后不管捞上来的是什么东西就拿去分析,这是不行的。你得认真地看一看,自己真正捞上来的是什么东西。如果你不认真检查,就很可能会得到一些古怪的结论,例如多数死于枪击的“儿童”都是被其他“儿童”杀死的,多数“家庭暴力的施暴者”都是妻子,等等。
用概念术语来替代数据资料的做法还有一种危险,但还没有被人们充分认识到。一种常见的认知错误是,人们往往过分关注某种二元概念或连续性概念的某一端,因为我们把这些概念作为
标签
贴到了那一端上(他们在认知上是被“凸显”的,参见Zerubavel,1997)。例如,种族被分成黑人和白人,但黑人是凸显的范畴,白人则是寻常的范畴。随机抽选的一个美国人会被假定成是个白人,白人好像并不带有任何信息。结果我们在考虑“种族”效应时就往往会觉得只和黑人有关,好像只有黑人才有种族这回事儿一样。
我们在考虑“教育”效应时也往往会觉得只和教育程度较高者有关,觉得和他们接受的教育有关。但是,实际上数据模式背后的驱动力未必会按照你对术语的理解来行事。你应该多去看看数据,而不是凭空臆想。
上面讲的内容似乎是显而易见的,但实际上人们对此仍有分歧。许多社会学家,特别是那些教方法课的人,会认为你应该先有一个明确的理论,然后去界定自己的概念,想办法把概念转化成某种测量,然后再来检验你的假设。我认为,这种做法会鼓励我们浪费太多时间在那些没有任何具体指向的东西上。
比如说,有很多关于“社会资本”(这是个极具误导性的概念)的研究。对“社会资本”有很多不同定义和看法,其中之一是科尔曼提出的(Coleman,1988):他认为那些嵌入在“社会闭合”(social closure)网络中的高中生成绩会更好。科尔曼生活在伊利诺伊州芝加哥大学所在的海德公园。在那个地方,你每天看到的是同样一些人。人们之间的关系是多重的:那个人既是你的同事,也是你儿子的朋友的爸爸,还是你的邻居,还是你在市镇委员会的伙伴,等等。那种小城镇人们的关联过分密切,简直令人压抑。科尔曼觉得,就是这样的社会闭合使海德公园的孩子们(或者在天主教学校上学的孩子们)成绩更好。因为他们的父母互相认识,一旦小孩逃学,父母马上就能知道。
科尔曼与人合作进行了一项问卷调查(1988年全国教育纵贯研究[NELS]),这个调查对于“社会闭合”进行了测量:他们请学生家长说出他们孩子的好朋友的父母的名字。随后,有很多分析者开始对科尔曼的假设进行检验,大家想看看“学生家长知道的孩子好朋友的父母名字数量”(即“社会闭合”)在多大程度上可以预测学生的成绩。结果,卡博纳罗(Carbonaro,1998,1999)在 个体 层面考察了两者的关系,结果发现社会闭合对学生成绩是有作用的。摩尔根和索伦森(Morgan and Sorensen,1999)在汇总的学校层面考察了两者关系,结果发现社会闭合对学生成绩不起作用。这与我们在社会学里最希望看到的那种有“理论聚焦”的争论很符合。
但是,霍里南和库比切克(Hallinan and Kubitchek,1999)表明,这场“理论检验”的基础并不牢靠。因为争论双方都没有注意到:测量出来的所谓“社会闭合度”上的差异,其实跟“社会闭合”并没有太大关系,那些差异是由另外一个社会过程导致的。我也发现了这一点。我和一位学生在重复这些研究时,发现其中有些模式令人困惑,于是去网上查看调查的编码手册。
有关“社会闭合”的问题是这样问的:“
您知道你孩子的某个好朋友的名字吗?
”如果回答“不知道”,就跳到下一页;如果回答“知道”,就请被访者说出这些名字来,最多五个。然后,对于每一个提及的朋友再问被访者“
他/她是否和你的孩子一起上学
”,“
你是否认识这个小孩的父母
”。
你得先知道你孩子好朋友的姓名,然后才会被问及是否认识他们的父母。因此,测量出来的所谓“社会闭合度”差异,其实并不是“社会闭合度”,而是“ 是否知道他们孩子的好朋友的名字 ”。事实上,那些知道他们孩子的好朋友名字的家长,往往也都认识其父母:家长平均能够说出孩子的4个好朋友的名字,平均能够说出孩子的3.3个好朋友的父母名字。不知道孩子好朋友的名字,自然就不认识其 父母 ,也不知道其 鞋号 ,也不知道其 最喜欢的颜色 。我们甚至可以猜想,如果把“你是否认识这个小孩的父母”的问题换成“是否知道这个小孩的鞋号”或“是否知道这个小孩最喜欢的颜色”,模型预测结果大概差不了太多。
按照传统的方法来说,社会闭合理论只要成功地预测到它所声称的测量和结果之间的关系,就应当受到表彰。摩尔根等人就回应说,那道题 试图 测量的是社会闭合,所以它最后测量出来的就是社会闭合。这种回应完全没有道理。我主张还是要原原本本地去看数据,去琢磨现实生活中的社会过程可能是怎么回事,而不是只停留在抽象概念上。这背后是“社会闭合”这一社会过程吗?也许是的。这背后是家长进行“积极介入的养育方式(active parenting)”这一社会过程吗?听起来似乎更合理。也许,这只是表明这些学生身处的学校类型比较特殊,它只是对于学校环境的一种粗略测量。你可以对学校环境用其他指标来进行测量(如课桌上被乱刻乱画的比例;门口小卖部“脆米花”的销量,等等),然后把这些指标作为控制变量加入到模型中,看看这种解释是否合理。这就是控制变量的策略,我们会在第4章中再详细讨论。
对于社会闭合与学生成绩之间的关系,摩尔根和陶德(Morgan and Todd,2009)使用了另一种更贴切的测量方式再次进行了研究。这一次他们还采用了更严格的因果推断框架(Morgan and Winship,2007)。结果发现,加入的控制变量越多,系数就越小;直到最后,效应消融不见了。这表明确实有某种社会过程在发生,但是其中有太多的因素彼此纠缠在一起,我们无法把某个因素单拎出来进行明确的因果论断。
总结一下,不要以为我们把事情定义成什么样,就可以对数据中呈现的模式按照原先定义好的方式来进行解读。你的方法训练无法支持你这样做。有时候,我们得做一个量表,得把很多个答案组合成一个数字。这时,我们实质上就是在进行定义。这里边也有很多陷阱,我们得慢慢讲。
我们的唯名论立场往往会让我们误以为所有变量都是测量。但是, 测量 应该立足于某一事物的某一种特性,那应该是在现实世界中切实存在的东西,而不是只存在于实验室里。因此,并不是给事物赋予的任何数字都能算是测量。例如,把我们对某人的各种不喜欢之处堆砌起来进行加总(在我看来,很多心理学测试就是这样做的),其结果就根本算不上是一种“测量”。从抽象的哲学层面区分真正的测量和唯名论的错误行为并不容易,但是你在实践中应该能够做到这一点。你碰到一些不太确定的东西时(如从因子分析中获得的某种“一般智力”因子),最好要有一些怀疑精神。
这儿有一个最近的例子。法拉若等人(Ferraro et al.,2016)最近声称,他们使用美国中年生活数据(MIdlife in the United States)发现,只有约四分之一(27.3%)的美国成年人 没有 被父母虐待过!就算其中有31.5%的人只是“偶尔”被虐待,这也表明超过40%的美国人有过经常被虐待的经历。
这令人震惊。但是如果你看一下威斯康星大学老年研究所的“量表说明”(Institute on Aging,University of Wisconsin,2004)的第24页就会发现,他们所称的“虐待”指的是“在你的成长过程中至少有一次”如下经历:
1. 父母辱骂你/生闷气或拒绝和你说话/跺着脚走出房间/以言辞或行为来激怒你/威胁要打你/生气地摔东西或踢东西。
2. 父母推搡你或抓你/打你耳光/朝你扔东西。
3. 踢你、咬你、用拳头打你/用东西打你或试图打你/殴打你/掐你或勒你/烫你或烧你。
在上述内容当中,有一些确实是虐待,有一些则不是虐待,还有一些简直是逗乐。按照上面的说法,如果有一次你管你爸爸叫笨猪,他拒绝和你说话,那么他就是在虐待你。
这当然是个极端的案例,但我们用唯名论的方式来处理量表时,确实会忘记实际的数据说的是什么,而只记得自己给这个量表起了个什么名字。例如,政治心理学家感兴趣的一个问题是某些政治观点是不是源于某些人的“权威主义特质”。具有“权威主义特质”的人的一个特征是,在某些权威损害某些群体时也会跟从去攻击这些群体中的人(当然他还有其他特征)(参见Martin,2001)。我们做一个量表来测量它,方式是看在权威认同的事项当中受访者会赞同多少项。我们从低到高,给每个人都打了分数。
但是,在这个量表上得分较 高 和真正体现了这个概念的实质,这两者可能完全是两回事。有时候,我们用一系列特征来界定量表,但最终促使我们得到经验发现的那些人其实只具备这些特征中的少数几项非核心内容。我们用某些概念特征来进行解释时,得先确定这些特征在我们认为体现了这些概念的人身上确实存在。例如,持保守立场且反对平权运动(affirmative action)的人在量表上可能得分很高,但他们未必具有我们理解的所谓权威主义攻击性。如果他们攻击性很“低”,我们就需要反思自己的想法。通向科学的地狱之路,就是由不加反思、不加批判、总是沿用惯例的方法决策铺成的。
概念和量表/指标之间的不匹配还有另一种形式。如前面所讲过的,我们往往被名字误导,只关注一个变量的两端当中“凸显”(marking)的一端。如果我们测量的是“教育”,就会认定我们谈论的事情一定是“受教育多的人”促成的,其实现象却有可能是那些受教育少的人导致的 [1] 。做量表挺好的,它有助于减少简单测量当中出现的误差,但是代价是更大的危险:理论概念和真实世界之间的关联被削弱了,我们可以随心所欲地生成很多数字,然后再贴到并不适宜的事物上去。忽视数据本身的性质,却依赖于我们对加总出来的结果的某种命名,这种做法是绝对错误的。但是怎样做才对呢?
人们之所以要构建指标(indicator),是因为他们认识到我们的测量方式往往是不准确的。例如,用来测量人的自尊(self-esteem)的一道经典题目是:你是否同意“我能像大多数人一样把事情做好”。但是,如果受访者正好是位85岁的老人,他想到的事情正好是跑跑跳跳这类事,那么尽管他很有自尊,他还是会对这道题回答“不”。因此,至少对这些人来说,我们是无法用一道题来把握自尊这个概念的。于是我们就问好多问题,这些问题与自尊都有 一些 关系。把这些问题的答案加总起来,就很可能把那些自尊之外的因素抵消掉了,因此我们就得到了比原先做法更好的一个指标。这些测量都是间接的,但是加总起来以后,就可以近似于某种直接测量。这些逻辑都是有道理的。
但是,我们需要更深入地来思考构建指标的这种逻辑。对某种潜在特质的各种 后果 的测量,和对这种潜在特质的各种 原因 的测量其实有着很大的差别。对各种后果的测量之间应该会存在共变关系(co-vary)。我们会有很多统计量来确定一组测量是否可以构成好的指标,但这些统计量其实都假定测量的是共同原因导致的各种后果。但是,如果我们测量某件事是通过它的各种 原因 ,那么测量之间就不一定存在共变关系。实际上,有时候它们呈现出来的甚至是反向的共变关系:失业和工作过劳都会让人心理紧张(stress),但是如果你失业了,你就不可能工作过劳。
我们不妨把对原因的测量称为
指标
(index),把对结果的测量称为
量表
(scale)。这种区分在某些社会和行为科学领域当中确实存在,但是并不普遍。
那我们就用更为常见的一种区分办法:
必要
条件和
充分
条件。如果没有a就没有b,那么a就是b的
必要
条件。空气是着火的必要条件,因为没有空气就不会着火,但是只有空气并不意味一定会着火。如果只要有a就一定有b,那么a就是b的
充分
条件。如果你已经有了压缩空气和燃油蒸气,火花就是燃烧的充分条件。有火花就一定会引发燃烧,但是火花并不是引发燃烧的唯一方式(柴油发动机就用不着火花)。
我的直觉是,总体而言,与通过后果来测量某些现象相比,通过其原因来测量要更好。因为我和大家一样,觉得现实生活的因果关系指的往往是充分条件,而不是必要条件。例如,抑郁会让人缺勤,但是缺勤的原因未必是抑郁。因此,如果你用缺勤天数来测量抑郁,就会有很多问题。但是如果被解雇会增加人的抑郁,它就总会增加抑郁。
我没有办法用数学来证明上述观点。我也承认,通过原因来制订指标有一个难点:在多数情况下,我们无法穷尽 所有 可能的原因,这样就会有偏差。例如,好多事情都会引发心理紧张:配偶死亡、失去工作、被判有罪、巫术附身、商业调整、婆媳矛盾。著名的霍姆斯-拉赫压力量表(Holmes-Rahe Stress Scale)包括了前面列出的大部分内容,但是他们没有包括巫术附身。为什么呢?因为福尔摩斯和拉赫这类人没有因为巫术附身而心理紧张过。
但其他人会。在许多社会里,可能最令人紧张的事情就是被人施加了巫术,这甚至可能会让人紧张得要死。就算在美国,也有些人因为被人施加巫术而心理紧张,虽然我们不知道具体数字。但是,多数人制订指标的时候还是从自己的角度出发考虑的,他们至多会考虑那些“和我们差不多的人”。
所谓“理论驱动”的研究方式就有这样的问题。如果理论是对的,一切都好;如果理论是错的,那就一切都完了。但是,理论通常都没有那么完美。它们是局限的,它们并不能容纳其他的人、其他的地方、其他的时代,因此我们不能完全相信它们。我们需要学会进行“理论推敲”(theorize):不是给自己的研究结果添加一些花哨的词汇,而是要对数据的生成过程进行理论推敲。你会发现,这要比你课堂上玩弄那些抽象术语要有趣得多。你的入手点不再是那些大胡子们讲了些什么,而是你的数据资料说的是什么。你得检验数据是不是牢靠,就像你在爬树的时候,在把全部重量放上去之前,得先试试树枝是不是够结实。之后,你就可以对于全局有一个鸟瞰,了解数据当中究竟有什么内容了。
[1] 在构建量表时,我们常常会给予某一些回答更大的权重,这时你在两端中“凸显”哪一端,结论会有很大不同。比如说,我们请人们对一些东西(如食物A、B、C、D、E、F)按照相似性程度分类。他们可以自行决定分成几类。第一个人分的是[AB] [CD] [EF],第二个人分的是[ABC][DEF]。
我们首先从接近程度来考虑问题。他们都把A和B分在了一组,但是第一个人只把A和B分在了一组,第二个人则在同一组中还包括C。这是否说明,A与B的关联在第一个人看来比第二个人更紧密,我们应该给他的回答更大权重呢?第一个人的分类里只有三个同组关系[AB] [CD] [EF];在第二个人的分类里有六个同组关系(即[AB] [BC] [AC] [DE] [EF] [DF]),是第一个人的两倍。因此,有些方法专家认为,应该依据这一点进行加权:第一个人列出的接近程度应该是第二个人那里的两倍。
但是,现在再从差异程度来考虑问题。第一个人没有把B和C放在一起,第二个人没有把C和D放在一起。但是第一个人分了三组,第二个人只分了两组。这是否说明,C和D的差异在第二个人的心里应该比第一个人心里对B和C的差异还要更大呢?按照这种逻辑,我们应该这样加权:第二个人列出的差异程度应当是第一个人那里的两倍。
然而这样下来,我们对第一个人和第二个人都进行了双倍加权,这就相当于都不加权。这个逻辑可以帮助我们理解拉什模型[Rasch,1960]的一个反直觉推论:如果你给予难题和简单题相同的权重,那么不加权的简单原始分数就是某个潜特质的充分统计量。