购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

选择性

变量、因果与现实世界

在这一章里,我们会简要地讨论选择性(selectivity)问题。有人认为,“选择性”这个概念之所以重要,是因为必须从数据中“压榨”出某种因果效应估计来——我认为那可能是件徒劳无功的事情。“选择性”这个概念之所以重要,是因为我们可以由它入手,去思考大多数社会科学在使用统计学时面临的一个大难题:在解读估计出来的参数时,必须要考虑“未观察变量”(unobserved variables)的影响。

为什么这是一个大难题呢?因为从统计学的角度来看,模型中未考虑的因素是无穷多的。你如何能够保证,那些既能够预测因变量、又与现有自变量相关的因素已经全部囊括在模型之中?这是做不到的。难道这个难题就无解了吗?不,它是有解的。按照我们在第1章中讨论过的实用主义思路,研究的目标是改善现有的知识,优质的数据能够帮助我们达到这一目标。我们不需要考虑无穷多个可能的混杂因素(confounders),只要考虑那些 有切实可能 (likely)的混杂因素就够了(无论这些因素是否在我们的数据集中)。

我们应该从何处来入手?很好的入手之处就是人们 切实的选择行动 (selection)——他们究竟 实际做了 哪些事情,才妨碍了统计学家获得因果估计的企图? 我们 都是人,所以可以先问一下自己“我遇到这种事情会怎么做”,然后再想一想“我听说过或见过别人遇到这种事情会怎么做”。如果你只是坐在那儿冥思苦想“所有可能的重要因素有哪些”,那你最后列出来的往往只是一长串不相干的因素。(因为与模型中的自变量不相关的遗漏变量并不会扭曲你的结论。)从切实的选择行动入手,会让我们迅速聚焦于对我们的解读来说最为致命的那些因素。

导览 :我先简要地介绍对于因果估计的经典理解,以及选择性难题是如何出现的,它又如何阻碍了我们对非实验数据进行因果解读。然后,我会介绍一种与现有教科书上主张的因果建模策略(causal modeling strategy)完全不同的分解(decomposition)思路。这种思路是从人口学中借鉴得来的,我会把它贯穿本书始终。在下一章中,我们会集中讨论“控制”策略的使用。

实验模型

经典的实验需要有如下四个关键要素:

1. 样本组 :找到至少两个(通常比两个要多得多)分析单位的实例,我们称其为“样本”。

2. 随机分配 :从样本中随机抽取一部分分配到“处理”(treatment)组,其余的分配到“对照”(control)组。

3. 实施 :对处理组的样本施加某种可能有因果效应的因素,对对照组的样本不施加。

4. 观察 :对处理组和对照组的结果分别进行观察。

一个假想的例子,我们找了一些可爱的小猫,随机给其中一半注射了卸妆水,然后看它们是否会长出肿瘤来。由此我们就能得到如表3.1那样的数据(现在你先看黑体的行标题和列标题)。单元格的观察数表示为 ,下标中的0表示案例属于对照组或者没有肿瘤,1表示案例属于处理组或者有肿瘤。

表3.1 经典实验

现在,让我们试着把上述逻辑套用到社会领域当中。研究问题是辍学会不会导致犯罪。变量都只有两个取值:辍学/不辍学,犯罪/不犯罪。数据的形式与前面的小猫实验看起来似乎是一样的,但是有一点不同:我们并没有施加处理,只是观察到了一个 分布(还是表3.1,但现在你要看非黑体的行标题和列标题)。我们会看行与列之间的对称性关系,如果“比率比”(odds ratio) 大于1,就认为两者“极有可能”存在因果关系。由于英文中“casual”和“causal”之间有谐音关系,我喜欢把这种观念称为“草率的因果观”(casual causal idea)(Matin,2015)。

很显然,上述情况与实验模型是不一样的,因为人并不是被随机分配到处理组和对照组当中的。有人因此主张,我们只有在可以设计出随机分配程序时,才能够用“因果”这种说法。我能理解他们的意思,我们可以选择自己在使用某个词汇时的意义是什么,但是我不认为这种主张能解决实际问题。在现实世界中,“原因”就是人们对于某个“为什么”的问题感觉合乎情理的答案。人们谈论因果关系的历史,要比对小猫进行随机实验早太多了。

因此,比抠字眼更重要的事情是,去明白实验模型 为什么 会失效。我们不必因此而沮丧,因为这正是我们对社会生活有深入理解的大好契机。下面,我们先来讨论到底现实世界中的“因果关系”到底有什么特点,然后再来讨论选择性问题。 6uPFbkvVm9yCNwVIvYoXc2WMckAPq1xzZFt9ubNR1IXczZOgPGk4CtkOyrfEx4nv

点击中间区域
呼出菜单
上一章
目录
下一章
×