统计学中的大多数内容都与我们不相干。我们需要的,是能够帮助我们在关于社会世界的各种不同见解之间进行裁决(adjudicate)的方法。对于这一任务来说,只有在极少数情况下,把某一个模型(或某一组模型)的估计变得更加精准是重要的;在多数情况下,那都无关紧要。这就好比说,医学投入大量资源(以及大量的猴子和兔子)来研究如何让人长生不老,而这明明是办不到的事。研究者把精力都投到这种根本办不到的事情上,却忽略了更加重要的现实问题。为什么会这样?这可能是因为研究“如何让一个九十九岁的富翁精神矍铄”更加有利可图,也可能是因为这里确实有很多有趣的生物医学问题。但是,如果你看看周遭的现实世界(而不是所谓的“有效需求”),就会知道现实中最主要的医学问题其实很简单,就是营养、锻炼、环境风险这些我们已经熟知的东西。但是,这些看似简单的问题在实践中要做得到却很 困难 。相比之下,试着找些灵丹妙药来让人起死回生,确实要好玩得多。
统计工作也是如此。统计学科要研究的,几乎都是如何获取
真实
模型中参数的最佳估计(我戏称之为“佳偶估计”
)。统计学家坦承,他们的工作范围只是如下内容:在你已经知道了应该使用什么模型这一最重要的内容之后,他们来想办法准确地估计参数
。遗憾的是,我们费心去做统计,通常就是因为我们不知道正确的模型是什么样的。现实难题并不是真实模型给定时如何获取参数的最佳估计,而是如何避免被模型结果误导而相信了错误的模型。我们对社会世界提出种种见解,然后让现实世界来提醒我们是否犯错了——更多的是在我们
确实
犯错了的时候发出这种提醒。
我们如何做到这一点呢?我想用木匠手艺来打个比方。从数据中获取真相其实是一门需要学习的手艺。手艺的要诀之一恰恰是要知道什么时候 不能 太花哨。在教别人如何制作椅子的时候,你不能让他锯好木头块后,直接用280号的特细砂纸来打磨。你得告诉他先用锉子,然后用80号砂纸,之后再用120号,再用180号,再用220号,这样循序渐进最终成形。可是,多数统计学教材教你的,都是一下子就给你一堆280号的特细砂纸。如果你的零件已经精准到位,那你就不用往下看了。如果在你面前还只有一堆木头,那就请继续往下读。
很多读者会提出异议,说统计学的最新进展已经不再需要给定真实的模型。事实上,有很多有趣的研究已经探讨了如何对多组模型进行分析,有一些甚至不需要有真实模型存在于你考察的集合当中(Burnham and Anderson,2004:276)。有一些方法可以从模型集中选出一个最佳模型,还有一些方法提出了 跨模型的 更优参数估计,另一些方法则基于模型的不确定性来更好地估计参数的不确定性。在社会学中,有从贝叶斯统计学的角度对此进行的阐发,也有从信息论的角度进行的阐发。贝叶斯理念的出发点是,我们要考察的是一组模型,然后比较在看数据之前和之后得到的先验概率分布和后验概率分布。
我和其他人一样,一直热衷于这些方法(参看Raftery,1985;Western,1996)。但是,即便采用这些方法,我们也只能够考察所有可能模型中的极小一部分
。在进行模型选择或模型平均(model averaging)时,通常要考察的也只是一组固定的变量(数目接近于10这一级别而非100这一级别)的某些可能组合形式。我们通常还会设定模型的统计分布,比如说在广义线性模型中设定连接函数和误差分布的形式。
上述这些方法很重要。随着计算机提供的便利日益增加,人们会越来越多地对于各种模型进行详尽的搜索。我相信,未来人们会逐渐把这些方法视为“标准的做法”。我们甚至可以跳出贝叶斯框架,来考察方法在其他方面的稳健性。例如,在最近发表的一篇精彩论文中,弗兰克等人(Frank et al.,2013)对某些变量取值排列出了所有可能的合并方式,然后与自己偏好的模型进行比较,以便从中选出最佳模型。但是,它并未解决我们的基本难题,我们甚至无法确定自己是否 接近 了真实模型。
你可能会认为,采用那些统计学家开发出来的更精准的模型参数估计方法,这即便解决不了我们的最大难题,但是至少不会有什么 坏处 。如果我们的模型接近真实,那么这会让估计量更精准;如果我们的模型并不真实,至少这也不会有坏影响。但是在很多情况下(虽然并不必然),对于 完美 模型来说最优的估计方法,对于错误模型来说却是 较差 的估计方法。
在我上研究生的时候,普通最小二乘(Ordinary Least Square,以下简称“OLS”)回归广受抨击。我们认为,它几乎在任何情况下都不适用。只有那些没脑子的人才会用这种方法,聪明人则会对线性模型唯恐避之不及。我们喜欢列出回归分析的那些假定,由此(自以为)表明了回归的结果有多么不靠谱。
我以前有两辆摩托车。一辆是特别酷炫的、排量达850cc的、平行双引擎的诺顿突击队(Norton Commando),这是最后一款脚踏启动、带大号英国双引擎的诺顿摩托车,发动机、传动链、变速箱都是分离的,轰鸣声就像音乐一样动听。另一辆是平淡无奇、规规矩矩的本田CB 400 T2,它最大的特点就是没有特点。
我对那辆诺顿摩托车了如指掌:我把它完全拆开来换零件;我细致研究过那些密密麻麻的零件图,只是为了搞清楚需要何种稀奇古怪的扳手来扭动一个小零件。我有这么一辆古董摩托车,可是我妻子从来没有担忧过我的安全问题,虽说当时我家里还有小孩子。曾经发生过的最大一次事故,是我被突出来的一个螺丝蹭破了手指。因为它基本上只待在车库里。我只是在车库里不断摆弄它,弄得满地油污。
相比之下,那辆本田乏味之至。你按下按钮,它就启动;你挂挡,它就前进;你到地方了,就关了它。
需要在别人面前炫一下时,我会开那辆诺顿;但是需要实际办事时,我就开那辆本田。OLS回归和本田摩托车好有一比:你看不上它,不欣赏它,可实际办事的时候老得靠它。
我觉得摩托车的比方挺有说服力的,但你未必也这样认为。那让我们再找一个实际例子看一下吧。下面这个例子的数据来自1976年的全美选举调查(American National Election Study,ANES)。你对政治意识感兴趣,想了解一下党派在妇女议题上的不同立场是否会影响到人们的投票行为。你把国会选举中的投票作为一个二分变量,1代表投共和党的票,0代表投民主党的票。你主要关心性别差异,但是也认为受教育程度对投票有影响。因此,你先进行了一个通常的OLS回归,结果如表1.1中的模型1所示(参见附录中的程序R1.1)。
表1.1 一个例证
性别差异在统计上并不显著( 那个 理论被驳倒了),但是教育是显著的。这是一个重要发现!你写了一篇论文准备提交,在此之前先把论文给了一个擅长统计学的朋友看,他对教育程度更高的人更可能投票给共和党这一结果也很感兴趣。他微笑着说这很有道理,因为教育能够让人更好地理解经济议题(我猜他很可能自己 就是 共和党)。但是,他告诉你说,你这里有一个重大疏漏。你的因变量是二分变量,因此你的模型有误,你应该用logistic回归模型。他给了你一本操作手册。
你赶紧回去运行了logistic回归,结果如模型2所示。你明白,模型1和模型2中的系数不可以直接比较。但令人欣慰的是,你的基本发现仍然成立:性别系数只有其标准误的一半,但教育系数是
其
标准误的四倍。你把这一结果加到论文中,把它又交给一个经验更为老道的统计学家朋友看。他说,你的结果很有道理(我猜他可能
也是
共和党人),但是你在方法上有疏漏。你的案例并不是统计独立的。ANES样本是按选区抽样的,
同一选区中的人进入样本的概率并不是独立的。同一选区是对相同的国会议员来投票,因此这一点非常重要。你困惑地提问说:“我该怎么办?”他说,稳健标准误模型(robust standard error model)就可以应对观察的非独立性,但是既然同一选区选的是“相同的国会议员”,那么最好的办法还是在选区层面加入一个随机截距项(random intercept)。
你马上参加了一个混合模型的短训班,学会了如何运行“层级广义线性模型”(hierarchical generalized linear model,HGLM),结果如模型3所示。你的统计学朋友是对的,教育系数有所改变,它的标准误也大了一点。但是你的结论仍然成立,它相当稳健!但是,你把论文拿来给我看。我才不相信那些受教育程度更高的人投共和党人的票是因为他们更聪明,更不相信这是因为他们更好地理解了经济形势。我告诉你说,关键在于那些受教育程度更高的人往往更 有钱 ,而不是他们更 聪明 。你面临的难题是模型设定错误(misspecification),而不是统计估计错误。
我找到数据,把收入加进去运行了一个OLS回归,结果如模型4所示。标有“秘密”的那一行就是收入测量值(我不想让你猜到这是怎么回事,但是你可能还是猜到了)。噢,不!现在你的教育系数变得只有原先的 1/13 大小了!看起来决定投票的是收入,而不是教育。你的论文只能扔进废纸篓里了。这时候你突然想到:“别急!这些数字并不 对 ,我需要运行的是针对二分变量的logistic HGLM模型!那可能会让我的发现起死回生!”你去运行了模型5,可结果并没有根本改变。
在这个时候,你肯定恨不得杀掉那几个统计学朋友,但是他们并没有错。他们做了 他们 应该做的事情。你不能把社会学家该干的事情推给统计学家去干。他们能够帮助你得到 正确 参数的最佳估计。但是,参数应该有哪些,你自己并没有搞清楚。这里的教训是(我知道你已经领会了,但还是要加深下印象):花费太多的时间担心那些花哨的枝节,没有太大意义。狄德罗(Denis Diderot)曾经写过一个愚人,他不敢向大海里撒尿,因为怕担上把人淹死在海里的罪过。你应该担心的是遗漏变量(omitted variables),那才是真正能淹死人的东西。
远离OLS有时候确实很有必要,但是在多数情况下,它并不是关键所在。事实上,在假定被违背的情况下,OLS仍然很稳健。面对取值范围有限的计数数据(count data),它给出的确实不是 最 佳 估计,但是也不会太离谱,即便数据是二分变量。此外更重要的是,它与数据的某些独立于模型的(model-independent)性质有着密切的关系。回归方程中的“斜率”系数,你可以把它解读为某种因果效应估计,但也可以把它理解为重新标度后(rescaled)的偏相关系数。这种描述性的解读方式非常灵活。如今的方法专家都会告诉你说,要尽可能接近行为模型(behavioral model)。我认为,这种说法有些片面。有些政治家会讲要“致力于和平,立足于备战”,我会说“致力于模型建构,立足于数据描述”。接下来我要概述一下当前对于如何使用数据的通行看法,先从一些术语来讲起吧。
社会学家在谈论“模型”“测量”之类的词时有些草率;统计学家就比较严谨,在这一点上我们应该向他们学习。模型是对现实世界的陈述,它具有可检验的推论(testable implication)。它既可以是某种独立性的陈述(如古德曼提出的对数线性模型其实就是认定总体中某些变量并无内在关联),也可以是有关机制或过程的陈述(如因果路径或行为模式)。
通常,模型中都会有参数。这些参数可能有某种“现实”解释(如某类人做某事的概率,或者两种资源在交换时的“价格弹性”),但也可能没有直接的现实对应物。参数的 估计值 (estimates),其用处并不完全在于对它们进行直接的意义解读。它们的用处在于,我们可以用统计学检验来判定某个参数在总体中是否可能为零,借此来看数据是否支持我们讲述的那些“故事”。我们把这种做法当成一种原则性的经验法则(rule-of-thumb)。近来这种做法受到了许多人的严厉抨击(确实有其道理),但是我会捍卫这种做法。这里的关键是要知道,参数未必都有可解读的现实对应物,但它们仍然是有用的工具。
参数估计值与 测量 是两码事。 测量 指的是我们与测量单位(单独且逐次地)进行互动,以此得到信息的具体过程(我在《领悟方法》中专门讲过这一点)。然而,参数即便有某种现实意义,对它的估计也不涉及任何具体的互动过程。模型参数与 描述性统计量 也是有区别的,尽管有时候两者的边界有些模糊。描述是对数据中的信息进行汇总,它是 独立于模型 (model-independent)的。不管你对世界的认知是何种模型,均值都是有意义的 [1] ;它的 意义 也不会改变,除非你有意抬杠。与此相反,一旦某个复杂的模型(如结构方程测量模型)被否定了,那其中的某个参数估计值就毫无意义了。
优秀的数据描述的本质就在于此:它让你能够对数据进行汇总来简化它,给你一个入手之处;它能够展现出数据的内在结构,帮你理解某些特别有用的侧面,那些与数据本质和研究问题密切相关的侧面;与此同时,它不要求你对世界本身进行任何具体的假定。如果你有一个许多连续性变量的相关矩阵(OLS等模型处理的对象其实就是相关矩阵),那么经典的描述方法就是传统的因子分析。我上研究生的时候,因子分析比OLS还要受人鄙视。它没有任何理论内涵。迈克·豪特(Mike Hout)说,因子分析几乎就是巫术,不管你给的是什么数据,它总能够得出结果。我在第9章中会讲到,如果某种方法“总能出结果”,这通常是一种很坏的方法。但是,因子分析有一点与其他总能出结果的方法不一样,它的结果相当稳健。因子分析当然并不完美,你也不应该把它当成一种模型。它原本就不是 模型 ,它是描述,是对数据的简化。但是,这种简化很可能揭示了数据的一些关键特点。
邓肯(Duncan,1984b,1984c)提醒过我们,相关矩阵不是万能的。他说,要发现能够真正解释数据的结构性参数,数据的协方差模式远不是一个可靠的向导。但是,多数统计方法的基础其实都是奇异值分解(singular value decomposition)这一数学技术。我们用这种技术,把数据矩阵分解为了行空间和列空间。布雷泽和梅拉姆德(Breiger and Melamed,2014)已经说明,多数方法都可以看成是这些结果的重新标度(rescale)或者投影(project),前者如对应分析(correspondence analysis),后者如回归分析。因此,常见的线性模型可以看成是为了特定的分析目标而对统计描述结果进行的 投影 (projection),它和描述 并不是 非此即彼的。
有很多方法专家认为,最好先对人的行为假定进行理论建模,然后把这些转译成为数学模型,其中的参数就是对理论模型中某些关联的量化表达。对他们来说,OLS接近于数据描述这一事实表明了它有多么粗糙。但是我认为,我们最好能够使用尽可能接近于描述的模型,然后利用数据来剔除那些错误的理论。下面,我们来讲解用以指引这种工作的统计学使用方式。
[1] 如果你是个诡辩家,你可能会马上想出一些理由来反驳我。一个连续变量的分布有 N 个观察值,那么你就有分布的 N 个矩统计量(moments),它们都是描述统计量。一阶矩是均值,二阶矩是标准差,以此类推。利用这 N 个矩,你可以重建整个分布。对于某些分布来说,前两个矩就足以描述其特征;对另一些分布来说,可能需要四个矩。但是不管是什么分布, N 个矩足以描述其所有特征。因此你可能会说,有一些描述统计量对所有模型来说都是有意义的,但是另一些描述统计量只对少数模型来说才是有意义的,这里有一个连续统。你说得没错,但是这并不能驳倒我的论点。