统计学的书已经够多了,为何还要再来一本?更何况,作者还不是统计学家!
原因在于,如果你是实际做研究的社会学家,统计学家并不能帮上你的忙。他们很友善,统计学很有趣,但是 他们 想解决的难题和 你 想解决的难题不是一码事。事实上,我们将在本书中看到,很多时候,他们针对 他们的 难题而提出的解决方案,往往会使 你的 难题变得 更加不可解决 。
为什么会这样?因为统计学家的任务是确定参数估计与总体推断过程中的难题,然后尽可能解决。他们可以保证给你一个最佳的答案,但 前提 是你必须已经知道 正确的 模型。但是,在社会学里(以及多数社会科学里),我们并不知道正确的模型——我们并未完全掌握这个世界中发生的各种过程。如果有一天我们已经完全掌握了正确的模型,需要做的仅仅是确定数值估计,那我当然求之不得。但是,我们用统计数据分析想要做的,恰恰是要知道应该相信哪个模型。这与统计学家的任务是两码事,而我这本书要处理的就是这个任务。
你从事的是社会科学研究(如社会学、政治学、公共卫生、应用经济学),并且想从正规的数据分析中学到一些东西。你已经学过至少一门统计学课程,熟悉多元回归的理念。你应该能读懂一个方程,但是不必熟悉矩阵运算。你看过或者听说过一些很酷的新方法(如网络分析和空间统计),对此感兴趣。但是你不必非要量化一个变量对另一个变量的因果效应,以便对“干预”进行预测。有很多书是解决那样的问题的。但麻烦在于,我们实际面临的多数难题,是没有办法硬套到那种格式里的,那么做也不能帮我们把事情搞清楚。
对方法技术非常了解的读者可能会感到不耐烦。好多时候我还在耐心地逐步引导、用示例来说明时,你已经知道我要讲什么了。你会认为“这 显而易见 ,大家都知道!”但是相信我,大家并不知道。即便大家在课堂上学过,也很有可能忘光了。
我会在书里讲一些真事。也就是说,我会用真实的研究作例子。那些研究很优秀,但我有时候会直言不讳地指出这些研究中存在的错误。它们不是“我的做法与此不同”,不是“我的角度与此不同”,不是“我们可以做出更好的假定”。我会指出,错误就是错误。如果 我 说错了,那显得愚蠢的人就是我自己。我承认,我有可能 在某些地方 说错。在学术圈子里,这种毫无保留的批评会让人觉得很不舒服。
我以前也觉得这样让人不舒服。但是,我看到了优秀的研究被那些根本未能理解它的评审专家拒搞,优秀的研究者被拒绝给予教职。我意识到,回避矛盾的做法使得我们的学科在奖励那些草率而糟糕的研究。我在课堂上教书时会提到巴斯克的《宽恕与铭记》(我在《领悟方法》一书中讨论过这本书),那时我的这种感受尤其强烈。在那本民族志中,地位较高的医生坦陈说,他们即便知晓某位同事并不合格,甚至在伤害病人,他们也会缄默不语。年复一年,我读到那些段落都会感到无比愤怒。我想:“如果是我,我绝对不会这样!”但是有一天,我突然意识到,我和他们 没有区别 。我知道其他社会学家发表的论文里有错误,但我缄默不语。因为那样会让人觉得“太苛刻”“没风度”“不讲情面”。
这种我也曾持有的态度,其实是把审慎的私德混淆成了职业伦理。更直言不讳地说,这其实连私德都算不上。在我交往的人当中,学术圈是最为胆小怕事的。如果有人不那么胆小怕事,他就会被群起而攻之,因为他太爱“惹是生非”!
学术圈里还有一个习惯,就是爱用“复杂性”来掩盖对己不利的证据。把科学争论降格成255个字的“微博体”当然不对,但是我们也不应该用“事情很复杂”这种说法来推卸责任。面对有理有据的批评,你只要说一句“好吧,但事情比那更复杂”,就可以敷衍过去。但是,真理 不是 “这儿有点道理,那儿也有点道理”。你必须直面批评。你必须表明立场。
在某些点上,你会面临道路上的岔口。你要么相信你自己做的是社会科学,它是严肃的研究领域,它配得上人们的尊敬和支持;你要么相信它只是个笑话,或者一种娱乐,或者一种轻闲的差事。如果你和我一样选择前一种观点,那么你就不能允许自己的领域给那些错误的东西盖上同意的印章。我们需要同心协力,我们不是想 搞倒 哪个人,我们是想 巩固 我们的领域。你发现了别人研究中的错误并公之于众,并不代表你是个坏人;你曾经在研究中出现过错误,也并不代表你在这之前和之后不能做出优秀的研究来。
当然,我完全理解,这样做必然会招致人们更仔细地审查 我的 研究。从事研究以来,我就保留了我所有的中间数据文档和程序。如果人们发现了其中存在着令人难堪的错误,我认为至少这证明我的大观点是正确的:我们的实践使得坏研究排挤掉了好研究。
最后一件事:提升社会科学水平最快的一种方式就是,那些顶级的期刊要拒绝发表任何不能公开自己数据的论文。你不一定要公开 整个 数据集,但是你要公开让别人可以重复你的分析的那些数据。是时候这么做了。
我会在各章之间保持符号用法的一致性。因此,虽然我会尽可能保留引用作品原有的符号用法,但为了明晰起见,我会进行一些修正。一般而言,随机变量会用斜体来表示(注意,一个“随机”[random]变量仅仅表明它可以取分布中的任意值,而并不表明它本质上是“随机生成”[stochastic]的),常数项也会用斜体来表示,但通常会是小写。如果有一个自变量、一个应变量、一个控制变量时,我会分别用
来表示自变量,用
来表示应变量,用
来表示控制变量。我会用黑体的小写字母表示向量,用黑体的大写字母表示矩阵,但是在我要强调它们作为随机变量的性质时(而非元素的组合),我会把它们都写成斜体。我在讨论集合和集合的元素时,我会把它们写成斜体,但集合的元素用小写表示,集合用大写表示。在不会引起混淆时,我会用
X
来表示一组自变量(而非完整的数据矩阵)。
在讨论包含误差项的数据集的组成时,我会用
代表这个误差项。这个误差项的分布或者会被描述为
,这代表一个均值为
、标准差为
的正态分布;或者会被描述为
,这代表一个位于最小值
和最大值
之间的均匀分布。为了简明起见,我一般把系数表示为
,而不去区分样本系数和总体参数。模型的截距项(常数项)表示为
。
对于多数数据结构来说,下标
表示某个个体(全部观察数为
),
表示某个情境(全部情境数为
),但是在二元数据(dyadic data)中
表示某个方位(全部方位数为
),
表示某个变量(全部变量数为
)。当一个数据矩阵的列数不等于变量数时,我会用
来表示其列数。因此一个传统的数据矩阵会表示为
(例如,有些列可能是变量的交互项)。最后,不同的行动者会用
、
、
来表示。在第一次提及某些重要术语时,我会用黑体来表示。
关于词语的用法,有两点要说明。
第一,“data”(数据)这个词原本是一个复数名词,它是“datum”的复数形式。但是,它现在有变成“不可数”名词的趋势。这听起来有点滑稽,因为“数据”原本就是为了计数。在本书中,当这个词的用法更强调复数和区分时,我把它当成复数名词;在其他场合,我把它当成单数名词,这样听起来会顺耳一些。类似地,当“statistics”用来指某种数据形式的统计量时,我把它当成复数形式;当它用来指调查领域中积累起来的智慧时,我把它当成单数形式。
第二,我经常使用“经得起推敲”(defensible)一词来表示“这样做是可以的”。此时,我并不使用“正确”或“正当”。因为我们必须承认,在很多情况下存在着多种分析路数。它们虽然差异很大,但都合乎情理。如果我们审视一种分析路数的每一步选择,都找不到明显的不当之处,那它就是“ 经得起推敲” 的。你自己可能不选择这种做法,但是你能够看出它是有逻辑的,并没有明显的薄弱之处。
这好像是一个相当低的标准,其实不然。一种分析路数通常会包含许多项决策,它的强度取决于其中最薄弱的一环。在很多研究中,其中的某一环节(即我们最强调的那个环节)特别强韧,但其他环节太过薄弱。如果我们的每一项研究都能达到“经得起推敲”的标准,那就很厉害了。
最后,我给用来生成示例的每个R程序代码进行了编号,如R 3.1就表示第3章中第一个示例的程序代码。你可以扫描旁边的二维码获得这些程序。我这些程序写得很简陋,我当年学编程时用的是早已被淘汰的编程语言FORTRAN。但是它还算清楚,能让人明白。我欢迎读者改进这些程序!
第1章说明了我们面临的难题,解释了现存的统计学书籍无法帮助我们解决这一难题。这一难题就是,我们不得不在如下条件下从数据中获取知识:“真实的”或“最佳的”模型并不确定,而且模型参数并不对应于任何实际的社会过程。对于统计分析在社会科学中能够发挥的作用,我提出了一种比多数现存理论都更贴合研究实践的看法。我们的目标并不是参数估计,而是从数据中获取知识,参数估计只是达到这一目标的手段。
第2章的重点是要说明,进行任何计算前都要先了解数据,如果不这样做,你会遇到各种各样的麻烦。
第3章简略地讨论了因果性的概念,介绍了对选择性(selectivity)难题的传统思考方式,它强调从观察数据中 难以 推出因果模型。即便你的研究目标并不是因果推断,这些思考方式也非常有用,因为我们面临的真正难题就是这些重要的未观测变量引发的。从选择性的角度来思考问题,能够帮助我们在分析时发现此类陷阱。
很多社会科学家的研究目标未必是得到干净的因果估计,他们更多采用“控制变量”的策略。在第4章中,我讨论了如何用控制变量是好的用法,如何用控制变量是差的用法。
接下来的几章讨论了更复杂的数据结构。第5章从 变异 (或 方差 )的议题着手,强调研究者必须了解数据中的大部分变异落在了哪里。在此基础上,我们讨论了“嵌套”式数据结构。在这种数据中,主要的变异可能落在不同的层面,此时,我们要确保数据分析与理论命题是吻合的。
第6章讨论了在比较多个单元(units)中某种情况出现的“可能性”时会遇到的陷阱。比如说,哪些单元是一些聚合体(如城市),哪些情况的出现是某个计数变量(如城市中的教堂数量)。我们有一些经验法则来应对这类问题,但是这些经验法则的不当使用可能导致虚假的结论(即不符合事实)。
接下来的几章讨论了观察嵌入于某种时空分布(embedding)的数据结构。这些时空分布,其实隐含着某些未观测变量的信息。第7章中讨论了时间分布和地理空间分布,第8章中讨论了社会空间(即社会网络)的分布。我们往往以为,某些操作(如固定效应模型)能够“抵消”掉这些时空分布的效应,其实由于时空分布中隐含的那些未观测变量的作用,即便做了这些操作,案例也仍然彼此相关。这时,我们很容易得出一些虚假的结论。
第9章讨论了三种“好得让人生疑”(too good to be true)的分析方法:潜类别混合模型、定性比较分析、微观模拟仿真。使用这些分析方法有所发现的门槛非常低,甚至根本没有门槛,因此很容易得出虚假的结论。
最后,“结语”把各个线索归拢了起来,然后讨论了研究伦理问题。
我要感谢肯·弗兰克(Ken Frank)和汤姆·迪兹(Tom Dietz):他们是手稿的审读者,推动我在数个方向上的讨论更为深入。与他们的交流令人愉快。另外一位匿名评审也提出了重要的指正意见。能够与出版社的凯尔·亚当·瓦格纳(Kyle Adam Wagner)、李维·斯塔尔(Levi Stahl)、玛丽·柯拉多(Mary Corrado)、琼·戴维斯(Joan Davis)、马特·埃弗里(Matt Avery),以及道格拉斯·米切尔(Douglas Mitchell)合作,真是我的荣幸;我对他们的贡献、包容和善意心存感激。乔·马丁(Joe Martin)制作了第7章中的新泽西地图,谢谢你!
我把手稿中涉及到研究实例的部分(好多是对研究的批评)寄给了这些研究的作者。这些研究者指出了我在分析时存在的很多问题:对他们的工作有误解、夸大其词或其他错误。我深深感谢他们的指正,从中受益良多。马修·萨尔加尼克(Matthew Salganik)阅读了第8章,他可能未见得对我的看法都同意,但他真的是很棒的对话者。
我想致敬许多学问优秀、人品卓越的方法学者。我很幸运,能够受到他们的惠泽,其中有些人,我甚至有幸得到了他们的亲身教授。
首先要感谢迈克·豪特(Mike Hout)。我曾经一度是在反对统计学阵营中的,是他让我认识到统计学的魅力。他向我展示,如果你想了解社会世界,那么数字往往是重要的途径。
其次是利奥·古德曼(Leo Goodman),他的著作一直是我思考统计学过程中的指引;有他这样的老师和同事,我真是太幸运了。
还有罗恩·布雷泽(Ron Breiger)。布雷泽是我在本书中提出的那种数据分析路数的真正先驱。如果你了解布雷泽在数理社会学方面的研究,特别是他与同样卓越的菲利帕·帕蒂森(Philippa Pattison)合作的研究,你就会知道当在理论上有必要时,他的头脑能够处理最为晦涩难解的复杂问题。但是他却反过身来,去努力打牢我们技术的 基础 ,以便在任何具体情况下我们都可以真正理解自己知道了什么,自己能知道些什么。他把这一切与对世界当中规律性的本质的深刻理解联系起来。我曾经有幸看到过他的某些研究在发表之前的初稿(有时就是在一张餐巾纸上的草图),那让我及时地改变了自己的想法。
第四位是我最好的老师之一:亚当·斯莱兹(Adam Slez)。遇到亚当之前,我自认为是一个有点过于严苛的人,会强迫学生反复推敲他们的发现,尝试其他解释方式,但是私下里我也会怀疑这样做是否值得。现在我不知道怎么做才对的时候,往往会问自己:“如果是亚当,他会怎么办?”想到如果自己偷工减料就会让他失望,这比其他东西更能激励我。
第五位是赫伯特·海曼(Herbert Hyman)。我上本科的时候,有幸参加过海曼的数据分析讨论课。我当时不以为然。直到我在快写完《领悟方法》时,又读了他1954年写的有关访谈的书。我才震惊地发现,对于访谈中的社会心理过程,他的思想早已远远超过我们现在的理解。如果我能亲口告诉他这一点就好了。斯人已逝,记忆永存。
第六位是奥蒂斯·达德利·邓肯(Otis Dudley Duncan)。我并不认识他,但是他对我影响巨大。我在几乎一切事情上都站在古德曼这一边,但是有一件事我不赞同他:他曾经用统计推论的利剑来打击哈利森·怀特的数理社会学(这场有关群体规模模型的争论几乎被人遗忘了,但我在本书中会提到的)。但是,对于邓肯的为人,我却无可挑剔;他对我来说不仅是一位方法学者,而更像是教父。邓肯致力于一门真正 严肃 的社会科学——在其中个人的成就会变得过时,而且越快越好。他创立了一些重要而精彩的方法,但是一旦有更好的方法出现,他就呼吁人们赶快把那些与他的名字紧密相联的方法扔掉。我热爱邓肯的一点,说起来略有些令人心伤而无可奈何,正是他承认自己成就的局限性。他的《社会测量笔记》( Notes on Social Measurements )其实是卓越的自我批评,他永远在寻找更好和更严格的方式。他对于心理测量的热情激发了豪特,然后豪特又传给了我。我们永远怀念他。
第七位是斯坦利·李伯森(Stanley Lieberson)。李伯森力图让我们更加严肃地对待自己的工作,绝对不要用一些肤浅的数学来掩盖自己
概念
上的虚弱。他不仅呼吁人们远离垃圾式的研究,而且以身作则树立了优秀的榜样。本书希望沿着他开创的路径再有所前行。研究者都应该去读一下他写的《把它落到实处》(
Make it Count
)
。
最深的敬意,我要献给吉姆·威利(Jim Wiley)。他是我的导师。我们合作过许多重要的研究项目,但好多研究成果我们从未发表。他热爱数学,热爱难题。但是,在我们从事“青年健康研究”的时候,我搞出来一些非常酷炫而复杂的统计模型,他却拒绝看上一眼。他只是埋头于一大堆表格,反复琢磨。他对我说:“约翰,这是公众健康。我们出个小错,是要死人的。”那句话让我清醒,让我铭记。这样的事情,还有好多好多。我要把这本书献给威利,我的良师和益友。在他身上集中了我认为的科学家的所有宝贵品质:热爱这个世界;热爱自己的手艺;热爱周遭的世人。这本书集中汇编了从数据中学习的核心原则;那些原则都是我从他身上学来的。如果我们都能像威利一样,世界会更加美好。