购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

实用主义的看法

统计学是什么和应该是什么

“统计”这个词源自何处,人们对此并没有一致的意见。这个词的意义很含糊,它既可以指作为分析对象的那些原始材料(即那些数字),也可以指用来分析这些材料的工具。我们可以肯定,最开始时这个词只是指前者。这个词的英文词根来自“state”,而“state”又有两个意思:一方面指“国家”,一方面指“状况”。因此,统计兼具这两方面的意思,它最初指的是“能够表明国家状况的那些数字”(参看Perason,1978;Stigler,1986)。

但是,作为应用数学分支的统计学起源于如下发现:用一个有限的甚至相当小的样本就可以估计出(1)总体中的某些数值特征的取值(如平均身高),(2)总体中的方差,(3)每一种估计的误差可能有多大。这是统计学的核心——“中心极限定理”。“中心”一词不是用来修饰“极限”的,而是用来修饰“定理”的。它是统计学的基础。统计学就是研究如何从样本推断总体的。

统计学对于推断的强调始终如一,而关注对象逐渐从描述统计量(如均值或相关系数)转移到了模型参数(如回归系数)上,由此引入了一种新的误差类型。一个回归系数出错,有三种可能的方式。第一种是 计算 出错了,放到现在来说就是程序写错了。第二种是计算虽然正确,但是样本中的值仍然不等于总体中的值,而后者才是我们想了解的。如果样本是完全的,我们就能得到正确的值。这是 推断 出错了。第三种是计算和推断都没有错,但是模型是错的。这是 提问 (interrogation)方式出错了:不是人家给出的答案不对,而是我们自己原本就没提对问题。对于描述性统计量来说,错误只可能来自于计算错误和推断错误;对于模型来说,错误还可能来自于我们提问方式的错误。

麻烦的事在于,通常我们学习的统计学对于提问方式的错误很少提及。在统计学当中,你必须知道事情本身是怎么回事(或者至少可能是怎么回事),然后还必须有对这些因素的测量,然后统计学才能够告诉你正确的估计值是多少。否则,它就帮不了你。那么,我们该怎么办?有一种说法认为,我们应该用数据来检验理论。我可以非常确信地说, 那种 方式的效果不好。

对于应该怎样做社会科学,我有一种建立在实用主义(特别是皮尔斯[C. S. Peirce]和杜威[John Dewey])思想上的基本看法。(如果你对此不感兴趣,完全可以跳到下一节。)这种看法对于数据与知识的关系比现在的主流看法更为自洽,更能够帮助我们在实践中提高研究水准。依据这种看法,你首先必须有一些很感兴趣却又不理解的东西,其次要想出对此有哪些可能的合理解释(plausible explanation) ,然后利用数据进行裁决。

当我们想出对此有哪些可能解释时,千万不要只局限于自己提出的“理论”,而忽略掉其他社会科学家会感兴趣的假设或解释。如果“理论”指的是“大家都已经知道的东西”(如“板块构造理论”),那么你的研究应该以理论为指引。如果“理论”指的是“我自己的预设”或“我自己的主张”,那么先预定了理论再进行分析就是在浪费时间。就算你有天大的理由,也没有资格想忽略什么就忽略什么(第9章中我们会看到,这样做会导致非常糟糕的结果)。

你不能只从 你自己的 理论出发,而是必须顾及研究共同体中的各种不同看法。尽管这一理念不符合传统观念,但是它符合安德森提出的新钱伯林主义(Anderson,2012)。这种实用主义对科学工作的看法,与统计学对科学工作的通行看法有很大差异 。按照传统科学哲学的看法(这是指导大多数统计实践的频率学派[frequentist]的基础),你要从零开始构建模型。你要独立提出一个针对现实的模型,然后去检验它。然而,此时你必须同时检验无数事情。要检验“收入是否影响投票”,你必须要考虑“这个变量测量的是收入吗?”“中心极限定理适用于此吗?”,甚至“其他人有意识吗?我怎么知道自己不是缸中之脑(brain in a vat) ?”你必须确保每一个假定都能经得起推敲,结论才能成立。

这种实用主义对科学工作的看法,与贝叶斯学派也有差异。在贝叶斯学派看来,在对从经验世界获取到的证据进行解读时,你应该把你对世界的理解和信念融入其中。坚定的贝叶斯派会认为,如果你 真的真的真的真的真的真的真的真的真的 (9个“真的”)相信资本主义生产方式比社会主义生产方式更容易导致心理健康问题,你就有理由给这个模型赋予0.9的先验概率值 。但是,实用主义把科学理解成 共同体 的事业,认为没有人可以单方宣布某件事是可能或不可能的。

此外,在实用主义看来,我们做研究不是从零开始的,而是从现在的立足之处开始的,即我们普通人以为我们了解的那些东西。你未必能够证明这些是百分百正确的,这些东西可能是根本没有根基的,但 就是我们的立足之处。它们在哲学上未必能够经得起严格推敲,但是且让我们用科学来改进它们。有些日常知识可能是错的,但如果它不太重要,那就由它去。如果它真的重要,现有知识又不够好,那就让我们试一试用科学吧。

换而言之,只要统计分析能够改进我们从日常生活中以为自己知晓的那些东西,那么即便量化过程当中仍然有很多不精准之处,我们也要严肃地对待这些证据。我们的目标,是利用数据的威力和方法的严谨,在人们选择接受何种解释的过程中施加影响。我们应该如何达到这一目标?

我主张,我们在实践中要采用严格的 证伪主义 (falsification)。现如今,证伪主义已经被人当成是落伍的思想;提到证伪主义,人们就想到那位古板的德国科学哲学家波普尔(Popper,1959[1934])。很多人对波普尔的理论以及证伪主义的批评都是有道理的,但是那些批评对我们来说不重要。证伪主义作为一种科学哲学也许确实有问题,但作为指导 我们 实践的原则,它是一种好办法。我们使用统计学,不应该是为了估计真实世界的参数值,而是为了排除那些与现存证据不一致的对世界的解释方式。

在各种勾连证据与解释的可能方式中,证伪主义与我们使用统计学的现实情况最为相符。我们可以把对某一现象的所有可能解释想象成一个平面,如图1.1左边部分所示。按照传统统计学的看法,我们要先提出一个模型,然后再估计其参数,估计量越精确越好(形象地讲,围绕星形的半径越小越好)。但是,一旦真实情况远离我们的起始模型,我们就会连真实情况的边都摸不着。我们使劲地收紧缰绳,殊不知公牛早已经脱缰逃走。

图1.1 使用统计学的传统方式和贝叶斯方式

你可能会说,传统的方法就是证伪主义。我们做的不就是否决零假设(null hypothesis)吗?我们不是一直就在证伪模型吗?其实不然。在传统方法中,多数情况下我们否决的是某个参数,而不是模型本身(只有有些对数线性模型会对模型本身进行检验)。我们否决了模型中的某一个 参数 ,但是不会因此就说:“看来 这个回归分析背后的整个想法并不真实 。”

你或许认为,贝叶斯方法可能能够帮助我们避免“不断收紧一个空缰绳套子”的窘境。贝叶斯方法据称不仅可以得到更佳的最大似然估计值,而且扩展了我们对世界的视野。贝叶斯方法能够同时考察一系列可能的模型,然后选择出最佳的模型,还能够把模型的不确定性纳入到参数估计中。(其实,那些传统的统计学路数在融合了信息理论之后,照样可以达到这些目标。)但是,贝叶斯方法也只能考察这个空间中的一小部分。即便有一些更具野心的方法试图考察多种连接函数和多种变量组合,它们仍然局限于一小部分变量,而且肯定不能包括那些“未意识到的未知因素”(unknown unknowns)(请参看图1.1的右边)。许多贝叶斯方法能够用在我提倡的这种证伪主义路数中,但是我在此并不会讨论它们。原因很简单:尽管贝叶斯派的思想历史久远,但是具体技术的兴起为期很短。现在进行“完全贝叶斯”技术分析越来越便利。利用这些技术,我们可以在估计参数及其标准误时考虑到不确定性因素(即我们对于不同模型的先验信念与后验信念)的影响,可以在拟合度和简约性之间权衡,以选择合适的模型。这一切全都是 好事 。但是,一来这些技术也并不是一劳永逸的仙丹 ,二来我们需要一段时间才能找到“感觉”,知道这些新技术在实践中该如何使用。既然 所有 的工具都并不完美,最好还是使用那些你对其优点和缺点都已经很明白的工具——与此同时不断开发新工具。

因此,最重要的事情并不是如何精准计算具体的数值,而是要有一套能够指导我们在各种模型中进行有效探索的工作逻辑。如果没有一套这样的工作逻辑,你否决了一个错误模型,很可能又落入了另一个错误模型,而错误模型的数目是无穷多的。我们希望,在不断否决错误模型的过程中,推断能力能够不断增加,能够不断逼近更好的模型。我们不能只是盲目尝试,而要在否决错误理论的同时,选择更为接近真相的理论。

证伪主义的工作路数是这样的:首先提出一系列的可能解释,然后试着提出一个问题,对这个问题的回答将整个空间分为了两部分(参看图1.2中的左图)。这种问题即检验1,但它并不是那种“一锤子敲定”的“决定性的检验”(critical test),它只是认定证据更有利于某一方而不是另一方。之后,我们再提出一个相关的问题(参看图1.2中的右图),进一步去缩小选项的范围。最终,我们把范围缩小到了这个空间中的右上区域。这个区域有两个重要特征:第一,它涵盖了这三个竞争性理论中的其中一个;第二,它同时涵盖了现实情况。这种路数的优越之处在于,即便还有一些“未意识到的未知因素”(unknown unknowns)存在,即那些影响我们的发现但我们没有意识到的因素,我们仍然加深了对各种可能解释的理解,从而得到了非常有用的结果。

图1.2 证伪主义者使用统计学的方式

需要强调的是,这只是一种 理想 状况。我们往往并不能断定某一部分空间“完全没有可能”,而只能赋予各种假设不同的可信度,认定证据更有利于某一方。这可以用数学形式表达为各种信息标准(information criteria)。我认为,只要是同一个研究共同体,都可以在内部进行类似的事情,即便有些答案是无法用数学形式来表达的(如一种理论的证据是民族志,另一种理论的证据是统计分析)。这样的做法确实不容易,但确实更好。下面我们来看看在实践中如何贯彻这种做法。

具体的做法

下面来看一下,我们如何具体地用统计来达到上述目标。举例来说,你有一个关于投票的数据,想借此研究人们的政治行为。你可能会拟合政治投票对收入和教育的回归方程,然后想尽办法去确定教育对于投票行为的“因果效应”是多少。但是我认为,所谓的“因果效应”在现实生活中指涉的到底是什么,其实很难说得清楚,而且即便这种东西确实存在,我也不相信你用统计方法能够真正地捕获它。许多统计学教材会说,如果确定不了因果效应,你就应该放弃这项研究。但是,我们完全可以发挥回归结果在描述上的功效,以此来裁决不同的解释,而未必需要去捕获现实世界中的因果参数。

还是用前面的例子来说,研究者比较教育程度较高的人和教育程度较低的人,发现教育程度较高的人投给共和党的比例更高。他想出了一种解释,认为教育程度更高的人对经济政策的复杂性和预算平衡的必要性有更为准确的把握。这类经济政策通常是共和党的主张,因此教育程度更高者更可能支持共和党。这是一种故事或者说法。面对这种说法,一种分析路数是把教育当成一种“原因”,它面临着很多的“混淆变量”(confounders)。然后,你去竭尽全力来确定这个因果参数的正确估计值。

但是,还有另外一种分析路数。你就把这当成一种 比较 ,对教育程度较高的人和教育程度较低的人的比较。按照上述观点中的逻辑,如果你按收入水平把样本分成几组,那么在每一组中教育程度较高的人仍然更可能投共和党的票。也就是说,在收入分组之后,他的解释应该继续成立。你按收入水平把样本分成了十个组,然后考察 每一组 当中教育程度较高者和较低者对共和党的投票率差异。结果你会发现,教育程度与共和党支持率的关系消失了,甚至反过来了:在每一个收入组中,那些教育程度较高者 更不可能 投共和党的票!

我们由此认为,前面那位老兄的说法并不可信。现在,我们也明白了 为什么 它不可信:在样本中,教育与收入是相关的,那些家庭收入更高的人更可能投共和党的票。换而言之,“教育和投票之间的关系”与“收入相同时教育与投票之间的关系”完全不同。你得把这两种关系都搞懂才能理解美国政治。

我们按收入水平把样本分成了十个组。如果十个组当中教育与投票的关系都比较接近,我们就不必用十个数字来表示这种关系,只需要用一个数字就够了。这个数字,就是回归方程中的斜率。如果用矩阵计算的语言来讲,上面的做法就是对一个复杂的数据空间进行处理,为了忽略掉次要维度先进行旋转,然后再投影,以此来回答一个有关复杂比较的问题。

我们这样做是基于线性 假定 的:在那些(对变量进行交叉分类而得到的)小类中,教育与投票的关系是一样的。我们认为上述假定 合理 ,那是因为有如下原因:(1)过去我们曾经发现过此类简单的关系;(2)我们没有足够的数据来继续深究;(3)我们对此不太在乎——即便错了也不会有什么大麻烦。(这听起来有些过于随意,但是在进行严肃的研究时,我们必须合理地安排自己的精力,对每一个细节都深究是做不到的。)如果把回归比较弄得 太过 复杂,那么就很有可能什么结果也得不到。只加入一个线性假定,这无关大碍。再加上一个假定,比如说两个预测变量之间彼此独立,它就不那么牢靠了。再加上十多个假定,它牢靠的概率基本上相当于中彩票。总而言之,我们利用回归模型,一方面是要发现数据中存在的相对稳健的模式,另一方面是要排除对这些模式的某些错误解释。

当然,人们 可以 想出一些理由来,说明那位老兄说的故事仍然有可能是对的。我们有可能用 另一个 变量来进一步分组,结果结论又反过来了。或者,我们仔细琢磨之后,发现还有一些理由说明他可能是对的,只是无法用现有的数据来证明。但是,这时候举证的责任(burden of proof)就换到了对方身上。除非他能够提出极其确凿的证据来, 那个 说法就会被否决。我们就此彻底理解了教育与投票之间的关联了吗?不一定。但是,这样做起码要比 认定 教育以某种神秘的方式 引发 了投票,然后去 估计 这种因果路径的强度要好些,因为那样做你了解不到新东西。

总之,在此统计学并不是用来估计你设想出的某种故事中的参数,它恰恰是用来 否决 某些故事的,是用来证伪某些观点的。我们通过描述会发现一些简单的模式,对此有各种不同的可能解释,我们想用数据来否决其中的某些解释。统计学的任务,是确保我们尽可能否决那些 应该 被否决的解释,而不是那些不应该被否决的解释。如果最后经过上述考验的解释接近于“真实”的情况,我们就胜利了。

让我给你们讲一个真实的例子,来说明这种方式的合理性。我的第一本著作《社会结构》出版以后,尼尔·格罗斯(Neil Gross)在《当代社会学》杂志上发表了一篇非常细致的书评,但是调子是全面否定性的 。所以,当我知道他正在研究的问题是“为什么教授们全是自由派”时,我真是好开心。因为这个问题如此困难,几乎不可能回答好,何况他还并不是一个统计学专家。我需要做的就是冷眼旁观,等着他摔倒在地,然后再若无其事地跨过去。

实际上,最后他做到了(Gross , 2013)。他怎么做到的?他并没有把一切都押在某一个模型中的某一个系数上。他先是摆出了一个稳健的发现:教授们中很大比例都是自由派。然后,他对于这一事实精心构建了各种各样的不同解释:自我选择,他人的劝阻,捕获,皈依。之后,他审慎地考察我们拥有的各种不同证据,通过多变量分析来发现那些相对稳健的结果,不断地评估证据更偏向于哪种解释。最为重要的是,他在这样做时努力地把自己的调查立足于对一个具体切实的过程的理解,即一个人的职业生涯在其生命历程中如何展开。他从来不指望对一个简化模型中的一个参数进行“正确”估计就能够万事大吉。

总之,我们有点太害怕模糊性了:因为 只有 客观世界是如此这般时,我们的统计学工具才能完全经得起推敲,所以让我们 假定 客观世界就是如此这般地吧(参见Gigerenzer,1991)。 我认为,我们不能这样自欺欺人。我们应该采取更为现实的工作方式:探究不同的解释,反复进行检验,以此从数据中获取新的知识。但是遗憾的是,在课堂教学中,这样一种工作方式却往往被当成了最 差劲 的做法!

“过度拟合”与“从数据中学习”

在读研究生的时候,我们都被告诫说要远离“数据挖掘”(data mining),不要从数据中搜刮各种有趣的发现。理由是,我们学到的统计学都要求你(在不了解数据的情况下)先来构建假设,再来检验假设。你在掷硬币前得先说明白自己要的是正面还是反面,否则这是没有意义的。如果你 确实 得先 看一眼 数据才能有假设,那就把数据分成两半,一半用来看一眼,另一半用来检验。

我们先来重温一些基本概念。 拟合 (fit)是指预测对真实的接近程度。 模型选择 (model selection)是指选择相信哪个模型。最好的模型,通常并不是拟合得最好的模型。为什么呢?因为对 这些 数据拟合得最好的模型,很可能对 另一些 数据拟合得很差。它把眼前的这个数据当成“最后的决战”(the last war)来对待。在两个拟合一样好的模型中,我们更偏好参数少的模型。这不是因为我们就是喜欢简约,而是因为参数较多的模型中很可能包括了一些只用来拟合 这个 样本的特殊之处的参数。但是,模型选择所要决定的是总体当中哪个模型更可能成立,所以我们必须综合拟合度和简约性两个方面来下判断。拟合只是针对 这个样本 而言的,所以在推论总体时,我们必须克制自己过度拟合的愿望。花太多精力来看数据,这提升了拟合度,却降低了我们进行推论的能力,因为过度拟合的模型对总体来说是错误的模型。因此人们总结出一条规则:不能基于数据告诉你的东西来选择你的模型!这种基本理念可以追溯至弗兰西斯·培根

上述结论是从统计学的基本原理中逻辑推导出来的。但是,在我认识的数据分析高手中,没有一个人会那样做。他们都会细致地察看数据,来了解真正发生的过程是怎么回事。确实,有时候会有“过度拟合”:我们得到了“假阳性”(false positive) 的结果,表面上看起来我们的理论是成立的,其实这只是由于 这个 数据的抽样波动而导致的运气罢了;换了另一年的数据,我们就得不出同样的结果了 。但是,对数据进行细致察看的研究者,得到“过度拟合”结果的可能性要比你以为的低得多,甚至比那些循规蹈矩的“检验者”还要更低。如果采用正统的方法,在四十次研究中,由于抽样误差的存在,可能会有两到三次得出错误的结论。这已经是这种办法能指望的最好结果了。但是,如果你细致地察看数据,得到假阳性结果的可能性会比这更小。

原因如下。传统的“检验者”事先有一个她希望真实的假设。比如说,她希望反驳那种认为只有女人才会支持“女性主义”(在反对传统性别角色的意义上)的观点。因此她找到了抽样数据(比如说综合社会调查GSS),结果显示在对非传统的女性性别角色的支持程度上,男女两性的差异并没有统计显著性(我大约在1993年做这种分析时情况确实如此)。但是,有批评者会说:“这可能是由于男女两性在教育上有差异。”我们的研究者很紧张,赶快把“教育”作为控制变量加入。结果并没有什么变化,性别参数仍然不显著。谢天谢地!

在这样一种“理论检验”的工作方式中,研究者并不想从数据中了解到新的东西。她的心思全都放在了保住自己的理论上,她并不关心事先未曾想到的任何东西——除非别人向她指出来。即便有人向她指出来,这种提醒也不会帮她对背后的那些社会过程或社会模式有更为清晰的认识,而只会进一步模糊她的视线。她的目标是,一方面努力保住自己的发现,另一方面通过塞入更多的控制变量来照顾一下别人的想法。这样做的后果是,控制变量越多,她就越搞不清自己到底在做什么。(在第4章里,我们会详细讨论控制变量的问题。)这种方式,其实是在鼓励你在差不多的地方就要 收手 。所以,这种研究策略其实并没有看起来那么“严谨”!

真正严谨的策略是,我们并不能止步于当前的主导性解释(即便我们认为“并没有什么事发生”),而是要继续从中推导出 其他 可检验的假设来。研究者发现了性别系数并不显著,但她不会止步于此,因为她想真正了解男女两性到底是什么情况。她会想:“如果男女两性确实是一样的,那么我把样本按性别分组以后,在每一组中预测变量的系数都应该是相同的。”她这样去做了,发现教育变量的系数在两性间是相同的,但是收入变量的系数在两性间是有差别的。

为什么会这样?这时,研究者关心的不只是检验自己的假设,而是要对事实有真正的了解。她继续深究,发现收入变量测量的其实是 家庭 总收入。也许我们得搞清楚这到底是 谁的 收入。她把样本中那些已婚且夫妇双方都有工作的人筛选出来,把家庭总收入分解为男性收入和女性收入。猜猜你会发现什么?女性的收入越高,她的传统主义倾向 越低 ;男性的收入越高,他的传统主义倾向 越高

真正的研究者到此仍然不会止步。真正起作用的到底是女性收入的绝对高低,还是女性收入占家庭总收入的相对比例,还是她参加工作这一事实?我们可以分不同年份来构建模型吗?模型系数在不同年份会有什么变化吗?等等。这种做法会被人抨击是在“数据挖掘”,但是它比起只是检验原有假设更可能有真正的发现——你沿着当前假设指引的方向一直前行,直到发现这条路走不通了:所有的东西都很吻合,但这表明你应该能看到X,可是X并不存在。这时,你必须修正你的当前假设才能继续前行。这就是我们称为“学习”(learning)的过程。在这个过程里,我们更看重的是 稳健性 (用不同方式可以得到同一发现)和 内部效度 (对不同发现的解释可以彼此印证),而不是统计显著性(即那个似乎带有魔法的星号*)。

此外,这种方式有助于你牢记数据背后其实是实在的事例和人。你在思考问题时会落到实处,而不是急于去检验某种抽象的理论。它是你要解开的谜题,但是就像优秀的侦探一样,你要先确定作案的嫌疑人,再去判断他们的作案动机。我的这一发现背后,是哪些人在行动?哪些人在关键变量上取值较高?哪些人取值较低?促成了这一现象的,是那些取值较高的人,还是取值较低的人,还是他们共同促成的?

你可能对这种探究数据的做法仍然心怀忐忑,因为统计学老师告诉过你检验前先看数据就是在作弊。那么你可以去问一下老师,是不是 整个科学共同体 对于一个研究问题也只能有一次检验。他应当会说,绝非如此。我们要在以往研究结果的基础上,提出新的假设,然后检验它。既然如此,在 自己 以往研究的基础上,提出新的假设再来检验它,凭什么就是错的?凭什么同样的事情,我隔壁办公室的人做就是对的,我自己做就是错的?

科学确实是通过构建假设来进行的。但是,这是一件你往往需要 在一星期里做十多次 的事情(我在《领悟方法》里提到过这一点)。你不断地探究数据得到假设,不断地在数据中检验其中蕴涵的各种推论。如果不这样做,科学的进展就会变得过于缓慢。科学共同体作为一个整体可以这样做,你也可以这样做。

裁决的标准

对不同解释进行比较与裁决时,一个重要议题就是在统计上的裁决标准应该定在哪里。我们要明白,要解决的问题不同,要比较的对象不同,应当采用的标准也就不同。在经典的统计学中,比较的对象主要是零假设。那些零假设通常是这样的:“事情完全是随机的”;“这个变量一丁点影响也没有”;“事情之所以这样,就是因为抽样时运气不好”;等等。这些假设一听就不靠谱。因此在检验 自己的 理论时,如果比较的对象是那些零假设,那标准就要定得严一些。你不能因为自己比一个笨蛋强一点,就证明自己很聪明,因为这并不能说明你的主张比所有 其他 假设都更令人信服。这就好比,爱因斯坦不会因为自己比一个木偶人莫蒂默·斯纳德强,以此来证明自己是对的。

对一组模型进行比较(这组模型可以包括但不限于零模型),然后看证据更支持哪个模型,这种方式更好一些。但是,这种方式相当于给所有的模型赋予相同的权重,这一点未必合理。因为不同的解释实际涵盖的范围大小其实未必相同,这一点很可能会影响到我们的结论(下面我会详细解释这是什么意思)。因此,没有一个数值可以作为标准适用于所有情况,我们必须具体情况具体分析,看自己要讨论的命题属于何种类型。

研究者通过统计要做的事情,其实可以看成是在给事物“定性”(qualify);这是我借用别人(Boltanski and Thenevot,2006[1991])的一个说法。例如,说“雇主歧视黑人”,其实就是给“雇主”添加了一个新的性质: 有歧视的 。其他人要用证据来阻止或去除这种“定性”。因此,我们可以参考一下法律系统中的“定性”过程,以便有所启发。

在法律中,如果是“ 刑事 ”案件,证据要绝对地有利于公诉人,他才能够赢。道理在于,刑事诉讼中的双方是国家与公民,它们的力量并不对称。要判定被告人有罪,公诉人的证据必须达到所谓的“排除合理怀疑”(beyond a reasonable doubt)标准——除了被告人犯罪之外,从证据事实当中再不能够得出其他的逻辑解释。在社会科学研究中,对应的标准就是 值检验和95%置信区间。那么,什么时候应该采用这样的标准呢?假使有人主张把某一件事情定成某一个性质(“事情就是这样的”),然而不该定性却错误定性的后果非常严重,但应该定性却把它漏掉了则无关大局,这时你就应该采用这种“刑事”视角。这种情况通常就是你在为某种 干预 行动(如一项新政策)进行辩护。这时候如果使用统计推理来进行论证,就 应该 从严把握。

在法律中,如果是“ 民事 ”案件,那么证据对哪一方的支持程度超过了50%,哪一方就可以赢。这时候并不是国家与公民的对抗,而是两个公民在争论双方的边界应该划在哪里。无论怎么划,总得有个边界。如果谁首先提出争议,谁就面临更多的举证负担,这是不公平的。在社会科学研究中,这种“超过50%就赢”的标准在什么情况下是合理的?我们可能以为,当服务于某种实践需求,行为与否总得有个决定时,这种标准是合理的。其实 不然 。恰恰是研究问题与实践有一定距离、选项比较少、数据也很缺乏时,这种标准才是合理的。例如,一些历史学家研究美国革命中政党制度的形成基础,他们逐渐形成了两种大理论。第一种理论认为这与阶级关系有关(尽管他们可能用的是别的名词)。某种精英代表的是土地利益,某些精英代表的是产业利益;某些人的利益在于西部扩展,某些人与此没有利益瓜葛。第二种理论认为这与当时的具体历史情境有关——哪个精英派别能够掌握州长职位,这把精英们分裂成了不同的网络,因为掌握了职位就能垄断赞助机会。并没有什么急迫的需求,要我们必须对这个问题做出定论。可以直接回答这个问题的资料很难找到,因为当事人早就过世了,他们的自我表述则相当可疑。某一种理论的支持者利用新的分析来前进一步,就意味着另一方后退一步。此时,“超过50%就赢”的标准是合理的。

如果我们的问题是要不要把可卡因非罪化,情形就不一样了。我们面对的也是两方(要与不要),但是并不能简单地看手头的证据偏向于哪一方,就采用哪一方的意见。此时,把双方赋予同样的权重是有误导性的,很多早期的概率理论都曾经落入这个陷阱(我在此援引的是皮尔斯的杰作)(参见Peirce,1985[1865-1866],339)。比如说,我们要讨论某一项教育计划能不能提升未来收入。你可能认为,教育对收入的影响要么有,要么没有;证据偏向于哪一方,我们就选择哪一方。这时你把“完全没有影响”的先验概率设定为了0.5。但是,“完全没有影响”换个说法就是“教育对收入的影响正好为零”。影响正好为零,这种事件发生的先验概率其实小到几乎可以忽略不计,你不做研究也能判定这种影响不会正好就是零。“有影响”和“没有影响”这两种假设看似对等,其实不然:前者覆盖的范围非常大,后者覆盖的范围非常小。皮尔斯指出,先前有好多种对概率进行数据表述的尝试,都是在这个问题上犯了错:我们把对“ 问题中可能情况的无知 ”和“对概率的合理设置”混为一谈,就好像我们不能确定“骰子是否会掷出一点来”,因此干脆认定骰子掷出一点和掷不出一点的概率都是0.5。皮尔斯说,用来构建概率时,分母不能是我们脑子中想到的类型数目,而应当是 客观世界中实际可能出现的状况数目 毒品管理政策的选项其实远不止两种。我们把 自己中意的 选项挑出来,把它作为一方,所有其他选项作为一方,认为先验概率都是1/2,这就大大夸大了它的发生概率。

在毒品管理政策的例子中,我们可能轻易地肯定了某个选项。与此同时,我们也可能会犯相反的一种错误:轻易地否定了某个选项!这是因为我们误以为“未能驳倒零假设”就代表着“零假设一定是对的”。现在许多统计方法的专家都会强调说,观察研究(observational studies)并不能真正确定环境因素的因果效应,因为这些研究当中存在着很强的选择性(我们在第3章中会讨论“选择性”问题)。这确实是事实,因此有人会利用这一事实,干脆否认某项政策有效果。但是,通过数据排除了零假设,并不能代表你支持的那个假设就是对的;同样,通过数据不能排除零假设,也并不能代表你支持的那个假设就一定是错的。在许多情况下不能排除零假设,是因为我们无法进行精确的估计,而不是我们确实证明了真实效应就是零。数据表明“效应有可能是零,但也有可能很强”,而我们却告诉别人说“统计分析表明效应就是零”,这样做太不负责任了。

我们如何来平衡这两种不同的错误?首先,如果统计证据比较弱,那么我们就不要轻易用它来否定既有的看法,哪怕那些既有的看法只是基于个人经验、传闻、常识等证据得出来的。那些证据可能不入社会科学的法眼,但也仍然是证据。你可以在这些证据上有所提升,但要知道缺了这些东西,社会生活就没法运转。

其次,我建议当问题更类似于 民事 问题时,应该采用贝叶斯方法的标准来从一组模型中选择何种更优;当问题更类似于 刑事 问题时,应该采用传统方法的标准。更重要的是,我们应该努力使自己的研究接近适于民事法则的情形。在那样的研究中,作为一个科学共同体,我们已经把可能选项的数目压缩到了易于把握的程度,然后进行多种类型的研究来评估证据对于每种选项的支持程度。但是,如果我们的研究问题 不属于 这种类型,或者由于可能选项太多(即我们对事情所知甚少),或者由于我们提出的理论非常新,我们就应该使用刑事准则(即经典统计学)。这种立场正迅速地成为少数派,因此我要明确地捍卫它。

对盲目行为的不盲目捍卫

如果你读过埃文斯-普里查德(Evans-Pritchard)的《努尔人的宗教》( Nuer Religion ),你就应该对于毒药神谕很熟悉(如果你还没读过,一定要去读一下)。这种神谕是一种靠碰运气来决定一些困难事项的方式。在面临事关生死的大事而无人可以确定怎么做才对时,很多社会都会这样做。在这种情况下,有时候占卜术是比深思熟虑更好的决策方式。至少一旦决策失误,没有人会必须承担责任。这种神谕需要准备好一定剂量的毒药。剂量刚好既有可能让鸡死,也有可能让鸡活。给鸡灌下毒药之后,你提一个问题,然后看鸡是死还是活,以这种仪式来决定某人是生还是死。统计学中也有类似的过程:你运行一个回归之后,来看 值是显著还是不显著,以这种仪式来决定某人的学术生涯是生还是死。

有很多人反对把统计显著性当作一种标准来使用,并提出了很好的论证。最令人印象深刻的是,美国统计学会最近对于用此类检验来进行论证的做法提出了措辞强硬的驳斥(参看Wasserstein and Lazar,2016)。反驳的理由是很充分的:我们的研究问题往往并不是要去检验总体中零假设是否成立;我们实际所做的往往也并不是单边检测。支持的理由就薄弱多了。既然如此,我为什么还要支持这种做法?原因很简单:尽管毒药神谕并不一定正确,但只要它与真实答案之间确实有一定的相关,我们又想不出更好的办法,我们就最好采用这种办法。

因此,当我们的研究问题类似于 刑事 问题时,就应当沿用 值的老办法。依据 值来决策的办法确实简单粗暴:有两个发现,一个的 值为0.0499999,另一个的 值为0.0500000。那就接受第一个,否决第二个。但是,这种简单粗暴在社会科学中有时是必要的。为什么呢?因为社会科学不是那种有硬技术的学科。在物理学中,自然界会检验你,你能够造出冰箱来就说明你对,造不出来就说明你不对。在社会科学中,自然界没法检验你。因此,我们必须在那些日常研究中有一套像这样的程序标准。 [1] 在需要依据 刑事 标准来下判断时,我们需要 增大 工作的严格性和程序性;在需要依据 民事 标准来下判断时,我们需要 减少 工作的严格性和程序性。

在类似民事案件的研究情境中,我们有一群研究者,他们知道相关的可能解释有哪些。他们使用经过汇编的数据资料来进行辩论,判断何种解释才是对的。在类似刑事案件的研究情境中,研究者面对的只有自己,他没有与之争论的对手,大自然也没有办法判断他是对还是不对。我们可以用各种各样所谓的复杂、特殊、微妙来给自己辩护。在这种情况下,我们必须施加更严格的约束,因为此时犯“假阳性”(false positives)错误(把实际无效的东西误以为是有效)的可能性太大了。如果结果的显著性为 ,即便你有很多理由认为这个事情是值得重视的,我仍然会建议你再去寻找更为稳健的证据。当然,如果你非要和我争辩这件事情,我只会笑而不答。

当然,你应该更关注从数据中获取新知,而不是进行检验。这意味着,我并不赞同对 值的传统解读方式。那种方式认为,你不能提前看数据,而且你对数据只能进行 一次 检验。研究从来 不是 那样进行的,你也永远 不要 那样做研究。在探索数据时,你可以把 值当成一种引导工具,但是别忘了你还有其他工具,如原始数目的大小、比例的分布、斜率的变动、子样本的容量大小等。气象学家在使用气象模型时,只是把它当成众多信息中的一项,他还会实际看其他各种因素;我们在探索数据时,也应该把 值只当成众多信息中的一项。

但是,在研究完成时,结果应该既让我们自己信服,同时也符合传统的显著性标准。当然,我们进行的并不是那种不准提前看数据的一次性检验,因此你可以说我们的 值算得不对,我们的程序太过宽松。但是,似乎为了弥补这一点,我们传统上进行的都是双尾检验,而我们的理论是单侧理论,这一点上我们又过于严苛了。

需要强调的是,对统计显著性的这一辩护只限于对传统类型数据的分析:数据是综合调查数据,出于通用目的而收集,基于同样的条件向众多研究者开放,大家可以进行复制性研究来验证(而不是由研究者自己收集的、已经渗透了其假设的数据)。我不赞成在实验研究中(如在社会心理学中)使用 值。

最后总结一下,我们的目标不是估计参数。估计参数只是我们达到目标的 手段 。我们的目标,是看有没有一些对社会现象的解释是可以(暂时)排除掉的。你可能会觉得这一目标太低了,但是科学的重要部分就是让你了解自己的局限。如果你想要更为高远的目标,那就看一下本章尾声中对数理社会学的介绍。我认为数理社会学即便未必是当下现实行动的目标,它也应该成为指引我们的志向。当然,志向总得超过能力,否则那还能叫志向吗?


[1] 这就引出了一个严肃的伦理议题:当结果处于边界附近时怎么办。我会在本书结论部分对此进行讨论。这也导致了所谓的“ 值调整”,即研究者对模型进行调整以便让 值从0.053变成0.049。我认为,充分地检验从某种解释中推衍出的各种结论,可以最好地抵制上述做法。此外,分析者应该常常会发现,他们无论怎么调也难以让 值调到0.053以下。 Js6/nTZHCPqdyTNlgGy1GUJQQekb2BUyqFVhJ3j+xTgytBXe/W27EY7NX1uqoBbu

点击中间区域
呼出菜单
上一章
目录
下一章
×