在上一章,我们讨论了单个案例中测量或判断的变异性。在单个案例中,判断的所有变异性都是误差,而误差由偏差和噪声组成。我们考察的判断系统,包括法院和保险公司的判断系统,它们的目的在于处理不同案例,并对这些案例进行区分。如果美国的联邦法官和保险理赔员对他们手头的所有案例都做出相同的判断,那他们就没有什么存在的价值了。对不同案例做出有差异的判断,在很大程度上是有意为之。
然而,人们并不希望在同一案例上存在判断的差异——系统噪声。你将看到,对同一批人在多个案例上做出的判断进行噪声审查,有利于更详细地分析系统噪声。
为了说明多起案件的噪声分析结果,我们对美国联邦法官的判决进行了 非常详细的噪声审查 。这一分析发表于1981年,也是我们在第1章介绍过的量刑改革运动的一部分。这一研究局限于判决,但我们能从中获得的经验是通用的,也适用于其他专业判断。进行噪声审查的目的不是检查弗兰克尔法官等人收集的逸闻趣事中的噪声,而是更系统地“确定量刑差异的程度”。
研究人员设计了16起虚构案件。在这些案件中,被告都犯下了罪行,即将接受审判。这些案件主要是关于抢劫犯或诈骗犯的,但他们在其他6个维度上存在差异,如被告是主犯还是从犯、是否有犯罪记录、是否使用武器(对抢劫犯而言)等。研究人员精心组织了面向美国全国范围内208名现任法官的结构性访谈。在90分钟的访谈中, 研究人员向这些法官呈现16起案件的详细文件,并要求法官们做出判决 。
图表可能更有助于我们对研究的理解。请想象有一张大表格,表格中有16列,对应从A到P的16起案件;有208行,对应208名法官。从A1到P208的每一个单元格对应一位法官对每起案件的量刑。图6-1展示了这3328个单元格的表格样貌。为了研究噪声,我们需要将注意力集中在这16列上,其中每一列对应一个独立的噪声审查。
图6-1 判决研究示例
由于没有办法客观地确定某一起案件量刑的“真实值”,所以接下来,我们将208名法官对每起案件判定刑期的均值作为对该案件的“公正”判决。正如我们在第1章中指出的,美国量刑委员会在将以往审判中的平均值作为制定量刑指南的基础时,也以同样的假设为前提。刑期均值假定,对每起案件对应的刑期取平均值,那么这起案件中的偏差为0。
我们很清楚,这一假设在现实生活中是错误的:一些案件对应的平均刑期与其他高度相似的案件的平均刑期相比,可能存在较大偏差,比如也许是种族歧视等因素所致。不同案件中存在的偏差也不尽相同,有些是正偏差,有些是负偏差,它们是造成误差和不公平的主要成因。令人困惑的是, 这种差异经常被称为“偏差” 。本章以及本书分析的焦点都是噪声,它是误差的另一个成因。弗兰克尔法官强调了噪声导致的不公正,同时也引起了人们对偏差(包括种族歧视)的关注。同样,我们强调噪声的影响,并不代表我们认为测量和消除偏差不重要。
为了方便起见,我们在表格的最后一行给出每起案件对应的刑期均值。这些案件按照严重程度从低到高排列:案件A对应的平均刑期为1年;案件P对应的平均刑期为15.3年。所有16起案件对应的 平均刑期为7年 。
想象在一个完美的世界中,所有法官都是完美无瑕的司法公正的代言人,他们的量刑中不存在任何噪声。那么在这样一个世界中,图6-1看起来会是怎样的呢?显然,对于案件A来说,所有单元格中的刑期应该完全相同,因为每位法官都会判处被告1年刑期。其他案件的情况也是如此。当然,每一行中的数字仍然存在差异,毕竟案件不同,但每一列中的数字应该是相同的。不同案件对应的刑期之间的差异应该是导致该表格中出现变异性的唯一因素。
可惜,美国联邦法院并不存在于完美的世界中。法官们的量刑并不相同,每一列的数字之间的差异巨大,这意味着每一起案件的判决中都存在噪声。量刑中存在不应该存在的巨大变异性,而该研究的目的就在于对这种变异性进行分析。
假设我们确实生活在上述完美世界中,每位法官对每起案件都会做出相同的判决,那么每列中的208个数字都应该相同。现在,为每一列从上到下增加噪声,并通过不时地在平均刑期上增加或减少刑期来改变一些数字。因为你的修改并不总是相同的,它们在每一列中都制造了变异。这种变异就是噪声。
本项研究的重要发现是,每起案件的判决中都存在大量噪声。我们可以通过计算每起案件对应刑期的标准差来测量噪声。这些案件对应的平均刑期为7年,标准差为3.4年。
或许你对标准差非常熟悉,但采用具体的描述或许更有助于理解。假设你随机选择两位法官,并计算他们在对同一案件的判决中存在的差异。重复这个过程,计算所有案件中任意两位法官的判决差异,取平均值。这种测量方法——计算平均绝对离差,会让你觉得被告就是在法庭上“抽签”。假想这些判决呈正态分布,平均绝对离差就是标准差的1.128倍,这表明,两位随机选择的法官对同一案件量刑的平均绝对离差为3.8年。在第3章中我们谈到,保险公司的客户在寻找专业核保员时,就像在抽签。只不过在刑事判决中,被告所面临的类似抽签的状况,其后果更加严重。
在平均刑期为7年的情况下,不同法官之间的平均绝对离差达到3.8年,这令人不安,也是难以接受的。然而,我们有充足的理由相信,现实的执法中甚至存在更严重的噪声。首先,噪声审查中的被试处理的是虚构的案件,这些案件同时放在一起,很容易比较。现实世界中几乎不可能具备如此多的保持判断一致性的因素。其次,在法庭上,法官拥有的信息要比这项研究的信息多得多。除非新的信息是决定性的信息,否则它们更有可能导致法官们的分歧。因此我们认为,在实际的庭审中,被告面临的噪声要比我们在这里看到的多得多。
在接下来的分析中,我们会将噪声分解成不同成分。对于噪声,你脑海中的第一个念头可能是,噪声是由法官们在量刑时的严厉程度不一所致,就像弗兰克尔法官认为的那样。正如一些辩护律师告诉你的:法官们各有特点。有的人是“铁面判官”,他们比一般法官更严厉;有的人是“柔情法官”,他们比一般法官更仁慈。我们将这些差异称为“水平误差”(level errors)。(再次提醒:这里的误差是指判决结果与平均值之间的差异;如果判决结果的平均值是错的,一个误差可能反倒纠正了这种不公正。)
任何判断都会存在不同程度的水平误差。例如,在进行绩效评估时,一些主管比其他人更宽容;在预测市场份额时,一些预测者比其他人更乐观;在是否需要实施背部手术时,一些骨科医生比其他医生的态度更积极。
在图6-1的表格中,每一行显示的是同一位法官对不同案件的判决结果。每一位法官判定的平均刑期展示在表的最右侧一列,这一列的数据反映了每一位法官的严厉程度。正如该表格所示,在这一维度上,法官之间的差异很大。表格最右侧这一列数字的标准差为2.4年。这种差异与公正无关。事实上,正如你所怀疑的那样,每位法官在平均刑期上的差异反映了不同法官在其他特征上的差异,例如他们的背景、生活阅历、政治倾向、偏见等。研究人员还考察了每位法官对于量刑的根本态度,比如,法官认为量刑定罪的主要目的究竟是让罪犯无法再危害社会(与社会隔离),还是对罪犯进行改造,抑或是对犯罪起威慑作用。研究人员发现,与持后两种观点的法官相比,持第一种观点的法官判处的刑期更短,监视居住的时间要长。此外,美国南部的法官比美国其他地区的法官判定的刑期明显要长。这说明,刑罚的严厉程度与保守的意识形态有关。
研究人员从中得出的一般性结论是,量刑的平均水平就像人格特征。你可以根据这项研究结果,将法官按“非常严厉”到“非常宽容”进行排序,就像用人格测试来衡量人的外向或平易近人程度。像其他人格特征一样,我们推测,量刑的严重程度与基因、生活阅历以及人格的其他方面相关,但这些因素与法官们审判的案件或被告无任何关系。我们用“水平噪声”(level noise)一词来代表每位法官所判处的平均刑期之间的变异性,这与水平误差的变异性是等同的。
如图6-1中黑色箭头所示,该案例的水平噪声是2.4年, 系统噪声是3.4年 。这两者之间的差异表明,除了法官们在平均刑期上的差异外,系统噪声还包括了其他成分,我们将这一成分称为“模式噪声”(pattern noise)。
要想理解模式噪声,我们再看一看图6-1,随机对一个单元格进行仔细观察,比如选择单元格C3。案件C对应的平均刑期在这一列的底部,你可以看到它是3.7年。现在,看一下最右侧的一列,找到3号法官对所有案件判定的刑期均值:5年。这个刑期均值比总体刑期均值少2年。如果法官严厉程度的变异是第3列中所有噪声的成因,你可能会预测,C3单元格中的刑期是3.7-2=1.7年。然而,实际上C3中的数字是4年,这表明3号法官在这一案件上表现得尤为严厉。
使用同样 简单的相加逻辑 ,你可以推测表格中每一列的刑期。但事实上你会发现,大部分单元格中的数字与推测的数字之间存在差异。观察每一行,你会发现,法官们在自己审理的所有案件中并非表现得同样严格:在有些案件上,他们比自己量刑的平均水平严格;但在其他案件上,他们则表现得要宽容。我们将这种残存的变异称为“模式误差”(pattern errors)。如果你在表格的每一个单元格中写下这些模式误差,就会发现:对于每一位法官(行)而言,这些模式误差之和为0;对每一起案件(列)而言,它们的和也是0。但模式误差对噪声的影响不能相互抵消,因为在计算噪声时,使用的是每个单元格中数值的平方。
有一个简单方法可以证明,刑期的简单相加模型并不适用于计算噪声。你可以看到,表格的每一列底部的刑期均值从左到右依次增加,但每一行的情况却并非如此。例如,208号法官对案件O中的被告判定的刑期比案件P中的更长。如果根据每位法官判定刑期的长短排序,那么在他们的排序中,每起案件所在的位置会产生不同。
我们用“模式噪声”一词来表示上文提到的变异性,因为这种变异性反映了法官们对具体案件的态度的复杂模式。例如,一位法官总体来说比其他法官更严格,但对于白领罪犯更宽容。另外一位法官可能总体上倾向于从轻处罚,但对于惯犯更严格。还有一位法官的宽严程度跟一般法官差不多,但如果被告只是从犯,他会表现出更多的同情,而如果受害者是老年人,这位法官会更严厉。我们用“模式噪声”这个说法是为了增加可读性。模式噪声的统计术语是“法官×案件的交互作用”——可以读作“法官乘以案件”。我们要对受过统计学训练的人说声抱歉,因为对他们而言无须进行这些解读。
在刑事司法的背景下,对案件的一些独特反应可能体现了法官的个人量刑哲学。其他的反应可能来自法官本人都没有意识到的联想,例如,被告让他想起一个特别可恨的罪犯,或是被告长得像他的孩子。无论原因是什么,这些模式并不是偶然出现的。我们可以推测,如果重审同样的案件,他们还会做出相同的反应。然而,模式噪声在实践中很难预测,这导致本已像抽签一样的审判更加充满不确定性。这项研究的作者指出:“法官受犯罪情节或被告特征的影响而导致 审判中出现模式化的差别 ”,是“同罪不同罚的另一种形式”。
你可能已经注意到,将系统噪声分解成水平噪声和模式噪声,与第5章提到的误差方程(将误差分解为噪声和偏差)遵循的是同样的逻辑。对噪声方程的具体表述请见下面。
系统噪声 2
=
水平噪声 2
+
模式噪声 2
System Noise 2
=
Level Noise 2
+
Pattern Noise 2
这个方程也可以采用误差方程那样的视觉表现形式(见图6-2)。我们将三角形的两条直角边表现为相等的长度。这是因为,在审判研究中, 模式噪声和水平噪声对系统噪声的贡献几乎相同 。
图6-2 分解系统噪声
模式噪声无处不在。医生决定患者是否需要住院,公司决定雇用谁,律师决定受理哪些案件,好莱坞的高管决定制作哪些电影……所有这些案例中都会存在模式噪声,不同的判断者会做出不同的判断。
我们对模式噪声的处理掩盖了一个重要的复杂性:随机误差可能对模式噪声产生影响。
回想一下秒表实验:你连续测量10秒的时间长度,但每一次的测量结果与前一次都可能存在差别,此时你表现出了个体内的差异。同样,如果要求法官们在其他场景中再次为16起案件量刑,他们做出的量刑结果也不可能和第一次完全相同。事实上,正如你所见,如果该实验分别在同一个星期内的不同两天开展,他们做出的量刑结果也可能不同。如果法官因为种种原因(比如他的孩子有好事发生,他钟爱的球队昨晚赢得了比赛,或是天气很好)而心情愉快,那么他的判决会比其他时候更宽容。个体内的这种变异性与我们已经讨论过的个体间的稳定变异不同,但我们很难将这两种变异的成因区分开来。我们将这种转瞬即逝的因素所导致的变异称为情境噪声。
我们有意忽视了本研究中的情境噪声,而选择将噪声审查中法官独特的审判模式解释为稳定的态度。这一假设无疑过于乐观,但我们有理由相信,情境噪声在本研究中并未产生很大影响。参与这项研究的都是经验丰富的法官,他们对被告及其所犯罪行各项特征的意义已经具有一些固定的看法。在下一章,我们将更详细地讨论情境噪声,并展示如何将其与稳定的模式噪声进行区分。
总而言之,我们讨论了几种类型的噪声。系统噪声是由多个个体对同一案例进行判断时产生的不必要的变异。我们发现了噪声的两个主要成分。当同一批人评估多个案例时,我们就可以对这两种成分进行区分。
· 水平噪声 是指不同法官做出的判决与平均值之间的变异。
· 模式噪声 是指法官对特定案件做出的反应的变异。
在本研究中,水平噪声和模式噪声的数量几乎相等。然而,模式噪声中肯定会包含一些情境噪声,后者可以被看作随机误差。
我们借由在司法系统中进行的噪声审查对此进行了说明,同样的分析也适用于其他所有领域,比如商业、医疗、政府管理等。水平噪声和模式噪声(包括情境噪声)都会导致系统噪声,我们随后将多次介绍它们。
· 法官之间表现出的不同严厉程度会产生水平噪声。当法官们对被告应该受到更严厉还是更宽松的惩罚意见不一时,就产生了模式噪声。模式噪声中有一部分是情境噪声——法官们自身的行为出现了不一致。
· 在一个完美的世界中,被告面临的将是公正的审判;但在现实世界中,他们面对的是有噪声的系统。