我们非常荣幸,也非常感激,能够在中国出版这本书。《噪声》重点关注人类的判断,关注它是如何出错的,以及如何让它变得更好。无论是医学、法律、公共政策、商业,还是日常生活领域中,我们做出判断的过程中存在的问题,是偏好根据经验做判断的人类的共性问题。
数十年来,偏差问题备受瞩目。在《思考,快与慢》一书中,本书的作者之一卡尼曼,讲述了人类思维所能取得的惊人成就,同时也讲述了思维有时会产生的错误——系统性误差,它被称为偏差。如果人们过度乐观,他们的判断会有偏差(也就是乐观偏差)。同理,如果他们过度关注短期而忽视长期目标,他们的判断也会有偏差(也就是即刻偏差)。许多人都会表现出乐观偏差和即刻偏差,尽管这些偏差可能是有益的(如果你很乐观,你可能更愿意努力尝试),但它们也可能造成严重的错误,进而导致严重的问题。
我们在本书中讲述了许多有关偏差以及如何减少偏差的内容,但本书的主要议题是另一种错误成分:噪声。我们将噪声定义为: 判断中不必要存在的变异。 偏差是平均的、共有的误差,噪声则是这些误差的变异。如果一位医生说某位病人有心脏病,而另一位医生说该病人只是压力过大,那么噪声就产生了。如果一位安检员说某一车间是安全的,而另一位安检员说该车间有危险,那么噪声也会出现。如果一位法官说被告应被判 2 周监禁,而另一位法官认为被告应被判 2 年监禁,那么噪声就非常显而易见了。
当然,噪声的存在本身并不令人惊讶。如果我们说某个问题涉及判断,就意味着我们允许存在分歧,甚至期望分歧的存在。与事实性问题不同,对于需要做出判断的问题,理性的人可以存在不一致。激励我们写下本书的原因并不是噪声的存在令人惊讶,而是噪声之大令人惊讶。无论考察哪个领域——司法、商业、医学、法医学、公共政策等,我们都发现,噪声比我们想象的要大。更重要的是,噪声比这些领域的决策者所认为的还要大,而且往往大到超出他们所能容忍的范围。
噪声无处不在,这是我们写下本书的原因之一。一位心理学家、一位商学院教授和一位法学学者为一个图书项目在一起合作数年之久,这是很少见的。但是,完成如此庞大而又包罗万象的图书项目所需要的综合技能,超出了我们任何一个人的能力。我们的互补,为《噪声》的故事提供了广阔的视角,我们希望你能从中受益。
在许多方面,噪声仍是一个“未知的国度”,一个“有待探索的世界”。如果未受到重视,它将产生严重的问题,会导致严重的不公平。在某些情境中,它甚至应该被视作一种暴行或丑闻。而在大多数情境中,噪声会造成高昂的代价,损害企业、员工、消费者、投资者和许多其他人的利益。
不过也有好消息。一旦意识到了噪声的存在,你就可以减少噪声,并减小其危害。此外,你为“降噪”所做的工作往往能同时从根源上消除一些偏差问题。我们呈现了一系列案例研究的结果,展示了如何通过实施一系列技术性措施来测量和减少噪声,我们称这些措施为决策卫生策略。我们还重点介绍了“降噪”中你可能面临的挑战,以及有时需要做出的利弊权衡。
噪声是一个普遍性问题,任何做专业判断的人都应该关注它。 我们撰写的《噪声》这本书,是为了献给所有参与决策并希望决策变得更好、更公平、更准确的人,包括企业领导者、政策制定者、法官、医生、人力资源主管、咨询顾问、研究人员和各个领域的专业人士。判断是人生阅历的核心组成部分,也是所有组织运作的中枢要点。
就全世界范围而言,在通过减少噪声降低成本、提高公平性方面,我们可以做很多工作。无论你身在何处,无论你使用何种语言,情况皆是如此。
试想一下,你的朋友组成了A、B、C、D共4支队伍,来到一个射击场。每队中有5个人,他们共用一支来复枪,且每人只开了一枪。图0-1显示了他们的射击结果。
图0-1 4支队伍的射击结果
理想情况是,每一枪都能正中靶心。
A队几乎达到了理想情况,他们的每一发子弹都紧紧围绕着靶心,接近完美模式。
B队的每一发子弹都偏离了靶心,我们可以称其为偏差队。在图0-1中,我们可以根据B队偏差的一致性进行这样的预测:如果该队中的某位成员再开一枪,我们敢说子弹的落点也会与前5次落点的区域相同。偏差的一致性也许有原因可循:B队使用的来复枪的瞄准器歪了。
C队的子弹落点很分散,我们可以称其为噪声队。子弹的落点大致都在靶心四周,因而没有明显的偏差。如果该队的某位成员再开一枪,我们很难准确预测他可能击中的位置,而且我们也无法从C队的结果想出任何有趣的假设。我们只知道C队的成员不太擅长射击,但确实不知道为什么子弹的落点如此分散,会充斥着如此多的噪声。
D队是偏差与噪声共存队。与B队类似,D队的落点基本上都偏离了靶心;与C队的相似之处在于,D队的落点也很分散。
当然,这不是一本教射击的书,我们的主题是人类判断的错误。偏差和噪声,即系统性偏差和随机分散,是错误的不同组成成分,举射击的例子,只是为了阐明两者的差异。
射击场只是一种隐喻 ,用来说明人们在做判断时会出现什么样的错误,尤其是在代表组织成员做出各种判断时。在这些情境中,我们会发现图0-1展示的两类错误。有些判断存在偏差,它们整体偏离了目标;有些判断存在噪声,我们期望人们就某个目标达成一致,到头来他们却产生了严重的分歧。很遗憾,很多组织同时受到了偏差和噪声的困扰。
图0-2说明的是偏差和噪声之间的重要区别。如果隐去靶子看各队的子弹落点情况,那么最后每个队的射击结果就会如图0-2所示。
图0-2 隐去靶子后的子弹落点情况
此时,你无法分辨是A队还是B队的子弹落点更接近靶心,但你能一眼看出,相比于这两队,C队和D队存在更多的噪声。事实上,你对各队射击结果分散程度的了解与你观察图0-1时一样多。噪声的一个普遍特性是: 你可以在对目标或偏差一无所知的情况下,识别噪声,并对它进行测量。
方才提到的噪声的普遍特性,对本书意义重大,因为在本书中,我们的很多结论,也都是通过研究人们在“真实答案”未知甚至永远无法获知的情况下做出的判断而得出的。当不同医生为同一位患者做出了不同的诊断时,我们可以仅研究他们的分歧点,而无须知道患者的病情;当电影公司主管评估一部电影的市场效益时,我们可以仅研究他们意见的差异性,而不必知道这部电影最终的票房,甚至不必知道它有没有拍摄完。也就是说,在衡量这些差异时,我们无须知晓谁对谁错。要测量噪声,我们只需看“靶子的背面”。
要想理解判断中的错误,我们必须同时理解偏差和噪声。有时候,噪声甚至是更为重要的问题。然而,在有关人类错误的公开讨论,以及世界各地的组织中,很少有人认识到噪声的重要性。偏差是台上的主角,而噪声只是幕后的一个不起眼的参与者。已经有成千上万篇科研文章和数十本畅销书讨论过偏差的话题,但讨论噪声问题的作品却少得可怜。本书的写作目的就是修正这一失衡的状态。
在现实的决策中,噪声的数量往往令人触目惊心。下面几个例子展示了在准确性非常重要的场景中,噪声存在的数量有多大:
· 医学诊断中存在噪声。 不同医生对同一患者是否患有皮肤癌、乳腺癌、心脏病、肺结核、肺炎、抑郁症等疾病,会做出不同的判断。精神科诊断中的噪声尤其多,显然是因为精神科医生的主观判断对诊断结果起决定性作用。然而,在一些并不应该存在噪声的领域,例如在对X线片报告的解读中,也存在着大量噪声。
· 儿童监护权判定中存在噪声 。 儿童保护机构中的案件负责人需要评估儿童是否存在受虐待的风险,如果存在,则需要进一步评估是否需要将他们送去寄养。鉴于有些案例的负责人比其他负责人更有可能做出将儿童送去寄养的决策,所以该系统存在噪声。多年后,被某些过于严格的负责人送去寄养的不幸儿童,境遇大多很糟糕:犯罪率更高,青少年时期怀孕率更高,收入更低。
· 预测中存在噪声 。 专业的预测人员对新产品的可能销量、失业率的可能增长、经营不善的公司破产的可能性,以及其他各类问题,都会做出分歧非常大的预测。他们不仅意见不一,而且各自的预测也前后矛盾。例如,当同一批软件开发人员被要求在不同的两天中分别评估完成同一任务所需的时间时,他们前后两次估计出的时间平均相差71%。
· 庇护权决策 中存在噪声。 寻求庇护者能否被允许进入某个国家,就和买彩票差不多。一项研究发现,在将庇护申请随机指派给不同的法官后,一位法官批准了5%的申请,而另一位法官却批准了88%的申请。该研究的标题说明了一切:《难民轮盘赌》( Refugee Roulette )。(在后文中,我们将会看到许多“轮盘赌”。)
· 人事决策中存在噪声。 不同面试官对相同应聘者的评估常常大相径庭。类似地,对相同员工的绩效评估,管理者之间也存在着很大差异。结果更多取决于评估者不同,而非被评估者的表现。
· 保释决策中存在噪声。 被告是获准保释,还是移送监狱候审,部分取决于审理该案件的法官。有些法官更为宽容,有些则更为严格。法官们对于哪些被告最可能逃逸或再犯的评估,也存在着显著的差异。
· 司法鉴定科学中存在噪声。 在我们的认知范围内,指纹鉴定是绝对可靠的。然而,在判定犯罪现场的指纹与犯罪嫌疑人的指纹是否匹配时,指纹鉴定师们的意见有时也会不一致。不仅不同专家之间会产生分歧,即使是相同的专家,在不同场合看到相同的指纹时,也可能做出不同的判断。类似的差异性,在其他司法鉴定领域,甚至是DNA分析中也同样存在。
· 专利权授予决策 中存在噪声。 关于专利申请的一篇重要研究论文的作者强调了专利申请涉及的噪声:“专利局是授予还是拒绝一项专利申请,很大程度上取决于该项专利申请被分配给了哪一位审查员。”从公平的角度来看,这种差异性显然是有问题的。
上述所有存在噪声的例子不过是冰山一角。无论你观察哪个领域中人类的判断情况,都有可能发现噪声的身影。为了提高判断品质,我们不仅需要克服决策中的偏差,还必须克服噪声。
本书共分为6个部分。在第一部分中,我们探讨了噪声和偏差的区别,并展示了无论是在公共部门,还是在私人机构,噪声都可能存在,其数量甚至达到大得惊人的地步。为了理解这个问题,我们从两个领域的判断着手,第一个领域涉及刑事判决(公共部门),第二个领域涉及保险(私人机构)。乍一看,这两个领域差异巨大,但它们在噪声方面却有很多共同点。为了证明这一点,我们引入了“噪声审查”(noise audit)的概念,目的是衡量一个组织中不同的专业人员对相同的事件在处理意见上存在多大分歧。
在第二部分中,我们研究了人类判断的本质,并探索了如何衡量其准确性和错误数量。判断容易受偏差和噪声的影响。我们将介绍,这两类错误在造成的影响方面具有惊人的一致性。“情境噪声”是指同一个人或同一群体在不同场合中对同一事件做出判断而产生的差异性。我们还发现,群体讨论中存在很多看似无关的因素,比如发言次序,它们却导致了数量极其庞大的噪声。
在第三部分中,我们将深入探讨一种已得到广泛研究的判断类型——预测性判断(predictive judgment)。我们探索了规则、公式和算法在人类做出预测时的关键优势:与大众看法不同的是,与其说规则具有卓越的洞察力,还不如说规则是没有噪声的。我们讨论了影响预测性判断品质的终极局限,即对未来的“客观无知”(objective ignorance),以及这种客观无知如何与噪声一起对预测的品质产生了影响。最后,我们会探讨一个你肯定会问自己的问题:如果噪声无处不在,那为什么我之前没有注意到呢?
在第四部分中,我们转向人类心理学领域。我们解释了噪声产生的根本原因。这些原因既包括由各种因素引起的不同个体之间的差异,也包括个性和认知风格的差异、对不同因素进行加权时思考角度的差异,以及人们在使用相同的量表时出现的理解差异。我们探究了为什么人们会对噪声视而不见,以及他们为什么对不可能预测到的事件常常并不感到意外。
第五部分探讨了如何改进判断并防止出错这一实际问题。如果你主要对如何在实践中减少噪声感兴趣,那么你可以跳过第三部分和第四部分,直接阅读第五部分。我们调查了人们为降低医学、商业、教育、政府治理和其他领域中的噪声所做出的努力。我们介绍了利用“决策卫生”(decision hygiene)减少噪声的几种做法。我们展示了来自不同领域的5个案例研究。在这些领域中,关于噪声的记录已经有很多,人们为了减少噪声也做出了不懈的努力,并且取得了一定的成效。这些案例研究包括不太可靠的医学诊断、绩效评估、司法鉴定、招聘决策以及一般性预测。最后,我们介绍了中介评估法(mediating assessments protocol,MAP)——一种用于评估选项的通用方法,该方法融合了决策卫生在实践中的几种关键做法,目的是让噪声更少,从而得到更可靠的判断。
正常的噪声水平应该是多少呢?第六部分会回答这一问题。正常的噪声水平并不是零,这或许有点违反直觉。在一些领域中,噪声不可能被完全消除;在另外一些领域中,消除噪声的成本太高;还有一些领域中,消除噪声的努力会损害重要的竞争价值。例如,消除噪声的努力可能会影响士气,会让人觉得自己很像机器中的齿轮。当试图用算法解决问题时,人们会提出各种各样的反对意见,我们会对其中一些反对意见做出回应。尽管如此,当前的噪声水平还是令人难以接受。我们敦促私人机构和公共组织进行噪声审查,并以前所未有的严肃态度,付出更多的努力来尽力减少噪声。这样做可以减少很多组织中普遍存在的不公平现象,并降低诸多成本。
怀揣着这一愿景,我们在每一章的结尾都会提出一些简短的建议。你可以采用这些建议,也可以根据你的实际情况加以调整,无论这些问题是涉及健康、安全、教育、金钱、就业、娱乐,还是其他方面。了解因噪声而存在的问题,并试图解决这些问题,是一项需要持续去做的工作,也是一项需要我们共同努力的工作。我们所有人都有机会为这项工作做出贡献。这也正是我们写这本书的初衷。
“同罪不同罚”令人难以接受。同样的罪行,有人被判处5年有期徒刑,有人却被判处缓刑。在许多地方,类似的事情正在发生。可以肯定的是,刑事司法制度中弥漫着偏差,但本书第1章关注的重点是噪声。一位著名的法官注意到了噪声的存在,他发现这种噪声是不道德的,并由此发起了一场在某种意义上改变世界(但还不够彻底)的运动。我们接下来要讲的故事发生在美国,但我们相信,类似的故事在其他国家也存在,甚至情况更为严重,并且它将来依然会出现。我们使用刑事判决的例子,也是想说明噪声会导致极大的不公平。
刑事判决过程充满了戏剧性,但我们也关注私人机构,因为私人机构也可能因噪声的存在而背负很大的隐形风险。为了阐明这一点,我们在第2章介绍了一家大型保险公司。在该公司,核保员的任务是为客户确定保费,而理赔员必须判定理赔的额度。你可能会猜想,这些任务简单而又机械,不同的专业人员会得出大致相同的数额。为了对这一猜想进行验证,我们精心设计了一个关于噪声审查的实验,实验结果不仅令我们惊讶,也让该公司的领导层惊讶和沮丧。据我们了解,数量众多的噪声使该公司损失了大量资金。我们使用这一案例是为了说明,噪声会造成巨大的经济损失。
这两个例子所涉及的研究都是大样本研究,也就是说,在此过程中,有很多人做出了大量判断。但是,许多重要的判断是单一的而非重复的,比方说:如何处理一个看上去独一无二的商机;是否发布一款全新产品;如何应对一场流行病;是否雇用一个不太符合标准的人……这类独特情境中的决策是否存在噪声?我们很容易认为,此类特殊情境中不存在噪声。毕竟,噪声是不必要的变异,单一决策怎么会有变异呢?在第3章中,我们会回答这个问题。我们做出的判断,即使在看似独一无二的情境中,也充满了各种各样的可能性,也存在着大量噪声。
这三章的主题可以用一句话来概括,这就是: 哪里有判断,哪里就有噪声 ,而且它比你想象的还要多。一起来看看噪声有多少吧。