湛庐2021经典好书系列（全15册）最新章节_丹尼尔·卡尼曼著

第7章
情境噪声，无时无刻不在影响着我们的判断

想象一名职业篮球运动员正在准备罚球的场景：他站在罚球线上，全神贯注地准备投篮。这是他练习过无数次的一系列动作，他能投中吗？我们无法预知结果。

在NBA的比赛中，球员们通常能够4罚3中。显然，一些球员比其他球员表现得更好，但没有人能做到百发百中 ⁽³⁾ 。虽然篮筐一直都是距离地面3.05米，与罚球线的垂直距离一直是4.6米，篮球也一直都是重624克，精确地重复能够得分的一系列肢体动作却并非易事。变异不仅存在于球员之间，也存在于球员自身，这与我们推测的情况一致。罚球就像抽签，虽然库里比奥尼尔投中的概率更高，但依然像是在抽签。

这种变异来自何处？我们知道，很多因素都会影响球员的罚球命中率，比如长时间比赛的疲劳、比分接近时的心理压力、主场的欢呼声、对方球迷的嘘声。如果像库里或纳什这样的球员没投中，那么我们会做出如上的解释，但事实上，我们不太可能知道这些因素到底起了什么作用。因此可以说，球员表现中的变异性就是一种噪声。

第二次抽签

在罚球或人类的其他生理过程中存在变异性，这不足为奇。我们习惯了身体里的变异性，比如我们的心率、血压、下意识的反应、音调、手的颤抖等在不同时间都是不同的。无论我们多么努力地想要写下相同的签名，但每一张支票上的签名仍略有不同。

想要观察人类思维上的变异性尤其不易。当然，即使没有新的信息，我们也都有改变主意的经历，比如，前一天晚上令我们捧腹大笑的电影，此时看起来就可能平庸无奇，很容易淡忘；前一天受到严厉审判的那个人，现在看来应该得到宽恕；一个我们曾经不喜欢或不理解的观点，现在觉得很有道理。但是，正如这些例子所表明的，我们通常会将这种改变与相对没那么重要且非常主观的事情联系起来。

在现实世界中，我们也会在缺少有说服力的理由时改变主意，即使是对判断持高度审慎态度的专业人士也是如此。例如，同一位医生先后两次对同一病例做出的诊断常常会有显著的不同（见第22章）。在美国的一个大型葡萄酒比赛中，专家先后两次品尝了同一种葡萄酒，然而他们给出相同评分的可能性也只有18%，而且通常是对最差的酒打出的。仅仅相隔几个星期，指纹鉴定专家先后两次检查同一枚指纹时，也常常会得出不同的结论（见第20章）。经验丰富的软件顾问会在两种不同的情况下对同一任务的完成时间做出明显不同的估计。简而言之，篮球运动员不可能在两次投篮时采用完全相同的姿势，我们也并不总能在两种情境中对同一事实做出相同的判断。

至此，我们描述了像抽签一样“选择”核保员、法官或医生时所产生的系统噪声。情境噪声则类似于第二次抽签，这次抽签“选择”了专家做出判断的时机、他们的心情、他们以前是否遇到过类似案件，以及情境中的无数其他因素。第二次抽签往往比第一次抽签更抽象。如果在第一次抽签中“选择”了不同的核保员，我们是容易看到“选择”的结果，但要想了解该核保员“实际反应”的其他可能性，则有赖于抽象的反事实思考。我们只知道这一判断是从一系列可能的判断中挑选出来的，而情境噪声是这一系列不可见的可能性产生的变异。

测量情境噪声

测量情境噪声并不容易，因此一旦检测到它的存在，人们会感到惊讶不已。一旦人们形成了一个经过审慎思考的专业意见，他们就会找理由支持该意见。如果有人要求他们对自己的判断做出解释，他们就会以自认为具有说服力的论据来捍卫这一判断。如果他们再次遇到同样的问题，并且确定自己以前遇到过，他们就会给出与第一次相同的意见，以此来减少认知负担并维持一致性。设想一个关于教师的例子：如果一位教师给一篇作文评了非常高的分数，一个星期之后他又读了这篇作文并看到了第一次的评分，那么他这一次给出的评分不太可能与上一次差别很大。

因此，只要案例容易记住，直接测量情境噪声就很难。比如，你给一名核保员或法官展示一个他们以前处理过的案件，他们可能会回想起这起案件，从而重复自己以前的判断。一篇关于专业判断中存在变异性 ⁽⁴⁾ 的评论文章中提到了一些研究。这些研究发现，专家在同一环节做出了两次相同的判断，毫无疑问，他们倾向于与自己保持一致。

我们上文提到的实验使用了专家们不能再次辨认出的实验材料，从而绕开了这一问题。葡萄酒评委进行的是盲测；给指纹鉴定专家呈现的是他们已经鉴定过的一对指纹；给软件专家呈现的也是他们已经完成的项目。第二次任务是在几个星期或几个月之后进行的，并且实验人员没有透露这是专家们曾经鉴定过的案例。

还有另一个比较间接的方法可以确认是否存在情境噪声：借助大数据或计量经济学。当可以获得以往大量专业性决策的案例时，分析师们有时就能检验这些决策是否会受到特定情境或无关因素，比如一天的某个时间段或室外温度等的影响，如果这些无关因素产生了统计上的显著效应，则说明存在情境噪声。实事求是地说，不要指望发现可能导致情境噪声的所有外部因素，那些我们已经发现的因素就足以说明存在大量多种多样的因素。如果要掌控情境噪声，我们就必须了解它的产生机制。

群体智慧效应：一个是一群

思考下面这个问题：美国的机场数量占全世界机场总数的百分比是多少？当你思考的时候，一个答案可能会跳进你的脑海，但这个答案产生的方式与你回忆自己的年龄或电话号码时不同。你会注意到，你脑海中出现的数字是一个估计值，当然，它不是一个随机数字——1%或99%显然不是正确的答案。你给出的数字是一系列不可能被排除的可能数字中的一个，如果有人将你的答案加上或减去1%，你可能不会觉得这个答案比你给出的答案的准确性差。正确答案是32% 。

爱德华·沃尔（Edward Vul）和哈罗德·帕什勒（Harold Pashler）这两位研究人员想到，可以要求人们回答这一问题以及其他类似的问题两次，而不是一次，并要确保被试事前并不知晓他们需要第二次作答。沃尔和帕什勒假设，对两次答案取平均数会比单次答案（无论是第一次还是第二次的答案）的准确性更好。

结果证明他们是对的。总体而言，第一次的答案比第二次的答案更接近真实值，而最准确的估计值是两次推测的平均数。

沃尔和帕什勒的灵感来自一个非常著名的现象——群体智慧效应，它是指对人们的独立判断进行平均会提高判断的准确性。1906年，达尔文的表弟、著名博学大师弗朗西斯·高尔顿（Francis Galton）在一次乡村集市上目睹了787名村民估计一头获奖的公牛的重量。没有一位村民准确猜到公牛的实际重量——大概是1198磅 ⁽⁵⁾ ，但他们猜测的平均值是1197磅，与实际值仅相差1磅。村民们估值的中位数（1207）与实际值也非常接近。虽然村民个体的估值充满噪声，但全部估值的平均值偏差极小，就这一点而言，村民们是智慧的群体。这一结果让高尔顿备感吃惊，因此，虽然他对普通人的判断并不看好，但他还是极力主张“民主判断的结果，比想象中更值得信赖”。

类似的结果是从成百上千个情境中获得的。当然，如果问题很难，只有专家才能够获得相对准确的答案，那么群体的答案就不会更准确。但是，当让人们猜测透明罐子里夹心糖的数量、预测一个星期后当地的气温，或是估计美国一个州内两个城市之间的距离时，一大群人的平均答案可能更接近事实。出现这种情况的原因是一个基本的统计事实：对多个独立判断或测量进行平均会产生一个新的判断，虽然这一判断不一定会比个体判断产生更少的偏差，但它会产生更少的噪声。

沃尔和帕什勒想要看看同样的结果是否也适用于情境噪声：将同一个体的两次猜测进行平均，是否就像将不同人的猜测进行平均一样更接近真实值？沃尔和帕什勒的发现表明，答案是肯定的，他们给这个发现起了一个令人印象深刻的名字：内部群体（the crowd within）。

对同一个体的两次猜测进行平均，对于决策品质的提升效果并没有对两个独立个体的意见进行平均时更好。正如沃尔和帕什勒所指出的：“ 你对同一个问题做出两次回答带来的好处，是向另一独立个体寻求建议时所获好处的1/10 。”显然，这种改进并不大，但如果你能等待一段时间再去做第二次猜测，你所获得的好处会大得多。沃尔和帕什勒在3个星期之后再问被试同样的问题，此时这种做法带来的好处上升到向另一个人寻求意见带来的好处的2/3。在无须额外信息以及外在帮助的情况下，这种方法已经非常不错了。这一结果明显为一种古老的决策智慧提供了理论依据，那就是：“睡一觉吧，明天再说。”

德国研究人员斯蒂芬·赫佐格（Stefan Herzog）和拉尔夫·赫维格（Ralph Hertwig）差不多与沃尔和帕什勒同时提出了另一种基于相同原则的方法。赫佐格和赫维格不是要求人们做出第二次评估，而是鼓励人们尽可能想出其他可能，从而做出与第一次评估不同的评估。这样一来，被试就会积极思考他们在第一次评估时没有考虑到的相关信息。具体做法如下：

首先，假设你的第一次评估是不正确的。其次，思考导致第一次评估出错的几个可能原因——哪些假设或考虑的问题错了？再次，这些需重新考虑的问题意味着什么？第一次评估是过高还是过低？最后，根据这些新的观点做出不同于第一次评估的第二次评估。

与沃尔和帕什勒一样，赫佐格和赫维格会对前后两次评估进行平均。赫佐格和赫维格将这一技术命名为“自我重复抽样法”（dialectical bootstrapping）。相比于只让被试在第一次评估之后立刻进行第二次评估，这种方法大大提升了判断的准确率。因为被试迫使自己从一个新的视角考虑问题，他们创建了另一个样本，选取了另一个版本的自己，进而构成了两个互相分离的“内部群体”成员。因此，二者的平均产生了一个更准确的评估。两个即刻、连续进行的辩证性评估在判断准确度上的获益，是听取他人意见时的一半。

正如赫佐格和赫维格总结的那样，决策者最终要做的是在不同方法之间做出一个简单的选择：如果你能从别人那里得到独立的意见，那么就去做吧，因为这种真正的群体智慧很可能会提升你的判断水平；如果不能，你可以再次做出判断，以此创造一个“内部群体”。针对后者，你可以采用两种方式：要么隔一段时间再做出第二次判断，要么质疑自己的第一次判断，从另一个角度来看待问题。此外，不管是哪一种类型的“群体”，除非你有充足的证据表明需要对其中一次评估赋予更高的权重，否则对两次判断进行平均后的判断就是最佳判断。

除了实用的建议之外，这一系列研究还确认了一个关于判断的本质观点。正如沃尔和帕什勒指出的那样：“ 被试的反应是从一个内部的概率分布中抽取的，并不是根据被试掌握的全部知识来确定的。”这一发现与你回答美国机场问题时的过程相一致：你的第一个答案并不是根据你的全部知识甚至那些关键的知识得出的，你给出的答案只是你头脑中可能产生的一系列答案中的一个。我们从同一个人对同一个问题的判断中观察到的变异性，并不是一些高度专业的问题中存在的偶然现象，事实上，情境噪声无时无刻不在影响着我们的判断。

情绪，情境噪声的源头

我们至少能够注意到一种情境噪声的来源：情绪。每个人都有过情绪影响判断的经历，而且你肯定意识到了，他人的判断也会受到情绪的影响。

情绪对判断的影响已经成为大量心理学研究的关注点。我们很容易通过一些策略来让人们暂时开心或悲伤，然后测量相应的情绪被诱发之后他们的判断和决策的变异性，比如让人们写下一段开心或悲伤的记忆，或只是简单地让他们看一段有趣的或催人泪下的电影片段。

一些心理学家花费了数十年时间来研究操纵情绪可能产生的效果。其中最高产的也许是澳大利亚心理学家约瑟夫·福加斯（Joseph Forgas），他发表了大约100篇关于情绪的科学论文。

福加斯的一些研究验证了你的思考：一般来说，具有良好情绪的人会更加积极。相比于悲伤的记忆，他们更容易回忆起愉快的记忆，而且他们更倾向于赞同他人，更慷慨，也更乐于助人。消极情绪的作用则刚好相反。正如福加斯所说：“ 对于同一个微笑，拥有积极情绪的人看到友好，而拥有消极情绪的人可能感到不适。一个人情绪良好的时候，讨论天气会兴致盎然，而当他情绪不好的时候，该话题则显得枯燥乏味。”

换句话说，情绪会对你的思维产生可预见的影响，它关系到你会注意环境中的哪些事物、从记忆中提取哪些信息，以及如何解读这些信息。情绪还会产生另外一个更令人吃惊的效应—— 它会改变你的思维方式，这种效应甚至超乎你的想象。好的情绪是一把双刃剑，不好的情绪也可能成为困境中的一线希望，不同情绪的利与弊取决于具体的情境。

例如，在谈判中，好的情绪大有裨益。具有良好情绪的人会更富有合作精神、更容易促成互利互惠的局面。最终，他们往往能比情绪不好的谈判者获得更好的谈判结果。当然，成功的谈判也能让人们更开心，但在这些研究中，情绪并不是由谈判过程产生的，而是在谈判之前被诱发的。此外，谈判过程中从情绪良好转向愤怒的谈判者也可能会获得更好的结果 ——当你遇到一个顽固的对手时要记住这一点！

良好的情绪还会让人更容易接受第一印象。在福加斯的一项研究中，实验人员要求参与者阅读一篇简短的哲学论文，这篇论文随附了作者的照片。一些读者看到了一位典型的哲学教授——男性、中年、戴着眼镜；另一些读者看到的却是一位年轻的女士。和你猜测的一样，这项研究考察的是被试是否容易受刻板印象的影响：相比于年轻女士所写的论文，人们更偏爱由中年男性所写的论文吗？结果表明，的确如此。但更重要的是，在情绪良好的情境中，这种差异更大，拥有良好情绪的人更容易受到偏差的影响。

还有一些研究考察了情绪与上当受骗之间的关系。心理学家戈登·彭尼库克（Gordon Pennycook）及其同事开展了一系列研究，来考察人们对毫无意义、看似深奥实则虚假的陈述的反应。这些虚假的陈述是这样产生的：从一些广为流传的名言中随机挑选出名词和动词，然后组合成语法正确的句子，如“完整性平息了无穷的现象”或“隐藏的意义使无与伦比的抽象美变化无穷”。同意这些陈述的倾向是一种被称为“废话接受力”（bullshit receptivity）的特征。自哈里·法兰克福（Harry Frankfurt）之后，废话已经成为一个术语。法兰克福是普林斯顿大学的哲学家，他写了一本见解独到的书《论扯淡》（ On Bullshit ）。在这本书中，他将废话与其他类型的虚假陈述进行了区分。

确实，有一些人比其他人更倾向于接受废话。他们可能会被看似令人印象深刻的断言所打动，这些断言虽然看起来真实而有意义，但实际上空洞无物。这里的容易上当受骗并非是一种永久性的、无法改变的倾向。诱发良好的情绪会让人们更容易接受废话，以及更容易上当受骗。他们不太容易觉察到具有欺骗性或误导性的信息。相反，处于不良情绪中的目击者在看到这些具有误导性的信息时，更有可能忽视它们，从而避免做出虚假指证。

即使是道德判断也会受到情绪的强烈影响。在一项研究中，研究人员让被试回答“ 天桥难题 ”（footbridge problem），这是道德哲学中的一个经典问题。在一个假想的情境中，5个人即将被一辆失控的电车撞死。研究人员要求被试想象自己就站在天桥上，电车很快就会从桥下经过。被试需要决定是否要把旁边一个大个子男人从天桥上推下去，使其落到铁轨上，这样他的身体就能使电车停下来。如果被试这样做了，那么大个子男人会死，但那5个人会因此而得救。

天桥难题体现了道德推理思维之间的冲突。英国哲学家杰里米·边沁（Jeremy Bentham）提出的功利主义认为，失去1条生命比失去5条生命要好。而康德（Immanuel Kant）的道德义务论则认为，不能以拯救更多人的名义杀害某个人。天桥难题明显包含个人的情绪因素：把一个人从桥上推下去落到电车轨道上是一种特别令人厌恶的行为。要从功利主义的角度把这个人从桥上推下去，需要人们克服对伤害陌生人身体这种行为的厌恶。只有少数人表示他们会这么做，在这项研究中，这部分人占比不到1/10。

然而，我们可以通过让被试观看5分钟视频短片的方式来诱发他们良好的情绪，这时他们打算将人推下天桥的可能性增加了3倍。无论我们是把“不可杀人”作为一个绝对的原则，还是愿意杀死一个陌生人来救活5个人，这都应该体现我们最深层的价值观。然而，我们的选择似乎只是取决于刚刚观看的视频短片。

我们详细描述了这些关于情绪的研究，因为我们需要强调一个很重要的事实：你并非在所有时刻都一样。随着情绪的变化（有时候你会意识到），你的认知机制也会改变（你可能根本意识不到）。如果你面临一个复杂的判断问题，当前的情绪会影响你对这个问题的思考以及得出的结论，即便你认为你的判断没有受到情绪的影响，并且能很自信地阐明自己给出最终答案的理由。简而言之，你的判断充满噪声。

其他许多偶然因素也会诱发判断中的情境噪声。在不应该影响但实际上影响了专业判断的诸多外在因素中，压力和疲劳是两个主要因素。一项针对近70万次基层保健门诊就诊情况的研究表明，医生在漫长的一天结束时开阿片类药物的可能性显著增加，然而，没有理由认为预约下午4点就诊的患者比早上9点就诊的患者更痛苦。医生落后的看诊进度也不应该影响处方的决策。事实上，其他治疗疼痛的处方，如非甾体类消炎止痛药以及转介物理治疗，并没有显示出类似的模式。当医生面临着时间压力时，他们显然更倾向于选择快速的解决方案，虽然这样可能会产生一些严重的问题。其他研究也显示，在一天将要结束时，医生开抗生素处方的可能性更大，而开流感疫苗处方的可能性较小。

甚至天气也会对专业判断产生显著的影响。天气的影响可能会通过情绪产生作用，即天气虽不会直接影响决策，但会影响决策者的情绪，进而影响决策。不好的天气与记忆力的增强有一定的相关性；当天气炎热时，司法审判会更严厉；阳光明媚的天气会影响股市的走向。而在其他一些案例中，天气的影响则不那么明显。心理学家尤里·西蒙松（Uri Simonsohn）发现，高校招生人员在阴天时更关注候选人的学术表现，而在晴天时对非学术表现更敏感。他报告这些发现时采用的文章标题足以令人难忘——“ 云让书呆子看起来不错 ”。

判断会随机变异的另一个案例是不同案件所处的考察顺序。当一个人在思考一起案件的时候，此前一起案件的决策就成了一个潜在的参照点。包括法官、贷款专员以及棒球裁判员在内的做出一系列决策的专业人士，倾向于恢复某种形式的平衡：在连续朝着同一方向做出一系列决策之后，他们更有可能朝着相反的方向做出决策。严格意义上说，后面这些决策是不合理的，因为这样难免会出现误差和不公正。例如，在美国，当前面两个庇护申请获得庇护法官的批准时，下一个庇护申请获得批准的可能性会降低19% 。在申请贷款时，如果前面两个申请都被拒绝了，那么接下来的申请很有可能得到批准；但如果前面两个人的申请获得了批准，那么相同的申请此时则更有可能遭到拒绝。这种行为反映了一种被称为“ 赌徒谬误 ”（gamblers fallacy）的认知偏差，它指的是人们会认为随机序列中一个事件发生的概率与此前发生的事件有关，从而低估了“坏运气”再一次发生的可能性。

衡量情境噪声

相对于整体的系统噪声，情境噪声有多大呢？虽然没有一个原则适用于所有情境，但存在一个一般性的原则：就大小而言，本章所涉及的这些情境噪声要小于个体在水平噪声和模式噪声方面的稳定差异。

例如，正如上文所提及的，如果同一位法官连续两次批准了庇护申请，那么接下来的申请获得批准的可能性会下降19%。这种变异性肯定是有问题的，但如果与不同法官之间的变异性相比就是小巫见大巫了：天普大学法学院教授杰亚·拉姆基-诺加莱斯（Jaya Ramji-Nogales）及其合作者发现，在迈阿密的一家法院，一位法官批准了88%的庇护申请，而另一位法官只批准了5%的庇护申请。这是真实的数据，不是进行噪声审查的实验数据，因此申请者是不同的，但这些申请者的申请由哪位法官受理可以说是随机的。拉姆基-诺加莱斯及其合作者发现，申请人来源国的差异并不能解释这种差异。如果差异如此巨大，那么申请获得批准的概率下降19%好像也没有什么大不了。

同样，指纹鉴定人员和医生有时候也会做出自相矛盾的判断，但这种情况远远少于与其他人的判断不一致的情况。在我们回顾的每一个案例中，情境噪声在系统噪声中所占的比例都是可以测量的，情境噪声所占的比例皆小于个体间的差异。因此可以这样说： 你不可能永远是同一个人，随着时间的流逝，你远没有你所想象的那么前后一致；但令人欣慰的是，与其他人相比，今天的你更像昨天的自己。

造成情境噪声的内部原因

情绪、疲劳、天气、顺序效应等许多因素都可能导致同一个人在对同一案件做出判断时，产生我们不愿看到的变异。我们可能希望构建一个环境，在这个环境中，所有与决策有关的外部因素均是已知、可控的，至少从理论上来说，这样的情境可以减少情境噪声。但即使是这样的情境，也不足以彻底地消除情境噪声。

宾夕法尼亚大学心理学家迈克尔·卡哈纳（Michael Kahana）及其同事研究了记忆的表现。根据我们的定义，记忆不是一项判断任务，而是一项认知任务，可以对其条件进行严格控制，也很容易测量其表现。在其中一项研究中，他们对79名被试的记忆表现进行了非常深入的分析。被试要在不同的日子里参加23场测试会，在此期间他们需要对每组包含24个单词的24组单词进行回忆。他们所能回忆起来的单词数量可以作为记忆表现的指标。

卡哈纳及其同事感兴趣的不是被试之间的差异，而是哪些因素能够预测不同被试之间的差异。不同被试的警觉程度与前一天晚上的睡眠情况是否会影响记忆表现？他们的记忆表现是否会因在一次次的测试会中反复练习而得到提升？在每一次测试会中，记忆表现是否会由于感到疲劳或无聊而降低？是否有一些列表中的单词比其他列表中的单词更容易被记住？

上述所有问题的回答都是肯定的，但对结果的影响并不大。将所有这些因素纳入一个模型中，也只能解释某个特定被试记忆表现差异的11%。正如研究人员所指出的那样：“剔除这些可预测的因素的影响后，还剩下如此大的变异，这着实令我们吃惊不已。”即使在这种严格控制的情境中，到底是哪些因素引发了情境噪声，仍是未知的。

在研究者分析的所有因素中，强烈影响被试对某组单词的记忆表现的一个预测因素，并非外部因素。被试记忆某组单词的表现在很大程度上受他的前一组单词记忆表现的影响。如果他在记忆前一组单词时表现良好，那么他接下来的表现也会很好；如果他在记忆前一组单词时表现一般，那么他接下来的表现也会一般。被试在记忆每一组单词时表现出的差异并不是随机的：在每一次测试会中，它会随着时间的推移而有所起伏，并且没有受明显的外部因素的影响。

用卡哈纳及其同事的话说，这些结果表明，记忆表现在很大程度上受“控制记忆功能的内源性神经过程效率”的影响。换句话说，大脑效率的即时变化并不源于天气或分心等外部因素的影响，而是一种大脑自身运作的特征。

大脑功能的内部变异很有可能以一种我们完全无法控制的方式来影响我们的判断，大脑功能的这种变异性应该可以打消人们认为情境噪声可以被彻底消除的想法。用篮球运动员的罚球进行类比并不像最初看起来那样简单：正如运动员的肌肉从来不会执行完全相同的动作一样，我们的神经元也从来不会以完全相同的方式运作。 如果我们的大脑是一种测量工具，那么它永远是不完美的。

然而，我们仍然可以努力去控制这些不应出现但可控的影响，当判断是由群体做出时尤其应该如此。关于这一点，我们将在第8章中进行讨论。

· 消除噪声

情境噪声不是系统噪声的最主要成因

·　判断就像罚球：我们无论多么希望能够精确地重复，都永远无法做到完全相同。

·　你的判断依赖于你的情绪、你刚刚讨论过的案件甚至天气。在不同的时间里，你不可能一直是同一个自己。

·　虽然你做不到与上个星期的自己完全一致，但与今天的他人相比，今天的你更像上个星期的自己。也就是说，情境噪声不是系统噪声的最主要成因。

第8章
群体是如何放大噪声的

个体判断中存在噪声的结果已经很糟糕了，但群体决策中的噪声危害更甚。群体决策可能会由于一些无关因素而朝任何一个方向改变。谁先发言、谁后发言，谁说话更自信，谁穿着黑色衣服，谁和谁挨着坐，谁在某个时刻笑了／皱眉了／呈现出其他身体姿势……所有这些因素都会影响结果。相似的群体每一天都会做出各种不同的决策，如雇用、晋升、破产、沟通策略、环境保护条例、国家安全、大学录取或新产品发布等方面的决策。

我们在前文曾提到，对多个个体的判断进行汇总可以减少噪声，而这里又强调群体会放大噪声，似乎显得很奇怪。然而，受群体动态过程的影响，群体也会放大噪声。有做出的判断与正确答案接近的明智的群体，但也有追随暴君的群体、增加市场泡沫的群体、相信奇迹或受共同幻想支配的群体。 微小的差别可能导致一个群体坚定地说“是”，而本质上相同的另一个群体却坚定地说“否”。 群体成员之间的互动会导致数量巨大的噪声，这也正是我们此处强调的重点。无论是对于相似群体之间的噪声，还是对于单个群体中的噪声，上述假设都是成立的。因此，无论是单个群体还是多个群体，都是如此。我们应该把这些群体对某个重要问题的判断视作一系列可能性中的一个。

音乐中的噪声

为了寻找证据，我们从一个看似不太可能的地方开始：普林斯顿大学社会学教授马修·萨尔加尼克（Matthew Salganik）和他的合作者开展了一项关于音乐下载的大型研究。实验人员创建了一个由几千人组成的控制组（某流行音乐网站的访客）。控制组成员可以试听并下载72首新歌中的1首或多首。这些歌曲的名字都很生动：《深陷橘子皮》《啃》《眼罩》《棒球术士v1》《粉红侵略》等。还有一些歌曲名字跟我们的问题看起来好像十分相关：《最好的错误》《我是个错误》《信念高于答案》《生活的神秘》《祝我好运》《走出困境》等。

在控制组中，被试未被告知其他人说了什么以及做了什么等额外的信息，这样一来，他们就可以独立判断自己喜欢哪一首歌或希望下载哪一首歌。但萨尔加尼克及其同事还创建了其他8个组，对应8种群体情境，并将成千上万的被试随机分配到这些情境中。这8组被试获知的所有其他信息都是相同的，但有一处不同：人们可以看到同组中的其他人先前下载过哪些歌曲。例如，如果《最好的错误》是该组中深受喜爱的歌曲，那么所有成员都可以看到；同样，如果一首歌完全没有人下载，他们也可以看到。

因为不同的群体在任何重要的维度上均无差别，这项研究看起来就像是重复了8次。你可能会推测，好听歌曲的排名会上升，而不好听歌曲的排名则会下降，如果是这样，这些不同群体中的歌曲排名应该相同，或至少相似，即不同群体之间没有噪声。事实上，这也是萨尔加尼克及其同事试图去探讨的问题，他们考察的是一种特定的噪声源：社会影响。

该研究的核心发现是：不同群体中的歌曲排名差异巨大，也就是说，在不同群体之间存在大量噪声。在某个群体中，《最好的错误》可能非常成功，而《我是个错误》则非常失败；在另一个群体中，《我是个错误》极其成功，但《最好的错误》的表现则一塌糊涂。如果一首歌一开始就备受欢迎，它随后也一定会表现得更好，而如果它一开始没有获得这种优势，那么结果就难说了。

可以肯定的是，最差的歌曲（在控制组中表现最差）排名不可能靠前，最好的歌也不太可能垫底，而对于其他歌曲而言，任何事情都有可能发生。正如作者所强调的那样：“相比于独立判断，人们在有社会影响的条件下，更难预测哪些歌曲会成功。”简而言之，社会影响在不同群体之间产生了明显的噪声。如果你仔细思考，你就会知道，单个群体内部也会存在噪声，因为他们很容易就喜欢一首歌或不喜欢一首歌，这取决于这首歌一开始是否受欢迎。

正如萨尔加尼克及其同事随后所展示的，群体的结果很容易被操纵，因为流行程度会自我强化。在后续实验中，他们动了点小心思，对控制组中的歌曲排名进行了反转。换句话说，他们谎报了这些歌曲的受欢迎程度，人们看到的最好的音乐其实是最差的音乐，反之亦然。研究人员随后观察了访客们的反应，结果是，最不受欢迎的歌曲深受喜爱，而原来最受欢迎的歌曲则表现非常差。即使研究人员误导了人们哪些歌曲是受欢迎的，但在人数非常大的群体中，受欢迎和不受欢迎程度受排名的影响是相同的。唯一的例外是，随着时间的推移，控制组中最好听的歌曲会逐渐变得更流行，这意味着反向排名也没有让它垫底。但是，对于绝大多数歌曲而言，反向排名决定了它们的最终排名。

我们很容易看出这项研究与一般性的群体判断的关系。假设有一个包含10名成员的小群体，他们要决定是否采用某项大胆的新举措。如果一两个支持者先发言，他们很容易使整个团队转向他们偏好的方向。如果最先发言的是持怀疑态度的人，情况也是如此，至少当人们能够互相影响时是如此。事实上，群体中的成员常常会互相影响，因此，仅仅是因为先发言的人不同，或者一开始下载某首歌的人更多，类似的群体会做出非常不同的判断。《最好的错误》和《我是个错误》的流行现象在各种专业判断中也存在。如果群体没有收到类似歌曲排名的信息，比如对某一大胆举措的热烈支持，该举措可能仅由于其支持者未发言而无法推进下去。

不仅仅是音乐下载，其他领域也一样

如果你是一个多疑的人，你可能会认为音乐下载只是一个特例，或者至少与其他的群体判断不同，然而，在其他领域也出现了类似的结果。我们来看一下在英国的公民投票（简称公投）中，人们对不同提案的支持情况。在公投中决定是否要投支持票时，人们自然要判断这是不是一个好的主意。这种模式类似于萨尔加尼克及其同事的研究：最初涌现的流行度会自我强化，如果某项提案在第一天没有受到关注，那么它很快就会沉寂。在政治领域就像在音乐实验中一样，支持与反对在很大程度上依赖于社会影响，具体而言，依赖于人们是否能看到其他人投的是支持票还是反对票。

美国康奈尔大学社会学家迈克尔·梅西（Michael Macy）及其合作者在音乐下载实验的基础上构建了另外一个实验，目的是弄清楚：他人的观点是否会影响人们的判断，使得相应的政治观点受到民主党人的欢迎，而遭到共和党人的反对（或者相反）。答案简单明了：是的。在网络群体中，如果民主党人看到某一观点一开始就受到其他民主党人的支持，那么他们就会采纳这一观点，并最终导致大部分民主党人支持这一观点。但是，如果另一个网络群体中的民主党人看到，某一观点一开始就受到共和党人的支持，那么这些民主党人就会拒绝接受这一观点，并最终导致大部分民主党人都拒绝接受该观点。简而言之，政治观点同歌曲一样，最终的命运取决于最初的受欢迎程度。正如梅西等研究人员指出的那样：“少数先行者的随机差异”会对整个群体产生颠覆性的影响——让共和党人和民主党人都欣然接受一系列与彼此的立场毫不相关的观点。

我们还可以思考一个一般性的群体决策问题：人们在网上如何对各种评论做出判断。耶路撒冷希伯来大学教授列夫·穆奇尼克（Lev Muchnik）及其同事在一个网站上开展了一项实验，他们向人们呈现不同的故事，并允许人们发表评论，以及对这些评论投赞成票或反对票。研究人员可以人为地、自动化地给一些评论投出第一张赞成票。你可能会想，在成百上千名访客中，使某条评论多出一张初始赞成票根本无足轻重，这个想法合情合理，却是错的。在看到第一张赞成票之后（别忘了这完全是人为操作的），下一个访客对该评论投赞成票的可能性增加了32%。

令人惊讶的是，这一效应随着时间的推移一直在持续。5个月后，开始时人为投出的那张赞成票，使得该评论的平均赞成票得票率增加了25%。最初的一张赞成票竟然产生了如此大的影响，这表明噪声确实存在。不管最初那一票是为何而投，它都使整体的受欢迎程度发生了巨大的改变。

这项研究为群体态度的转变以及群体内为何存在噪声提供了一条线索： 相似的群体会做出非常不同的判断，而同一群体做出的判断也仅仅是一系列可能性中的一种。 群体成员表达的赞成、中立、反对意见，其作用也类似于一开始投赞成票或反对票。如果群体中的一个成员立即表示赞同，那么其他成员也就有理由这么做。毫无疑问，当群体赞同某些产品、人、活动或思想时，可能并不是因为它们的内在优点，而是因为“提前投票”发挥了作用。当然，穆奇尼克的研究针对的是大规模群体，但同样的结果也会出现在小规模群体中，甚至更加富有戏剧性，因为最开始投下的赞同某个计划、产品或判决的赞成票经常会对他人产生更大的影响。

这里有一个相关的观点。我们曾经指出群体智慧效应指的是，如果你召集一大群人，问他们一个问题，他们的答案的平均值更有可能接近真实答案。对判断进行汇总是一种减少噪声，进而减少误差的非常好的方法，但是如果人们互相交流，那情况又会如何呢？你可能认为这样做是有好处的。毕竟人们可以互相学习，从而找出正确答案。在一些非常有利的条件下，互相分享知识、深思熟虑的群体确实会做得很好。然而，独立做出判断是发挥群体智慧的前提条件，如果人们不是自己做出判断，而是依赖于其他人，那么群体并不会更明智。

有些研究已经表明了这一点。在简单的评估任务——评估城市里的犯罪数量、一段时期内增长的人口、不同国家国界线的长度等任务中，只要群体成员独自做出判断，群体会更明智；如果他们知道了其他人的评估，比如一个12人小组的平均估计值，那么群体比个体的表现还要糟糕。正如研究者指出的那样，社会影响是有问题的，因为它们降低了群体多样性，但并没有减少群体的误差。具有讽刺意味的是， 即便一点点社会影响都会降低群体智慧，但对多个独立判断进行适当的汇总则可以产生令人难以置信的准确结果。

信息级联，极易放大群体判断的噪声

我们描述的一些研究中包括“信息级联”（information cascades）。信息级联很常见，它可以解释为什么一些相似的商业群体、政治群体以及其他群体会做出完全不同的决策，以及为什么一些小的变化会产生如此不同的结果乃至噪声。只有历史真实发生了，我们才能看到，而对于许多群体以及群体决策而言，存在着各种各样的可能性，而最终得以实现的只是其中的一种。

要想理解信息级联是如何发挥作用的，我们可以想象在一间大办公室中有10个人，他们在决定要雇用谁来担任一个重要职位。候选人有3位，分别是托马斯、山姆和朱莉。假设群体成员是按顺序发表自己的观点的，每一个人都会认真聆听其他人的判断。阿瑟第一个发言，他认为托马斯是最佳人选。芭芭拉现在知道了阿瑟的判断，如果她也认为托马斯是最佳人选，她肯定会认同阿瑟的意见。假如她不确定谁是最佳人选而她信任阿瑟，她可能也会认同托马斯是最佳人选。因为她足够信任阿瑟，所以她支持了阿瑟的判断。

现在轮到查尔斯发言。阿瑟和芭芭拉已经表明了他们想雇用托马斯，但查尔斯有自己的想法。基于他自己掌握的有限信息（他非常清楚自己的信息很有限），他认为最佳人选不是托马斯，而是朱莉。虽然查尔斯有自己的想法，但他也有可能会忽视自己已知的信息，而只是附和阿瑟和芭芭拉。如果此事发生，那并不是因为查尔斯懦弱，而是因为他是一个尊重他人的倾听者。他可能只是认为：阿瑟和芭芭拉都选托马斯，他们肯定有自己的理由。

第四位发言人是戴维，除非戴维认为他自己掌握的信息确实比前几人更有说服力，否则他也会附和前几个人的意见。如果戴维也这样了，那么戴维就处在一个“信息级联”中。事实上，如果戴维有非常充分的理由认为阿瑟、芭芭拉和查尔斯的选择是错误的，那么戴维可能会表示反对。但如果他缺乏充分的反对理由，那么他就会做出和前几个人同样的选择。

重要的是，查尔斯和戴维可能了解托马斯或其他候选人的一些信息，并且有自己独到的看法，而阿瑟和芭芭拉并不知道这些信息和独到的看法。如果这些信息得以分享，那么这些非公开的信息可能会改变阿瑟和芭芭拉的意见。如果查尔斯和戴维先发言，他们不仅能表达关于候选人的意见，而且可能提供对其他决策者产生影响的信息。但由于查尔斯和戴维是后发言的，所以他们的非公开信息就只有自己知道。

假设现在大家也想听听后续参与投票的人——埃丽卡、弗兰克和乔治的观点。如果阿瑟、芭芭拉、查尔斯和戴维都认为托马斯是最佳人选，即使埃丽卡等人有理由认为其他人选可能更合适，阿瑟等人也还是会做出相同的选择。当然，如果答案明显是错的，埃丽卡等人会反对这种越来越趋于一致的意见，但如果错误没有那么明显呢？这个例子的吊诡之处在于，阿瑟最初的判断启动了一个过程，其他人被引导进了信息级联中，即便有些支持托马斯的人实际上根本没有任何看法，甚至有人认为托马斯根本不是最佳人选，但最终结果依然是所有人都选择了托马斯。

当然，这个例子是人为设定的，然而在各种群体中，类似的事情经常发生。人们倾向于向他人学习，如果先发言的人似乎喜欢某个事物或者想去做某件事，人们会表示认同。如果人们不怀疑这些先发言的人，或缺少一个明确的理由认为后者是错误的，那么至少在这些情况下，人们会选择认同。

我们想重点强调的是： 信息级联会导致噪声可能出现在多个群体之间，有时出现的可能性甚至非常大。 在上面的例子中，是阿瑟先发言，并且他看好托马斯。假设是芭芭拉先发言，而她更看好山姆，或是假设阿瑟的感觉稍微有点不同——他更喜欢朱莉，那么，一个可能的结果是，群体最终会倾向于选择山姆或朱莉，但并不是因为他们更好，而是因为信息级联。这也是音乐下载实验及同类实验中的核心发现。

需要注意的是，人们进入信息级联并不意味着他们是非理性的。如果人们不确定要雇用谁，追随他人未必不是明智之举。随着持同一观点的人越来越多，认同他们的选择仍然是明智的。然而，这里有两个问题：首先，人们往往会忽视一种可能性，即大部分人也跟他们一样处于信息级联中，因此他们也没有做出自己独立的判断。当看到3个、10个、20个人都欣然接受某种结论，我们可能会低估他们受前面的人影响的程度。即使他们的一致性反映的只是最初几个人的观点，但我们可能会认为这种一致性反映了某种群体智慧。其次，信息级联可能会导致整体朝着完全错误的方向前进，毕竟，阿瑟对托马斯的判断可能是错的。

当然，信息不是导致群体成员互相影响的唯一原因，社会压力也是很重要的因素。在公司或政府机构中，人们可能会通过保持沉默来避免自己显得不友好、爱争吵、迟钝或愚蠢。人们希望成为团队中的一员，这就是为什么人们通常会追随他人的观点和行为。人们可能认为自己知道什么是对的或什么有可能是对的，但他们表面上仍然倾向于与群体或少数优先发言者保持一致，从而在团队中保持良好的风度。

刚刚讲到的招聘故事也如出一辙，人们选择托马斯并不是因为他们通过彼此分享的信息了解到了托马斯的优点和长处，而是因为他们不希望被看成愚蠢或不合群的人。阿瑟支持托马斯的这一最初判断可能会引发一种从众效应，最终对埃丽卡、弗兰克或乔治施加了强大的社会压力——仅仅因为其他人都喜欢托马斯，所以埃丽卡等人也选择了托马斯。就像信息级联一样，社会压力也会形成“信息级联”：人们可能放大了先发言者所持有的信念。如果人们支持托马斯，那么他们这样做可能不是因为他们真的喜欢托马斯，而是因为一个优先发言的人或一个有权势的人支持托马斯。这样一来，群体成员的一致性进一步增加，社会压力水平也增加了。这是一个在公司或政府机构中非常常见的现象，它可能会增加人们对错误判断的信心，并导致人们一致支持这个错误的判断。

社会压力会导致不同群体之间产生噪声。如果在公司中，某个人组织召开了一次会议，希望对公司发展方向做出重大改变。会议的发起者可能最先发表一番言论，进而导致人们一致支持这种改变。他们的一致性可能是社会压力的产物，而并不是自己的观点。同样，如果另一个人在会议一开始就表明了不同的观点，或者最初的发言者保持沉默，讨论可能会朝着一个不同的方向发展。总之，非常相似的群体可能会由于社会压力的影响而到达不同的终点。

群体极化，讨论往往会滋生更极端的结论

在美国和其他一些国家，刑事案件和一些民事案件通常是由陪审团参与审判的。人们希望陪审团成员经过互相商议，做出比个体更明智的决策。然而，针对陪审团的研究揭示了一种会产生噪声的社会影响：群体极化（group polarization）。这一概念指的是，人们在互相交流时，往往会提出比原有倾向更极端的观点。例如，在一个7人群体中，如果大部人都认为在巴黎设立一个新的办事处是一个好主意，讨论之后，群体的决定可能会变成：在巴黎设立一个新的办事处是一个极好的主意。内部讨论常常会导致群体更自信、更团结、更极端，三者通常以更大的热情展现出来。群体极化不仅发生在陪审团中，也发生在要做出专业判断的团队之中。

我们通过一系列实验研究了陪审团在“产品责任案”中做出的惩罚性损害赔偿的决策。每位陪审员的决策对应一笔赔偿金额，目的是惩罚公司的不合规行为，并对其他公司起到威慑作用。我们会在第15章更加详细地讨论这项研究。为了说明群体极化问题，我们来看一个实验，该实验比较了现实世界中的陪审团和“统计中的陪审团” 。首先，我们向899名被试呈现案件情境，并要求他们独立做出判断：用具有7个等级的量表来表达他们的愤怒程度、惩罚倾向，以及给出相应的赔偿金额。随后，基于这些被试的反应，我们利用计算机模拟出数百万个“统计陪审团”，即随机匹配的虚拟的6人群体。在每一个统计陪审团中，我们采用6人的中位数作为最终的裁决结果。

我们发现，这些统计陪审团的裁决非常一致，也就是说，噪声大大减少了。噪声水平的降低是因为对裁决结果进行了机械性的汇总，即 对个体的独立判断进行平均会减少噪声。

然而，现实世界的陪审团不是“统计陪审团”，陪审员们会针对一起案件交流各自的观点。你有理由怀疑这些经过深思熟虑的陪审员是否真的会倾向于做出与评级为中位数的成员一致的判决。为了探明这一点，我们紧接着做了第二项研究。这项研究召集了3000多名有陪审员资格的人，由他们组成500多个6人一组的陪审团。

答案简单明了：总是互相商议的陪审团比统计陪审团具有更多的噪声。这清楚地反映了由于社会影响带来的噪声，互相商议增加了噪声。

这项研究还有一个有趣的发现。如果6人中评级为中位数的成员只有中等程度的愤怒，并且倾向于对相关人员从轻处罚，那么陪审团商议后的判决通常会更宽容；相反，如果各项选择均为中位数的成员非常愤怒，并且倾向于进行严厉惩罚，那么经过交流之后，陪审团会更愤怒，他们做出的判决也更严厉。当用赔偿金额来表达这种愤怒时，陪审团商议后的赔偿金额要比金额的中位数高。实际上，27%的陪审团选择的赔偿金额通常与陪审员选择的最高赔偿金额相等，甚至会比后者更高。能够相互交流的陪审团的噪声不仅比“统计陪审团”更高，而且加重了其成员原有的倾向。

回想一下关于群体极化的基本发现：人们彼此交流之后，明显变得比原来更加极端了，我们的实验证明了这一现象。陪审团成员在商议后要么变得更加宽容（当评级为中位数的成员倾向于宽容时），要么变得更加严厉（当评级为中位数的成员倾向于严厉时）。同样，倾向于实施金钱惩罚的陪审团在商议之后也会变得比评级为中位数的成员更加严厉。

对群体极化的解释类似于对信息级联的解释：信息发挥着重要作用。如果大部分人倾向于进行严厉惩罚，那么群体成员会听到很多认为有必要进行严厉惩罚的观点——反方的观点更少了。如果群体成员能够互相交流，那么他们会朝向处于主导地位的观点转变，导致群体更加团结一致、更加自信、更加极端。而且，如果人们在意自己在群体中的声誉，他们也会朝着占主导地位的观点转变，这样也会导致群体极化。

当然，群体极化会产生误差，并且经常如此，但我们的主要关注点在于变异性。正如我们所看到的那样，对判断进行汇总会减少噪声，也正因为如此，判断数量越多，判断的品质越好，这也是为什么“统计陪审团”比单个陪审团噪声更少。同时，我们发现能够相互交流的陪审团会比“统计陪审团”产生更多噪声。当处于相似情境中的群体最后表现出巨大的差异时，其原因往往在于群体极化，其结果是产生巨大的噪声。

在商业、政府以及其他机构中，信息级联和群体极化都会导致群体在应对同一问题时产生巨大差异，最终的判断结果取决于少数人——那些率先发言的人或有巨大影响力的人，这是一个值得注意的问题，因为个人的决策有很大的噪声。我们已经看到，水平噪声和模式噪声会使得群体成员的观点产生不应有的差异，而且该差异比我们预期的更大。我们已经看到疲劳、情绪、可以比较等情境噪声会影响率先发言的那个人的判断，群体互动则会放大这种噪声。结果，经过商议的群体会比仅仅对个体判断进行平均的统计群体产生更大的噪声。

由于企业或政府部门的一些重大决策都是在商议之后做出的，我们尤其要对这种风险保持警觉。组织及其领导应该采取一些方法来控制其成员在判断中的噪声，比如对群体商议进行管理，从而减少噪声而不是增加噪声，我们提出的减少噪声的策略，其目的就在于此。

· 消除噪声

群体决策中的噪声

·　似乎任何事情都取决于它最初的受欢迎程度，因此，我们最好想尽一切办法来让自己发行的产品在第一个星期就获得巨大成功。

·　正如我一直怀疑的那样，政治或经济理念就像电影明星。如果人们认为其他人喜欢，那么这种理念就会大受欢迎。

·　我一直很担心，当我的团队聚在一起时，我们会更自信、更团结、对我们所选择的行动方针更加坚定。我认为，我们的内部流程可能存在一些问题。

登录后阅读更多精彩内容

第7章 情境噪声，无时无刻不在影响着我们的判断