华章心理精选套装：理性社会人系列丛书（共3册）最新章节_基思·斯坦诺维奇著

概率的问题：对基础比率的忽视

下面这两个例子曾是许多研究的检验对象，它们很好地反映了人们在处理概率信息时的困难所在。第一个例子是所谓的出租车问题（Bar-Hillel，1980；Koehler，1996；Lyon&Slovic，1976；Macchi，1995；Tversky&Kahneman，1982），这是一个被研究了20多年的问题。

某晚发生了一起出租车肇事逃逸的事故。发生这起事故的城市有两家出租车公司，一家是绿车，一家是蓝车。已知以下信息：这个城市里85%的出租车是绿车，15%的出租车是蓝车。一个目击证人报告说，造成事故的出租车是蓝车。法院在和事发当晚相同的情境下，检验了证人证词的可靠性，得到的结论是，证人能够正确识别出两种颜色中任一种的概率是80%。那么，造成事故的出租车是蓝车的概率有多大（表示为0~100%的百分数形式）？

在解释正确答案背后的逻辑之前，我们再来看一个问题。这个问题和出租车问题的逻辑是一样的，但与日常生活的关系更大。它涉及对医疗风险的评估，也曾是大量研究的关注所在（Casscells，Schoenberger&Graboys，1978；Cosmides&Tooby，1996；Sloman，Over，Slovak&Stibel，2003；Stanovich&West，1999），其中一些研究还涉及了专业的医疗人员。

想象一种由XYZ病毒引发的严重疾病，它的发病率是千分之一。有一种诊断这种疾病的检测方法，对确实患有这种疾病的人总能正确显示出XYZ病毒的存在。然而，假设这个检测方法有5%的假阳性率，这意味着，在并未患有这项疾病的人中，有5%的人会被误认为感染有XYZ病毒。我们随机选取一个人，对他实施这项检测，产生了一个阳性的结果（意味着该个体是XYZ阳性）。假定我们并不知道这个人的个人经历及病史，那么他确实感染有XYZ病毒的概率有多大（表示为0~100%的百分数形式）？

请在尝试回答这两个问题后再接着阅读后文。不需要精准地计算出答案（如果你觉得你能够做到，当然可以），只要给出你的一个最佳估计即可。这样做的目的并不是要得到准确的答案，而是检验你是否给出了一个合适的估计范围。许多人的答案都不能做到这点。

先来说明出租车的问题。贝叶斯定理揭示了对这类问题的概率估计应如何计算，定理给出将如下已知的两条信息组合在一起的最佳方式：

1.整体来看，15%的出租车是蓝车。

2.一个识别准确率为80%的证人，识别出问题中的出租车是蓝车。

大多数人并不会自然而然地把这两条信息以最优方式组合到一起。事实上，很多人在得知出租车是蓝色的概率仅为0.41，即使有目击证人的证词，事发车辆仍更有可能是绿车（0.59）而非蓝车（0.41）这一事实时，都很惊讶。原因就是，出租车是绿车的总体概率或者说先验概率（85%），要高于证人的识别可信度（80%）。即便不使用贝叶斯公式，我们也可以看到0.41这个概率是怎样得到的。在100个这类事故中，15辆车会是蓝车，证人能够识别出其中的80%（12辆）是蓝车；进一步，其中85辆车将是绿车，证人会将其中的20%（17辆）识别为蓝车。因此，29辆车会被识别为蓝车，但其中仅有12辆确实是蓝车。所识别的蓝车确实是蓝车的概率是12除以29，也就是41%。

下面的这个表格以另一种方式展示了这个事件的状态。在表格中从上到下，我们可以看到，100个此类事件，85个会涉及绿出租车，15个会涉及蓝出租车。再向下一行，我们可以看到，涉及事件的85辆绿出租车中，目击者将其中的68辆识别为绿车，17辆识别为蓝车。涉及事件的15辆蓝出租车中，目击者又将其中12辆识别为蓝色，3辆识别为绿色。在最后一行中，我们可以看到，总共有29辆出租车被识别为蓝车，而事实上只有12辆是蓝车。

使用贝叶斯规则，以下是具体计算方法

P（H/D）=P（H）P（D/H）/[P（H）P（D/H）+P（~H）P（D/~H）]

P（H/D）=（0.15）*（0.80）/[（0.15）*（0.80）+（0.85）*（0.20）]=0.41

只有不到50%的被试给出的这道题的答案在0.2~0.7，大多数人的答案都在0.8附近。简单地说，他们的这个答案完全依据了目击者的识别准确率，并未因为基础比率（0.15）非常小，而对这个数字再做调整（而这其实是应当考虑的问题）。也就是说，大部分人极大地高估了肇事车辆是蓝车的概率，他们高估了目击者的准确率，也低估了出租车是蓝车的基础比率或先验概率。这个例子形象地说明了，人们过于看重某一具体生动的单一事例信息，而忽视了将其与更抽象的概率信息相结合进行判断。

之前出现的XYZ病毒的例子，也反映了人们这种相同的倾向，即轻视基础比率形式的先验概率信息。最普遍的答案是95%，但正确的答案居然只有大约2%！人们非常大地高估了阳性结果预示着确实感染XYZ病毒的概率，这源于和之前出租车例子相似的一种倾向——高估个案信息而低估基础比率信息。虽然这道题的正确答案也能通过贝叶斯公式计算得出，我们仍可以用简单的逻辑推理来说明基础比率对最终概率值的重要影响。从题目中我们得知，1000个人中只有1个人真的是XYZ阳性。那么如果其余的999个人（并没有患病）去做检测，由于5%的假阳性率，检测结果会错误地显示出大约50个人感染了病毒（0.05乘以999）。因此，在51个阳性结果的病人中，只有1个人（大约2%）真的是XYZ阳性。综上，基于大部分人都未感染这种病毒的这种较低基础率，加上一定程度的假阳性率，导致了大部分阳性检测结果的个体其实都未患病这个事实。

根据贝叶斯法则，以下是具体计算方法

P（H/D）=P（H）P（D/H）/[P（H）P（D/H）+P（~H）P（D/~H）]

P（H/D）=（0.01%）*（100%）/[（0.1%）*（100%）+（99.9%）*（5%）]=0.1%/（0.1%+4.995%）=1.98%

在这两个问题中，人们都有一种高估个案证据而低估统计信息的倾向。个案证据（证人识别准确率、试验的检测结果）在大多数人看来较为“有形”和“具体”，更加生动。相比之下，概率方面的证据就显得很概率化，过于抽象了。这种推理过程显然是靠不住的，即便个案证据本身也总是概率性的，证人只能以一定程度的准确率做出正确的识别，临床检验也会有一定概率错误地识别出疾病。

到目前为止出现的这些问题，通常被称为非因果性基础比率，即与评判行为间没有明显因果关系的一种基础比率（Ajzen，1977；Barbey&Sloman，2007；BarHillel，1980，1990；Koehler，1996；Tversky&Kahneman，1982）。之前提过的出租车问题就是非因果性基础比率的一个例子。如果要把这个问题变成因果性的，只需将第一个事实改写成“虽然这两个公司的大小差不多相等，但在该市发生的出租车事故中，85%涉及绿出租车，15%涉及蓝出租车”（Tversky&Kahneman；1982）。在这个版本中，基础比率似乎就与出租车事故中涉及绿车的概率更为相关。相比非因果性基础比率，人们更倾向于使用因果性的基础比率进行判断。

在所有这类问题中，基本情形都是，个案证据中的诊断率（diagonosticity）应与先验概率结合起来，才能得出正确的结论。对这些概率的结合有正确的和错误的方式，而很多时候，尤其当个案证据给了我们一个非常具体的感觉时，人们都以错误的方式结合了这些信息。正确的结合方式应当使用贝叶斯规则，或更确切地说，要使用贝叶斯规则的洞察力（insight）。正如之前所提到的，这里强调一种贝叶斯规则的洞察力：个案证据的诊断率必须依据基础比率而做调整。这里关于贝叶斯推理的讨论并不是要暗示大家，我们每次都需要在脑子中使用贝叶斯公式对问题做出清楚的计算，大家只要学会定性的“贝叶斯式思考”就足够了，你们将拥有一种“贝叶斯直觉”，而不是非得记住这个规则。比如说，只要意识到基础比率的重要性就足够了。这就能够让我们看到XYZ病毒问题所包含的关键性思想——当对一种基础比率非常小的疾病，实施一个有一定假阳性可能性的检测时，大部分检测结果为阳性的个体其实都并未患病。这就是贝叶斯推理需要用的所有知识（当然，有更深程度的理解更好）。这种定性的理解足以保证人们在日常生活中对概率做出合理的近似估计，避免出现严重的行动错误。

总之，我们关心的问题是，人们对概率的本能性判断是否能够自动遵从或接近定理得到的结果。理论学家认为，进行概率判断的人是在进行一种无意识的“猜测估计”，而实验的证据却可以证明这些无意识的判断是否依从了贝叶斯定理对概率的一些限制。举个例子，当我们落地时，可以描述说我们的身体是在按照牛顿定律运动。然而，我们并不会在下落行为发生时有意识地进行牛顿定律的计算，只是由于我们表现出来的客观行为，可以这样描述。

道金斯（Dawkins，1976/1989）强调了本书在这里想要说明的观点：

正如我们可能在使用计算尺时，并没有意识到自己事实上应用了对数这一情形所示，我们也可以事先为一个动物设定好程序，让其表现出好像做了一个复杂运算的样子……一个人把球扔上天空又在下落时接住，他的表现就像是解出了预测球体运动轨迹的一系列微分方程，但他可能既不知道也不在乎什么是微分方程，而这并不影响他接住球的能力。在人们的某种潜意识层面，有一种与数学运算相似的功能在运作。

类似地，我们现在要讨论的就是，人们的自然性判断是否能够被描述为遵从了贝叶斯规则所述的理性推理模型。即使人们不知道任何与公式相关的知识，也没有进行任何有意识的计算，他们的概率判断也有可能被描述为与贝叶斯规则相一致。在下面的这些问题中，我们可以看到，许多实验都考察了在看到证据后，被试的概率判断是否能自然而然地指向正确的方向。研究发现，有时由于一种特殊的推理错误，即对P（D/~H）的忽略，人们并不能做出正确判断。