第二章
斑马、马与推断的本质

有一句俗话说：“如果你听到马蹄声，你应该猜是马，而不是斑马。”这句广为人知的俗语据说是马里兰大学医学院的西奥多·伍德沃德（Theodore Woodward）医生在20世纪40年代说的。这句话想要告诉我们的是，除非你是在动物园或者非洲大草原上，不然马要比斑马常见得多。尽管马蹄声有极小可能性来自一群从附近动物保护区逃出来的斑马，但更有可能的解释是，马蹄声是由马发出的。概率很重要。由于概率的重要性，某些现象的可能性最大的解释，最有可能是正确的解释，这听起来像是同义反复。

当然，选择最有可能的解释并不能让你得诺贝尔奖，甚至不会让你在晚间新闻中露脸。这就是为什么“人咬狗”在新闻界是一个被用烂了的梗。狗咬人不足为奇，毫无新闻价值，而人咬狗却因为出人意料而成为新闻素材。

而且，不仅仅每日新闻是这样，几年前一本很受欢迎的书《黑天鹅》（ The Black Swan ），也讨论了人们对罕见和意外事件的发现和研究。 ^[16] 这种想法至少对于某些目的来说是正确的。毕竟，如果威尔伯·莱特（Wilbur Wright）说：“奥维尔（Orville Wright），我们为什么不坐火车呢？”就没有人还会记得莱特兄弟了。同样，乔治·格什温（George Gershwin）和艾拉·格什温（Ira Gershwin）为1935年首次公演的歌剧《波吉与贝丝》（ Porgy and Bess ）创作的红极一时的歌曲中提到，“事情不一定是这样”，它也提醒我们概率只是概率，有时那些可能性小的解释反而更重要，尽管可能性小。

发现和追求不寻常的和意料之外的事物确实对发现、创造和创新很有价值。但是，期待预期中的结果，往往也是有价值的——认识到概率的重要性并信赖它。在没有更多信息的前提下，猜马而不是斑马，猜对的可能性更大。

“猜马，而不是斑马”与证据的关系是，证据与推断有关，而推断与概率有关。演绎推理（所有的鸟都有脊椎骨，这只鹦鹉是一只鸟，所以这只鹦鹉有脊椎骨）是理性思考的核心。而归纳推理也一样重要，尽管归纳推理的结论不一定遵循它的前提。比如，“大部分意大利公民讲意大利语，这位女士是意大利公民，因此她可能讲意大利语”。结论可能在某些特定条件下并不成立，这样的归纳推理是证据思想的核心。一个人是意大利公民，是这个人说意大利语的强有力的证据，但这样的归纳推理在某些特例中可能是错的。确实有一些意大利公民不说意大利语，他们可能来自意大利北部说德语的地区，或者他们可能只说西西里或者威尼斯的本地方言，或者他们可能来自新移民家庭，在家使用他们的母语。然而，这些错误的可能性并不表示一些人的意大利公民身份不是他们说意大利语的证据。相信一个意大利公民会说意大利语是很好的归纳推理，而它是一个很好的推理的原因并不是因为这个推理是一个逻辑必然，就像演绎推理那样，而是因为它是基于证据的。

让我们考虑一下医学诊断过程，这正是“猜马，而不是斑马”这个俗语出现的领域，而且，在教医学生诊断技术时，人们还在继续借用这个俗语。医生看到一个症状，或者一系列症状，并根据她的知识储备推断（或假设）这些症状可能的原因。更确切地说，她可能不仅仅看到了患者的症状，也了解了患者的生活方式和病史的方方面面，我们把这些信息与症状的结合叫做“指征”（indications）。比如，医生可能知道一个皮肤上有环形红斑，抱怨发冷和头疼的患者恰好喜欢穿短裤爬山和在野外露营。根据这些指征，医生推断患者得了莱姆病（Lyme disease）。她这样诊断是因为这些指征在以往病例中往往与莱姆病有关。当然，这些指征，即这一个个的证据，也可能不是由莱姆病而是由其他疾病引起的。有些瘀伤可以形成环形红斑，体癣也同样可以。即使是对穿短裤的爬山者和野营者来说，发冷和头疼也有很多可能的原因。这些指征汇集在一起，却不是由莱姆病引起的，这种可能性不是没有，但非常微小。因此，鉴于这些指征，推断环形红斑的病因是体癣就像猜斑马，而马的角色是由莱姆病来扮演的。面对如上所述的指征，如果没有与之对立的证据，一个合格的医生通常会按莱姆病来诊断和治疗。她这样做并不是因为诊断为莱姆病是百分之百正确的，而是建立在概率的基础上。伊恩·哈金（Ian Hacking）认为，归纳推理包含着不可避免的“风险”，就像以上例子。因为归纳推理对特定的事例可能是错的，这点和逻辑演绎不同。 ^[17] 无论马蹄声来自马的概率有多大，马蹄声来自斑马的可能性还是存在的，哪怕很小。因此，马蹄声来自马这个推断中包含着出错的风险。但是，这个风险是归纳推理中固有的，因此也是基于证据得出的结论中固有的。

莱姆病的例子让人联想到医疗领域最近兴起的所谓“循证医学”（evidence-based medicine）运动。这个命名乍一听会让人不安。真的还有如这个名字所暗示的其他的医学吗？真的还有医生行医不遵循证据吗？或许叫“无证据医学”（evidence-free medicine）？那会让人很不安。谁会要一个不在乎证据的医生看病呢？

但是，让我们仔细考查循证医学运动。它兴起于加拿大麦克马斯特大学（McMaster University），盛行于英国，如今遍布全球。 ^[18] 如同其他运动一样，它吸引着一群忠实的追随者，偶尔也会招来愤怒的反对者。 ^[19] 这个运动的宣言有力地表达了它的核心思想，即循证医学“慎重、准确、明智地运用目前最好的证据来确定每个患者的治疗方案”。 ^[20] 就这句话本身而言，很难看出这怎么可能有争议。但当我们深挖由循证医学引发的争论时，就会清楚看到争论源自循证医学看似明确、实则隐晦的主张，即从随机对照试验中得到的证据处于证据金字塔的顶端。对于循证医学的真正信徒来说，有临床经验的医生从他的知识、技能和经验中得到的偏定性的、有时凭印象的证据，处在证据金字塔的下层，因此价值较低。但是，如果你是个经验丰富的医生，长期以来主要依靠从多年行医经历和成百上千个患者身上积累起来的经验来诊断和治疗，你会将循证医学运动的证据金字塔看作威胁，或者冒犯，或者两者皆有。

我不想在这里对循证医学的支持者和反对者之间的争论做裁判。但这个争论强调了一个观点，即证据有好坏之分，衡量证据好坏的标准是从这些证据中推断出结论的强度，而衡量这种强度的标准是结论正确的概率。正如循证医学运动提醒我们的，通常来说，当证据来自精心设计和执行的对照试验或者其他同样严格的方法时，这种概率最大。关于各种新冠疫苗有效性的研究就是一个很好的例子。在万众瞩目下，莫德纳（Moderna）公司的“mRNA-1273”新冠疫苗的初试招募了30000多名研究参与者，一半人被注射了疫苗，另一半条件相同的人被注射了安慰剂。结果发现，安慰剂组出现了95例感染，而治疗组出现了5例感染，这个差别得出了94.5%有效性这个广为流传的结论。循证医学运动将这样的研究置于证据金字塔的顶端。

但现在我们假想一个临床医生，她已经治疗了38名未接种疫苗且新冠病毒检测已呈阳性的患者。她给所有患者提供了普通流感的标准治疗，比如说使用达菲（Tamiflu）。除了两位患者外，其余患者的病情都没有进一步发展，也无须住院。当她接诊第39位没有接种疫苗的患者时，她从过去的经验中推断出达菲对缓解新冠肺炎症状有效，并据此提供处方和治疗。

可能这位临床医生接诊的患者不用达菲，病情好转的比率还是一样，这个关于达菲有效性的基于经验的推断不能完全排除这个可能性。也有可能，另一个治疗方案会产生更好的治疗效果，无论以治愈速度还是以治愈率来衡量。而设置一个精心设计和执行良好的对照试验的目的，就是排除以上及其他原因，正是这些原因让患者没有使用达菲就痊愈了。可以想见，从对照试验得出正确结论的概率会比从经验推断得出正确结论的概率高。由于根据证据的推理是归纳性的，而归纳推理是概率性的，因此根据证据的推理必然是概率性的，并且更高的概率是衡量更好证据的标准。

然而，重要的是要认识到，实验或实验室并不能使基于实验的证据一定比其他类型的证据更有说服力。从对照实验中得出正确结论的可能性常常比从其他类型证据得出的更高，但这并不绝对。有些实验的设计很糟糕，有些实验室很混乱。与此同时，也有些基于经验的定性推断，其证据来自时间跨度长、数量非常大的案例（即数据点），它们试图从可能的原因中分离出真正的原因，同时排除其他可能的原因，这种做法在理论上与科学家做受控实验室实验类似，只是没有那么精确。 ^[21] 因此，尽管关于循证医学的争议告诉我们证据有好坏之分，提醒我们结论正确的概率是衡量证据强度的标准，但这个争论也提醒我们，定性的或者基于经验的证据依然是证据。循证医学运动用“循证”一词隐晦地让我们相信，不依赖大量已发表并经过同行评审的实验室或其他实验证据的医学，根本就不是在使用证据。 ^[22] 但这是一个错误。其他类型的证据不但存在，而且有时候产生的推断的正确率还很高。问题不在于证据的有无，而在于证据的好坏。经过同行评议程序的对照实验和随机对照试验是科学推断的金标准。但其他形式的信息和由此产生的推断常常也可能是正确的，甚至可能性非常高。因此，那些其他形式的信息可以被当作证据，而且常常是非常好的证据。

认识到较弱的证据依然是证据，并不是要否认有些人（常常还是政治人物和公众人物）的断言真的完全没有任何证据支持。例如，没有任何证据表明，有一个叫“Q”的神秘人物带着他那魔鬼般的恋童癖帮派渗入了民主党。 ^[23] 有人将认为这个阴谋存在的说法形容为“毫无证据”，这是完全正确的。同样的例子还有，美国联邦地区法官马修·W.布兰(Matthew W. Brann)在2020年11月21日愤怒地总结道，对2020年总统选举中存在欺诈的指控毫无证据。但这些都是极端案例。更常见的情况是，人们指责某些陈述或结论没有证据，其实是在指责现有的证据不合适，或者不足以让指责者满意。有时候，支持某些结论的现有证据如此薄弱，以至于即使从技术上讲有证据，也应该被视为没有。但“没有证据”的指控常常反映了一个错误的观念，即只有具体的实物证据或者书面证据才算证据，目击者的证词或许也能算，除此之外的东西都不算证据。本节的启示就是，这不是真的。我们将在下文反复回顾这一点。各种各样的东西都可以是证据，包括实物（典型的是凶器或者尸体）、书面文件、个人观察、过去经历以及他人告诉我们的话。尽管所谓的间接证据通常在电视里或者被有罪被告的律师驳回或诋毁，但法律制度正确地认识到间接证据可以是非常好的证据，我们其他人也通过无数方式，在无数场合中意识到了这一点。 ^[24] 的确，缺乏证据也可以是证据。 ^[25] 因此，尽管我们应该就其结论的证据质询官员及其他人，我们也应该质询那些希望得到和已经提供不同类型的证据的人，目的是搞清楚怎样的证据能让他们满意。

对证据缺失的抱怨往往掩盖了对证据数量和证据类型的抱怨。在第三章，我们会回到需要多少以及多强的证据才能下结论或者采取行动这个半定量问题。然而，我在这里想要强调的是，不仅在“没有证据”和“证据类型不能让我满意”之间，也在“没有证据”和“没有足够证据让我满意”之间存在显著的不同。就像前者的抱怨往往用“没有确凿证据”“没有具体证据”“没有直接证据”来表述或者说掩饰；后者也往往表达为“没有决定性证据”“没有确定的证据”，甚至是“没有证据”。 ^[26] 两者的表述方式虽略有不同，但都包含着（或许出于无心的）负面推断，即抱怨者希望贬低至少其中一部分支持结论的证据。这些贬低中有些是合理的，有些不是。但这些表述应该让听众或者读者警觉到，确实存在一些证据，而不是毫无证据。

第二章 斑马、马与推断的本质

第二章
斑马、马与推断的本质