购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

04 案例一:一次亲身经历

我们将看到:描述集中趋势的量数过于简化抽象,唯有差异表现反映实际

1982年,我才40岁,就被确诊身患腹膜间皮瘤 。那是一种罕见的癌症,(当时的权威意见一致认为)患者“必死无疑”。然而,经过治疗,我抗癌成功。这归功于无畏的医生,他们采用了一套实验性的治疗方案。现在,该方案已可用来挽救不少早期确诊病患的生命。

在癌症幸存者的推动下,大量相关书籍应运而生。它们或是患者的经历自述,或是利于患者自助的文献。我珍视这些书籍。在挣扎求生的那些日子里,我从中获益良多。我所抵抗的,是一种令患者痛不欲生且无望治愈的疾病。因此,这场漫长的搏斗是我有生以来所经历过的最激烈的冲突。尽管我也算得上是个作家,却未有过将这次亲身经历诉诸文字的冲动,也不觉得有此义务。与之相反,对于像我这样一个极其注重隐私的人来说,该题材是可憎的,我避之不及。这么多年来,有关那段重要的人生经历,我只被说动过一次,写出一篇篇幅不长的文章。

努力付出后,若成果能收获赞许,必因其中蕴含有潜在的应用价值——这是我所接受并努力付诸实践的一大道德理念。因此,看到有那么多读者前来索取那篇文章,或为自己,或为身患癌症的朋友,我都感到十分欣慰——它的确有其价值。但是,我写该文,既非出于冲动(以作为个人见证),亦非出于义务(以满足上述道德之需)。我写《中位数并非启示》( The Median Is Not the Message )一文,是出于一种完全不同的知性之需。我相信,正是因为误信“‘差异物化’之谬”,换言之,即由于未对差异表现(“千姿百态”)的所有情形加以考量,才使得我们陷入一错再错的境地。我与癌症搏斗之始的经历,就是一个因避免该错误而获益的佳例。对于分享这一经历的冲动,我实在克制不住。

如今,人们对癌症的态度已大不如前。在条件艰难的过去,人们会对病人隐瞒确诊结果。究其原因,一方面,当时的许多医生认为,如此隐瞒是得以把握全局的优先途径(虽然这样显得有点可悲);另一方面,人们以为这一做法是出于怜悯之心,觉得确诊结果中哪怕有一个字流露出死刑宣判般的终极恐怖意味,大多数病人都承受不起(尽管此举有误导之嫌)。但是,视而不见也解决不了问题。试想,如果富兰克林·D. 罗斯福当初不精心掩饰其残疾的实情,而是告诉大家,自己的双腿已不听使唤,那么,在我们对残疾的认知方面,他将会有多大贡献?

如今,在美国,尤其是在波士顿这样知识分子集中的地方,针对这一最为棘手的问题,医生采取了另一种策略。在我看来,它可谓最佳之选——遵从患者的意愿,若想知悉病情,不管现实有多残酷,医生都会如实告知(当然,得以尽可能怜悯的态度,辅以尽可能和缓的言辞);若不想知道,不问即可。在这方面,我的主治医生仅有过一次闪失。当我了解到相关背景之后,便即刻原谅了她。当时,我已接受过首轮手术。(由于从未听说过这种疾病)在初次会面期间,我请她推荐有助于了解间皮瘤的阅读材料。她回答说,现有文献没有什么值得深究的内容。但是,想不让一个知识分子看书,就好比古谚所云——当一头犀牛迎面冲来之时,在场的人怎么可能执行不去想它的命令? 一旦我下得床来,便拖着蹒跚的脚步前往医学院图书馆,坐到计算机前,打开检索软件,敲入关键词“间皮瘤”。半小时后,通过浏览最新的研究论文,我明白了,为何我的医生对有限的信息如此信赖。

那些文献都包含有一条相同的残酷启示,即间皮瘤不可治愈,患者确诊后生存期中位数为8个月。曾有观点认为,在与诸如癌症的重大疾病做斗争的过程中,患者应保持积极向上的态度。在过去,这曾是一个热门话题,它强调“正能量”所发挥的作用,在伯尼·西格尔的畅销书中所述尤多。 [1] 尽管在我富有怀疑和理性的灵魂深处,我会祈求上苍,让我免受加州情感宣泄主义 的荼毒。然而,我必须承认,对于西格尔表达的重要主题,我也有相同的看法。虽说如此,我仍要在第一时间补充两条重要说明。其一,对于患者而言,保持心态平稳,固然有其潜在价值,但这并不会让我感到不可思议。尽管其作用机理尚不得而知,但我可以肯定,在将来,人类有能力得出科学的解释(且有可能与思维活动、情绪表达的生物化学途径同免疫系统之间的反馈互动有关)。其二,我们应坚决抵制这种“正能量”运动造成的无心伤害。因为,总有人难以克服绝望,内心深处无法产生积极情绪。对于他们而言,这种运动的教条可能会在不觉间沦为责备之词。毕竟,我们的个性是经过日积月累塑造而成的。我们不可能出于功利的考量,就让它发生根本改变。在我们心里,不存在标有“正能量”的按钮,也不存在轻轻一触,不痛不痒便诱发“正能量”爆棚的指头。有的人秉性根深蒂固、原则性强,当人生不幸意外袭来之时,或许换一种人格即可更好地应对,但我们又有多足的底气借此对不善变通的人横加指责呢?一位癌症患者若在恐惧和绝望中死去,他因痛苦而嘶喊,权当作生命的礼赞。另一位患者积极抗癌,始终保持乐观,却也在劫难逃。在弥留的日子里,他可能会好过一些,但也有可能走得无声无息,不见人性的闪光。

亲自研读这些令人心寒又悲观的文献,我的反应别有不同。它让我看清自己的某些方面,对此,我从前怀疑过,只是不能肯定(因为,只有在生死关头,才能真正意识到)——原来,我的确具有乐观的秉性,也抱有“正能量”的心态。坦率地讲,在最初几分钟里,我的反应也曾是倍感震惊、呆若木鸡,但随后便愁眉舒展,因为我渐渐明白——哦,原来这就是她不建议我读有关文献的原因(我的主治医生后来向我道歉。她解释说,当初过于提防,是因为不知我的“底细”。她还说,若早知我的反应如此,她会把那些文献都复印出来,翌日便送到我的病床前)。

我最初的“正能量”源于直觉,几乎出于感情用事。但是,那些论文的结论如此残酷,如此悲观,如果不是坚信有更好的方法,可对数据重新加以分析且得出不同的结果,我将难以有足够的理由巩固这番乐观情绪,使之持久(如果我紧随那些论文的节奏,深陷其中,判定自己在8个月以内必死无疑,我的心情定会沉重至极,恐怕什么心态也不能让我释怀)。我之所以会重新分析那些数据,一方面是因为我受过统计学方面的训练,另一方面则源于我对自然历史的了解。这两方面的经验让我意识到,真正能反映基本现实的是差异,而非平均水平。对于后者,我们使用时须谨而慎之。毕竟,代表平均水平的指标是抽象化的量数,既不宜施用于具体的个人,也往往与构成整体的各个个体不相干。本书主题“万物生灵,千姿百态”所要强调的,即为关注“系统整体之内的差异化表现”,而非死盯着描述“平均水平”或“集中趋势”的抽象化量数。换言之,在我最无助的日子里,正是这一理念为我提供了实质性的慰藉。可千万别说学术百无一用,什么知识和学习是花哨的小摆设、什么重压之下唯有切身感受可靠云云。

我从最初几分钟的“休克”反应中一醒过神来,便开始琢磨那些数据、那一关键判词——“确诊后生存期中位数为8个月”。我是一名演化生物学家,以我受过的学术训练,会问这样一个问题:“确诊后生存期中位数为8个月”究竟意味着什么?在回答这个问题的过程中,我们不仅会发现哲学层面的错误,还将使自己置身于两难的境地,但这也成为我撰写本书的动机。在大多数人眼里,平均值被视作基本现实,是有意义的集中趋势量数,而估量差异不过是用于计算平均值的一种辅助手段。在一个理想化的世界里,“确诊后生存期中位数为8个月”只可能意味着“我很可能活不过8个月”,在任何人眼里,它大概都算得上最令人心寒的诊断。

但是,如果我们把整体的集中趋势量数视作整体中任一个体最有可能的表现,就犯了一个严重的错误(尽管如此,我们中的大多数人仍一贯如此为之)。因为,集中趋势只是一种简化的抽象概括,差异反映的才是实际情形。在展开讨论之前,我们先得认识到何为“生存期中位数”。中位数是第三个常用的集中趋势量数(我在上一章里介绍过前两个,其一为平均值,先求总和,再除以总数,即可得之;其二为众数,即出现次数最多的数值)。中位数的英文为median,依词源,意指在分级排序过的集合中处于正中位置的数值。在任一群体中,位于中位数两侧的个体数目各半 。例如,现有5个小孩儿,手里分别有1分、1毛、2毛5、1块、10块钱,若按他们拥有的现金排位,有2毛5的那个孩子就处于中位数的位置。因为钱更多的孩子和钱更少的孩子人数相等,皆为两人(值得注意的是,在该例中,平均值与中位数不相等。平均值为11.36 ÷ 5 = 2.27元,处于第4和第5个小孩儿之间某处,因为第5个“大款”“坐拥”的10块钱足以把所有“穷鬼”拖的“后腿”扯平)。在这类案例中,差异在某个方向上表现得尤为突出,导致平均值往该方向大幅偏移。在这种情况下,我们乐于采用中位数。对于间皮瘤等疾病的生存期,人们通常选择中位数作为描述集中趋势的量数。我们想知道,在一个以存活时间分级排序的集合里,位于中点处的时长几何。在间皮瘤案例中,若以平均值衡量,数值可能会偏高,有误导之嫌。毕竟,如果有一两个病例的存活时间相当长(相当于那个有10块钱的小孩儿),平均值就会被拉高。这样一来,平均值就造成一种假象,即大多数病患的生存期将大于8个月;而中位数向我们如实展现,在病患群体中,有一半个体会在确诊后8个月以内死亡。

思考到这一步,我发现了问题的关键——自己不是某一集中趋势量数的化身。无论该量数是平均值,抑或中位数,都不必然与我的实际生存期相吻合。我是间皮瘤患者群体中的一员,一个活生生的个体,自己存活的机会究竟如何,我要有切实的估计。如何决策,取决于我自己,既然是我个人的事,就不能听命于抽象的平均水平。我需要着眼整个患者群体,根据自身案例的具体因素,看自己最有可能属于哪个差异区间,而绝非轻易地以为自己的命运将落在某个集中趋势量数的位置上。

就在这紧要关头,我领悟到关键所在。事实证明,正是它让我的心态如此乐观。由此,我开始琢磨病患生存期的差异,并得出一个结论,以统计学的专业术语表述,即生存期的频次分布一定是“右偏”的——往某一指定集中趋势量数两侧方向延伸的曲线不对称,且右侧的幅度远大于左侧(见图4)。毕竟,对于生存期而言,在绝对最小的0值(即患者在确诊时即刻倒地身亡)和中位数8个月之间,没有多少扩展的余地,但一半的差异表现个体都挤于其间。与左侧不同,从理论上讲,右侧可以无限延伸,至少可及耄耋之年。(统计学家将分布曲线末部称作“尾”。因此,我要说的是,生存期分布曲线左尾有界,止于0值“边墙”,而右尾无确切边界,只受制于人类的寿命极限。)

图4 患者生存期呈右偏分布,中位数为8个月,不过患病群体中的每一个体都是一个独立实体,中位数因而反映不出整体的分布特征

我所需要抓住的重中之重,是弄清呈现差异的曲线的形状和展幅如何,以及我在其中的最大可能位置。我当时年轻,且自幼善斗;我身处医疗条件最好的城市,又有家人的全力支持;而且,幸运的是,就这种疾病而言,我是在病程相对早的时期确诊的。我意识到,所有因素都指向一种潜在可能,那就是我处于曲线右尾。因此,我对曲线右尾(我的可能归宿)的兴趣,自然远远胜过对任一集中趋势量数(与我无特别关联的抽象概括)的关心。接下来,如果能得出该曲线呈强烈右偏势态的推论,那么还有什么消息能比它更令人振奋的呢?于是,我查验了数据。结果证实了我的推测——其差异显著右偏,因为,有数位患者的生存期相当长——我没有理由认为自己不与这些处于右尾区域的患者为伍。

这一领悟虽不能保证我寿命不减,但至少让我在紧要关头收获了最珍贵的礼物(活下来的希望),这样我才得以有充分的时间去思考、计划、斗争,而无须立即遵循以赛亚向希西家王传达的神谕——“汝当理清身前事,因汝将亡,不复存” [2] 。关于差异表现的重要性、平均水平应用的局限性,我从统计学的角度推断,得到乐观的结论,并通过实际数据加以证实。我利用了知识,因而活了下来。(在此,略显夸张地讲,这个故事甚至会有更好的结果。我本已注定属于“右尾一族”,而我接受的实验性治疗又获得成功,或许病根已被完全铲除,旧有的分布模型已无法就新生现实做出预测。我相信,在基于这种成功治疗的新分布模型中,我现在正稳步迈向右尾,直到活够为止,寿终时的岁数将是两位数见顶,或许还会是三位数出头。)

我讲这个故事,不只因为它与自己的亲身经历有关,作为一大谈资,讲起来颇有快感,还因为它蕴含了构成本书核心的所有理念。首先,该故事揭示了“系统整体内差异化表现”(作为最根本现实)的重要性,以及平均水平(的抽象本质及其)在应用层面的局限性。其次,若将本书比作教科书,那么,从教学的角度,三个术语和几个概念在这个故事中都有所体现,使之成为一个概念工具,可应用到其他所有例证中。下面,我将正式呈现这些概念,但会尽量不使行文显得枯燥或让人望而却步。

1.偏态分布 。如果我们决计将差异视作现实主体,就必须了解用以描述群体及其差异幅度的标准术语和图。就后者而言,众所周知的一种,即传统意义上的频次分布图。其横轴指代所考察的指标(例如身高、体重、年龄、病患生存期、棒球平均击球率、生物解剖学构成复杂程度)的渐增分级序列,纵轴指代落入横轴诸分级区间(例如,以体重为例,分为10~20磅、20~30磅等区间;又如,以年龄为例,分为10~15岁、15~20岁等区间)的个体数。频次分布曲线可以是对称的,即落入集中趋势量数两侧的个体数相等,两侧形状一致。理想化的“正态分布”,或现今为人熟知的“钟形曲线”(图5),就有着符合如此定义的对称。这种分布普遍存在,我们见到正态曲线的机会如此之频,潜移默化中,使得我们误以为所有自然存在的体系都倾向以这种理想化的形式呈现。但在现实中,大多数群体并非如此简单,或者说不会表现得如此匀整。(若个体在均值附近表现出的差异完全随机,这样的系统的确是对称的——因为,落入均值两侧的机会相同,且靠近均值的概率大于远离的概率。例如,抛硬币看正反,结果连续相同的频次就呈正态分布。我们之所以视正态分布为正统,是因为我们倾向于认为所有体系由理想化的“正确”个体构成,平均水平两侧的差异表现随机、均等——这是柏拉图主义遗毒未散的另一后果。但是,自然的表现往往与我们的期望不一致。)

图5 钟形曲线,或呈正态的频次分布图,可见描述集中趋势的所有量数(平均值、中位数、众数)重合

现实中的频次分布通常是不对称的,或者说是偏斜的。在我的个人故事中展现出的,就是这样一种偏态分布,差异在曲线一侧的延伸幅度超过另一侧——我们依延伸的方向,将之称为“右偏”或“左偏”(图6)。偏斜的成因常令人着迷。其中不乏事关系统本质的洞见,毕竟,偏斜反映的是脱离随机的程度。既然本书讲述的是系统内差异之本质、差幅变迁之成因,那么书中所有的案例都体现了偏斜这一重要规律。

图6 左偏分布和右偏分布

2. 集中趋势量数及其意义 。我已介绍过三个用来描述集中趋势的标准量数,或者说“均”值,它们分别是平均值(即总和除以总数所得之值,最常用)、中位数(即处于正中位置的值)和众数(即出现次数最多的值)。在对称分布中,出现次数最多的值恰好处于正中(即分布于两侧的数值个数相等),且等于平均值。因此,在如此情形之下,这三个量数是重合的。我怀疑,正是这种巧合使得我们当中的大多数人忽视了这些量数之间的关键区别。究其原因,在于我们视“正态曲线”为常态,偏态分布(即便我们知其为何物,仍视之)为个别现象。然而,在偏态分布中,不同集中趋势量数的值不相重合。经济和政治领域的舆论操纵家们玩弄的伎俩主要从此入手。这些人听命于雇用他们的主子,知道如何选择对宣传最有利的量数,以满足雇主的需求。

如前文所述,在收入分布呈右偏的人群中,尽管众数偏低,但平均值偏高,因而可被人利用,得出不实的结论(详见35页)。总而言之,当分布严重偏斜时,平均值所受影响最大,在偏斜方向上被拉得最远,中位数所受影响相对较小,而众数完全不受影响。因此,在右偏分布中,平均值大于中位数,中位数大于众数。图7清晰明了地展现出三者的关系。如图所示,若我们将一条正态分布曲线(平均值、中位数、众数相等)向右拉长,使之成为一条右偏分布曲线,平均值往右方偏移的幅度最大,就如在前章列举的例子中,处于右尾的一名百万富翁所拥有的财富,即可抵左尾数百名穷人的财产总和,使得平均值被拉高;而中位数变化略小,好比按收入升序点数,通过数总人数来决定中点所在位置,若要抵消序数靠后的那名百万富翁的影响,只需派出序数靠前的一名乞丐即可(若处于分布右侧的个人财富整体提升而人数保持不变,中位数也不会变)。在平均值和中位数双双提升之时,众数原地不动,完全不变。即使富人人数稳步增多,2万元可能仍是最为普遍的年收入水平。

3.“边墙” —— 差异幅度的界限 。偏态分布之所以形成,一大原因在于,差异在一个方向的潜在延伸范围往往有所局限(而在相反方向则广阔得多)。而这种局限之所以存在,原因不一而足,有的微不足道,有的则是逻辑使然——就如在我的癌症故事中,因间皮瘤身亡的患者不可能去世于患病之前。由此可见,在患病之始和死亡之间存在着一个无法更小的起点值,作为存活期0值。还有一些原因,不仅微妙,而且更容易引起人们的兴趣,就如本书第三篇和第四篇中将要展现的平均击球率和生命历史案例中所涉及的。在这些案例中,无论是哪种,都有界限存在,使得差异只能往另一个方向延伸,因而形成偏态分布。对于间皮瘤患者而言,他不可能因病去世于患病之前,但可在确诊之后活很多年。就生存期而言,中位数为8个月,加之有严格的下界作为起点0值,形成的分布除了呈强烈右偏,怎么可能有别的形式?

图7 在右偏分布中,描述集中趋势的各个量数不相重合,中位数位于众数之右,而平均值位于两者之右

在本书中,我将这种差异幅度的界限称作“边墙”——根据其所在方向,进一步分为“右墙”或“左墙”。“左墙”催生右偏分布(因为差异只能朝远离“边墙”的方向自由延伸),“右墙”促成左偏分布。在我的癌症故事中,正是“左墙”的存在,导致生存期呈右偏分布。

(我认为,将数值排列方向武断地定义为左低右高是文化偏见使然,尽管在有的案例中,低值或许被认为更优,如前一章里那个刻意节食社会的案例中的居民体重分布。大众陷于这一误区,我想大概出于两方面的原因,有其险恶的一面,也有善意的一面。世人对我们左撇子少数派的偏见由来已久,恐怕还可能是人类文化的普遍特征之一,这就是险恶的主要原因之所在。耶稣坐在“圣父右首侧”,拉丁文即 ad dextram patri 。从词源上看,“右”意味着灵活——“法律”的法语为droit,德语为Recht,意皆为“右” [3] ;“左”却意味着阴险和笨拙。从善意的一面解释,我们习惯自左向右阅读,因此也将这一方向的概念赋予增长和提高。不过,如果本书撰写于以色列,我该认为往左是增长的方向,尽管右撇子在那里也是主流。如果我在日本写作,我该讨论“上墙”和“下墙”。既然如此,就这么着吧。)

欲吃透本书列举的所有案例,读者仅需掌握三个有关差异本质的基本概念——差异幅度有界限,即“左墙”“右墙”;界限的存在导致偏态分布,即左偏、右偏;描述集中趋势的量数之间有所区别,即平均值、中位数、众数不是一回事。


[1] 伯尼·西格尔,即伯尼·S. 西格尔(Bernie S. Siegel,1932—),美国儿科医生。著有强调病人心理与治疗联系的畅销书,代表作为《关爱、治疗、奇迹》( Love, Medicine & Miracles ,1986),至少已有两个中文译本《爱·治疗·奇迹》(李松梅、李铁英译,1988,上海译文出版社)及《关爱·治疗·奇迹:全新康复理念——精神、意志、爱心……》(邵虞译,1999,中国轻工业出版社)。——译者注

[2] “以赛亚向希西家王传达的神谕”,《圣经》典故,出现在《列王记下》( 2 Kings )、《历代志下》( 2 Chronicles )、《以赛亚书》( Isaiah )中。“汝当理清身前事,因汝将亡,不复存”(Set thine house in order: for thou shalt die, and not live.),出自《列王记下》(20:1),《以赛亚书》(38:1),作者引文取自英王詹姆斯译本(King James Version)。在故事中,犹大王希西家(King Hezekiah)患病将死,先知以赛亚前来,告知上帝神谕。希西家遂向圣像祷告,以示对上帝虔诚,至死不渝。上帝感其念,延其寿15年。——译者注

[3] ad dextram patri ,一般作 ad dexteram Patris ,见于基督教赞美诗《荣归主颂》( Gloria in Excelsis Deo )。“‘右’意味着灵活”,原文为“Right, etymologically, is dextrous”。其中,“dextrous”即“灵活”所指,源自拉丁文 dexter ,意为“在右边”。——译者注 Kx+5rzZpp1XCuhm5OIi/sqaX/CY3zLOdlJBRZyRvWBxIerdbVCUF9bB8294xXf1V

点击中间区域
呼出菜单
上一章
目录
下一章
×