科学推理：逻辑与科学思维方法最新章节_周建武著

第二节
统计评估

统计推理属于不完全归纳推理，其结论所断定的范围超出了前提所断定的范围，前提与结论之间的联系不是必然的，因而，它的结论是或然的，不一定可靠，其推理的可靠性需要进行必要的评估。

一、评估准则

在现实的生活中，我们每个人都会遇到大量的统计推理。能否正确地评估统计推理会直接影响到人们是否能对其所遇到的各种观点、意见做出合理的判断。为此，统计推理是批判性思维的重要考察对象。虽然统计学作为一门独立的学科，其专业的统计理论和技术对于大多数并非以统计为职业的人来说是复杂而又枯燥的，但懂得一些评价统计推理的原则和技巧，使我们能够对日常遇到的统计推理做出合理的评价非常必要。

评估统计推理与论证的准则可用如下批判性问题来描述：

CQ1.明确结论问题：结论是什么？

首先要弄清楚结论。需要注意的问题有：

①论题或结论中说了什么和没说什么？

②是否明确了结论中的具体概念？是否混淆或偷换了概念？

结论是指关于事实或价值观念的判断，它反映了说话人对某个问题的看法。在看书报或与别人谈话时，我们是不是经常问自己，作者（或说话人）想要我们接受的是什么？只有把论题和结论从说话人的一大堆话语当中抽取出来，并弄清对方的意图，我们才能对他的论证做出冷静而理智的思考。

要评价统计推理，还必须弄清楚论题中没说什么。善于布置语言陷阱的人常常会诱导听话者将一些想象的成分加入论题或结论之中。这些成分并不是论题或结论中明确表示出来的，而是听话人自己加进去的。

例： “本品牌的手机便宜800元”。

这句话并没有明确说明比谁便宜？顾客很可能会将其理解为，是与该手机之前的价格相比，或者与同类型手机中质量最好因而价格最贵的相比，或者是与同类手机中最便宜的相比。如果顾客将自己的想象成分加进了论题或结论而上当受骗的话，顾客无法对说话人提出指责。因为，说话人没有必要对自己没有明确说出的内容负责。所以，要想确保自己不上当受骗，顾客在分析统计推理时，一定要弄清论题或结论中说了什么和没说什么。

CQ2.数据意义问题：统计数据有何含义？

其次要分析前提中的统计数据的含义，需要注意的问题有：

①数据能否说明问题—揭示能说明什么问题，是否存在数据理解的陷阱；

②是否遗漏了什么—揭示相关因素和比较基础；

③这个资料是否有意义—揭露统计数据赖以建立的未经证实的假设。

例1： 经过对最近十年的统计资料的分析，我们发现，某省因肺结核死亡的人数比例比起全国的平均值要高两倍。而在历史上该省并不是肺结核的高发地区。看来，该省最近这十年的肺结核防治水平降低了。

分析： 上述论证是根据近十年来某省患肺结核死亡人数比例增高，得出结论，该省对患肺结核的防治水平降低了。这一论证是值得怀疑的，若事实上，该省的气候适合肺结核病疗养，很多肺结核患者在此地走过最后一段人生之路。这表明，该省患肺结核死亡人数比例增高是另有别的原因，这就严重地削弱了题干的结论。

例2： 在“非典”期间，某地区共有7名参与治疗“非典”的医务人员死亡，同时也有10名未参与“非典”治疗工作的医务人员死亡。这说明参与“非典”治疗并不比日常医务工作危险。

分析： 上述论证是有明显漏洞的，要说明参与“非典”治疗是否比日常医务工作危险，关键不是医务人员死亡人数的比较，而是死亡率的比较。如果事实上，医务人员中只有一小部分参与了“非典”治疗工作，而且参与治疗“非典”的医务人员的死亡率（7/参与治疗“非典”的医务人员人数）可能明显高于未参与非典治疗工作的医务人员死亡率（10/未参与“非典”治疗工作的医务人员人数）。

CQ3.数据可信度问题：统计数据从何而来？

再次要分析前提中的统计数据的可信度，需要注意的问题有：

①说话人或作者从何种途径知道这些统计数据的—揭示资料来源的正当性；

②该统计数据是谁说的—验证数据来源的权威性；

③该统计数据是如何得出的—检验样本与统计方法。

在日常生活中，对于遇到的统计推理，人们常常无法确知推理中用到的数字是怎么得到的。比如，在书报中看到统计数字，由于读者无法与作者直接交流，因而也无从了解这些数字的获得途径。在这种情况下，有些人会给他们所遇到的数字画一个问号，而不是毫无保留地接受它们，这样的做法是明智的。

例：一份研究报告显示，北大干部子女的比例从20世纪80年代的20％以上增至1997年的近40％，超过工人、农民和专业技术人员子女，成为最大的学生来源。有媒体据此认为，北大学生中干部子女比例20年来不断攀升，远超其他阶层。

分析： 若发现，近20年统计中的干部许多是企业干部，以前只包括政府机关的干部。这意味着很可能是统计口径扩大才造成统计中北大学生中干部子女比例增加的，这就有力地质疑了媒体的观点。

CQ4.样本代表性问题：样本是否能真正代表总体？

评价统计概括，也一样要看前提和结论之间的关系，以及支持的充分性。统计推理的可靠性主要取决于样本是否有代表性。只有从能够代表总体的样本出发，才能得到关于总体的可靠结论。使用样本所产生的问题与这个样本能否代表总体有关，不能代表总体的样本被称为偏颇的样本。

例1： 为了调查当前人们的识字水平，其实验者列举了20个词语，请30位文化人士识读，这些人的文化程度都在大专以上。识读结果显示，多数人只读对3到5个词语，极少数人读对15个以上，甚至有人全部读错。其中，“蹒跚”的辨识率最高，30人中有19人读对；“呱呱坠地”所有人都读错。20个词语的整体误读率接近80％。该实验者由此得出，当前人们的识字水平并没有提高，甚至有所下降。

分析： 这一调查的问题在于，这20个词语是否具有代表性，如果这20个词语是易读错的词语，题干结论就不可靠。

例2： 从1980年代末到1990年代初，在5年时间内中科院7个研究所和北京大学共有134名在职人员死亡。有人搜集这一数据后得出结论：中关村知识分子的平均死亡年龄为53.34岁，低于北京市1990年人均期望寿命73岁，比10年前调查的58.52岁也低了5.18岁。

分析： 这一统计推理是有荒谬的，因为这个样本不具有代表性。因为在职人员的年龄一般不超过60岁，在职期间如果死亡，往往属于英年早逝，这个样本不能代表一般的知识分子的情况。类似的统计推理谬误比如，在调查大学生平均死亡年龄是22岁后，得出惊人结论：具有大学文化程度的人比其他人平均寿命少50岁。因为在校大学生通常是20岁左右的青年，如果死亡，大多数属于非正常死亡，这个样本不能代表一般具有大学文化程度的人。

CQ5.反案例问题：是否发现不具有原样本属性的其他样本？

若没发现相反的案例，即没有发现不具有原样本属性的其他样本，则结论的可靠程度就高。若存在相反的案例，即发现了不具有原样本属性的其他样本，则相反的案例越多，则结论的可靠程度就越低。

CQ6.数据应用问题：统计数据应用是否合理？

分析统计推理的数据应用是否合理，需要对统计数据与结论进行如下评估：

①说话人或作者是如何运用统计数据得出结论的？是用什么方式叙述这些数据的？

②统计数据与结论是否相关？相关度如何？统计数据是否能支持结论？

③说话人或作者是如何使用统计数据的？统计数据是否进行了比较？是否设定了供比较的对象？是否设定了比较的根据或基础。

④从这些统计数据中可以推出什么结论？得出的结论是否恰当？

⑤说话人或作者有没有对统计数据做出引申，引申的适当程度如何？

例1： 信息产业部电信研究院某副院长认为，手机通话费不是高收费。理由是，漫游费已经下降了百分之六十三了。

分析： 这一理由显然是不足的，漫游费下降了不等于通话费等别的收费下降，而且，原来的漫游费太高了，即使下降了百分之六十三，也不能认为就一定低了，也许漫游费本不应该收，早该取消了。

例2： “这可咋办！广州医院产前亲子鉴定近八成非亲生？”

分析： 单看这个新闻标题，给人的印象是中国人，至少是广州人的新生儿有八成非亲生。但是，你仔细读这篇新闻，却发现远不是那么回事。新闻内容说的是：“广州医学院第三附属医院几乎每年都会收到400例左右的亲子鉴定申请，结果有七八成左右的丈夫发现，妻子怀上的小孩并非亲生。”可见，“八成”涉及的总体事实上是做亲子鉴定的人，并不能代表广州医院将要生产的所有待产夫妇。仔细想想，在这些做亲子鉴定的人中，八成非亲生的结果其实也并不奇怪。一般来说，去做亲子鉴定都是有原因的，怀疑非亲生才会去做亲子鉴定。一定来说，有重要的根据才会提出来这种怀疑。所以，某医院的亲子鉴定结果八成非亲生这是可能的，因为“非亲生”与“做亲子鉴定”有强相关。但是，如果把这“八成非亲生”的结论推广到大众之中，就变成明显的谬误了。

例3： 尽管是航空业萧条的时期，各家航空公司也没有节省广告宣传的开支。翻开许多城市的晚报，最近一直都在连续刊登如下广告：飞机远比汽车安全！你不要被空难的夸张报道吓破了胆，根据航空业协会的统计，飞机每飞行1亿公里死1人，而汽车每走5000万公里死1人。

汽车工业协会对这个广告大为恼火，他们通过电视公布了另外一个数字：飞机每20万飞行小时死1人，而汽车每200万行驶小时死1人。

如果以上资料均为真，则怎么解释上述这种看起来矛盾的结论？

分析： 题干中的第一个统计数字似乎说明飞机比汽车安全，第二个统计数字似乎说明汽车比飞机安全，而题干又断定这两个统计数字都正确，这似乎存在矛盾。其实题干的结论并不矛盾，因为飞机和汽车的速度明显不同。在不知道二者的速度或速度比的情况下，只以运行距离为单位，或者只以运行时间为单位无法比较二者的安全性。

例4： 有关研究发现，在肺癌患者中，有高达90％的建筑工人经常感受到来自工作和家庭的双重压力。王强是一名肺癌患者，而且他经常感受到来自各方面的压力，有时甚至有不堪负重的感觉，所以，王强很可能是一名建筑工人。

分析： 上述研究发现揭示的意思实际上是，在患肺癌的建筑工人中有90％的经常感受到压力。这并没有说肺癌患者中建筑工人所占的比例，因此推不出结论。只有假设，经常感受到压力的肺癌患者有90％是建筑工人。那么根据王强是一名经常感受到压力的肺癌患者，才能推出：王强很可能是一名建筑工人。而这一假设未经确认，因此，该论证存在漏洞。

二、科学抽样

统计推理的可靠性取决于统计证据，日常经验中所遇到的统计证据并不包含诸如随机性、抽样误差、获取样本的条件之类的因素。在缺少这类信息的情况下，想要对这些证据进行评估，人们必须使用他们最好的判断力。

可靠的统计证据是通过科学抽样而搜集，核心问题是样本的代表性。错误抽样的谬误指在做出归纳概括过程中抽样不合理而导致样本不具代表性所产生的谬误，因此，评价统计调查的结果时应当尽可能地考虑到影响样本代表性的各种因素。

1.科学抽样的要求

为了保证样本的代表性，人们一般从三个方面对抽样过程提出要求：抽样的规模、抽样的范围和抽样的随机性。

（1）抽样规模应当尽可能地大

样本容量越大，样本就越具有代表性，结论的可靠性就越大。

样本容量也叫样本数量、样本大小，这是决定样本是否具有代表性的一个重要因素。和简单枚举归纳一样，统计推理的样本数量，即例子的多少，对推理的可靠性产生影响。给定一个随机选取的样本，这个样本越大，它就越接近于复制总体，例子越多，结论可能越可靠。

在统计学中，这种近似程度是用抽样误差的术语来表达的。抽样误差是某个特征在样本中出现的相对频率与该特征在总体中出现的相对频率之间的差别。如果所取的样本越大，则误差会越小。样本的大小应该随着总体的大小和可接受的抽样误差程度而变化。

现在的很多统计调查，在样本的大小方面就不能达到这个要求，小样本往往不能反映对象总体的性质，样本数量太少，误差可能太大，就不能代表全体的类别，将使统计数字无效，从而归纳无效，也即通过太小的样本推出的结论很可能不反映全面的情况，是偏颇的结论。很多统计调查的报道，都没有给出关于样本大小的信息，这时，除非是有信誉的权威调查机构做的报道值得信任，否则就应该采取保留的态度。

需要注意的是，样本太少或样本太小的谬误，是指绝对量太小，而不是相对量太小。根据统计学的要求，对总体抽样做出判断的准确程度主要是看抽样是否有代表性，而不是看样本占总体的比例是否足够大（当总体很大时，此比例往往很小）。因此，从统计学的观点，抽样比例小也不足以对题目的提出有力的质疑。比如，调查北京市民喜欢收看什么样的电视节目，以我们一个小区来作样本，则绝对样本太少。但如果你在北京市科学地抽样千分之一，其统计出来的结论也能可靠地说明问题。

案例　北京癌症发病率25％，不实！

日前，网友“红墙下的猫”的一则微博引发网友强烈关注，他称“北京癌症发病率惊人，需要流行病专家关注。我是77级入学1982年毕业，大学本科同班同学在京工作30多人，现有8人患癌症。他们分别来自北京友谊医院、北京同仁医院、北京天坛医院、北京复兴医院和北京佑安医院。他们当中肺癌1人、乳腺癌3人、白血病2人、子宫内膜癌1人、皮肤癌1人。而毕业出国就业者20余人无一癌症。”

北京癌症发病率真的那么惊人，高达25％吗？昨日，北京市肿瘤防治研究办公室副主任王宁表示，北京市55～60岁癌症发病率是391.17/10万；60～65年龄组是541.87/10万；65～70是766.54/10万，而美国总体为500/10万，老年组高于北京。据介绍，北京市2011年癌症新发病例38448例，5年生存率37％；而该微博博主所发事例的样本量太小，“25％太偶然了，哪个医院医务人员全院统计也不会这么高。”

（来源：北京晨报.2013年09月14日）

（2）抽样范围应当尽可能地广

样本范围越广，样本就越具有代表性，结论的可靠性就越大。

统计归纳是以选取和研究“样本”开始，将样本中表现的百分比推论到全部同类事物上，这种推论的成败就在于样本是否代表总体的特点、状况。通俗地说，样本的“代表性”指总体中包括什么类型的成员，样本中也应该包括，而且比例要相当。这就是说，任何合理的统计推理，样本都要反映总体中的有关类别及其比例。

比如，总体中有十个有关的类别，样本中也应该有同样的十个；每一个类别在总体中占多大比例，在样本中也应一样。这样，你才能使你的“样本”“代表”你的“总体”，这样你得出的结论也有代表性。

案例　列车采访

某央媒记者在列车上采访：

记者：这位乘客，您买到火车票了吗？

乘客甲：买到了！

记者：旁边这位呢？

乘客乙：买到了。

接着，为增强说服力，记者在列车上随机采访了十几个人，高兴地发现：大家都买到了回家的火车票。

上述记者的调查范围显然过小，只调查了列车上的乘客，这些乘客当然是绝大多数都买到了火车票。由于记者没有调查社会大众，这个调查显然不能说明火车票好买。

样本的代表性是一项必须严格遵守和检查的标尺。样本的代表性和统计归纳结论的准确性有直接的关系。美国权威的民意调查机构关于选举的统计归纳能如此准确，首先在于它们在选取样本时，按比例反映选民的年龄、性别、种族、贫富、职业、地区、信仰、教育等因素。

不合理的统计归纳，多半在代表性上有缺陷。抽样范围过窄也会使样本失去代表性，如果抽样的范围过窄，那么统计数据不足为凭，就会犯“偏向样本”的错误。

（3）样本的选取应当是随机的

样本与总体的相关性越大，样本就越具有代表性，结论的可靠性就越大。

统计推理的合适性是保证样本不能有偏向，即要完整代表全体的类型分布。如何达到这个目的呢？关键在于选取样品的方法不能有偏向。概率抽样这个概念可用来描述样本与总体的相关性，如果样本是根据总体的不同性质选择恰当的随机抽样方法选取的，那么样本与总体就有相关性，并把它称为统计相关。

随机样本是总体中的每一个成员都有相等的机会被选出的样本，随机选取应该是在不同类别的例子都存在的场合下随便选取样本。科学中有专门的程序和方法来保证随机，比如运用随机的数学程序产生号码来选取。随机抽样的方法包括：简单随机抽样、分层随机抽样和系统随机抽样。

人们之所以将网上进行的所谓“民意调查”判为非科学的，是因为网上的样本没有代表性，调查者往往无法控制调查对象，他不能确定究竟哪些人会接受他的调查。例如，在互联网上进行的问卷调查，很多人见了之后根本不予理睬，回答问题的只是一些愿意回答这类问题的人（当然，也有一些出于好奇的人）。从这些问卷中得出的调查结果不一定能反映大多数读者的观点。因此，“在线民调”，是那些上网的、关注某一新闻的、愿意主动表达想法并且点击投票的人，他们不能代表那些没有看到这个网页上的新闻的大多数公众的观点。

再如，著名性学家金赛在美国首次（1948年）对性行为进行大规模和系统化研究。没有使用随机抽样，他使用的是统计学家所称的便利取样法，他访问方便参与的所有人。进入金赛样本的主要资格是自愿加入。许多对象是自愿者，这一事实本身就说明他们不代表整个抽样总体。那些主动自愿将其性历史进行访谈的人，极有可能比一般人对该历史更感兴趣，因此不太能代表一般行为。

案例　近7成北美中国留学生希望回国工作和长期居住

北美洲中国学人国际交流中心今日公布的一份调查报告显示，近七成受访北美中国留学生希望回国工作和长期居住，美国已不再是理想的工作与居住之地。

清华大学深圳研究生院等中国三所高校与科研单位八月底至九月初在多伦多、纽约、波士顿、旧金山召开了四场海外高层次人才招聘面试活动，这份报告是针对出席上述活动的中国留学人员所做的问卷调查得出的（中国新闻网，2009）。

上述统计结论显然具有偏颇性，该样本不是随机选取的。因为受调查者是参加人才招聘面试活动的，这些调查对象希望回国工作和长期居住的比例当然高，但不能代表北美所有的中国留学生。

2.影响样本随机性的因素

保证样本的代表性的方法是“随机”选取，随机选取样本这一要求适用于几乎所有的样本。随机的意思是没有偏向地选择样本，即不是有意地、有倾向地专门选取某一方面的代表，而是每个人都有同样的机会被选上。下面所列的一些因素也影响着样本选取的随机性。

（1）调查者的偏见

调查者的偏见会影响到抽样的随机选取，从而对调查的结果产生直接的影响。样本的选取应当是随机的，要求选取样本时不应带有主观偏见，主观偏见对于样本的随机性具有很大的影响。抽样调查之所以要随机进行，主要是为了避免主观因素对调查结果的客观性的影响。调查者的主观偏见除了影响抽样的随机性之外，还会以其他方式影响调查结果的代表性。由于抽样过程、调查时提出的问题等都有可能渗入提问人的主观偏见，因此，加进了调查者主观偏见的抽样调查很难反映真实的客观情况。

（2）调查方式

人们容易忽略的另一个因素是调查方式，在问卷调查中，调查者的提问方式和措辞会直接影响到调查的结果。比如，假使学生对“你有多少异性伙伴”的问题不明确，那么得出来的70％的比例就不准确。有的学生可能把单纯的异性朋友算在内，有的可能指有性关系的男女朋友。问题的设计准确、清楚、直接、一致、全面的性质，是得到准确、有意义的信息的一大关键。

（3）心理因素

心理因素对样本是否具有代表性也会有影响。心理影响的一个根源是调查者与回答者之间的个人相互作用。一方面，对调查者来说，如果想要一个自己喜欢的结果，在提问表述、可选择的项目，甚至问题的次序安排上做文章，会很有效果。政客或商业推广常常用这样的技巧来操纵民意调查，并以此反过来影响民意。另一方面，从被调查者来说，如果认为他们所给出的回答的不同会使他们得到或失去某些东西，那么可以预见，这些人将影响结果。

为防止这种相互作用影响结果，科学研究通常是在“双盲”条件下进行的。在这种条件下，无论调查者还是回答者都不知道“正确”的回答是什么（双盲是指，研究对象和研究者都不了解试验分组情况，而是由研究设计者来安排和控制全部试验。其优点是可以避免研究对象和研究者的主观因素所带来的偏倚）。

三、统计谬误

统计谬误指的是在使用统计数据作论据时所产生的错误，即运用统计推理时未能满足特定的相关条件而导致结论的可信度降低的谬误。常见的统计谬误有以偏概全以及统计数据应用方面的各种错误。

1.以偏概全

以偏概全是运用统计推理时容易出现的逻辑错误，属于统计中的轻率概括，是根据部分具有的属性概括了整体的属性而导致的谬误，是由于忽视样本属性的异质性，或者根据有偏颇的样本所做出的概括。以偏概全主要有两种表现形式。

一类是小众统计或统计不全，是指以少数样本为根据，即只指出个别或少数数据，就仓促引申出一般结论的错误论证。小的样本不足以反映总体的特性。仅根据几个具体事例就得出绝对的结论，这样的推论是极不可靠的。由于概括出一般结论所依据的样本太少，则发现反例的机会甚大，样本不足以支持一般性结论。

另一类是样本偏颇，是由于抽样不当而导致的偏颇样本的谬误。影响统计推理结论的可靠性的不仅仅是调查对象数量，调查的范围也很重要。就统计对象的整体而言，虽然在某个局部范围内的统计样本是有代表性的，由于忽视了对其他部分的调查统计，从统计对象的总体上看仍然是样本偏颇或不具有代表性。

例1： 在针对巴黎市民对垃圾食品偏好度的调查中，调查人员在巴黎的各大麦当劳餐厅随机抽取了300人做调查，发现巴黎市民更喜欢程度高达75％。

分析： 该调查的样本仅仅来自于巴黎的快餐厅，在巴黎快餐厅吃饭的人就餐偏好不能代表巴黎市民的就餐偏好。

例2： 目前的大学生普遍缺乏中国传统文化的学习和积累。根据国家教委有关部门及部分高等院校最近做的一次调查表明，大学生中喜欢和比较喜欢京剧艺术的只占到被调查人数的14％。

分析： 喜欢京剧艺术与学习中国传统文化不是一回事，不能以不喜欢京剧之“偏”概对中国传统文化的态度之“全”。

例3： 美国《文艺文摘》对罗斯福和兰顿在1936年竞选总统时的民意调查，调查者打电话给10000个美国选民，问他们在即将来临的总统选举中打算怎样投票，调查的样本包括各种回答者，他们来自各个州，有农村的和城镇的，有男人和女人。民意调查预示阿尔弗雷德·兰顿将彻底击败富兰克林·罗斯福。然而，事实上罗斯福却取得了压倒性的胜利。

分析： 上述统计谬误产生的原因是，调查者通过打电话进行的调查，调查样本只代表了那时能够安装电话的人，而当时拥有电话的人远没有现在这样普及。

2.幸存者偏差

幸存者偏差也叫生存者偏差或存活者偏差，指的是只能看到经过某种筛选而产生的结果，而没有意识到筛选的过程，因此忽略了被筛选掉的关键信息。若统计样本中的数据都是“幸存者”的，那以此作出的概括就属于“以偏概全”了。

幸存者偏差是属于典型的样本偏颇，其谬误产生的原因是取得信息的渠道，仅来自于幸存者时（因为死人不会说话），此信息可能会存在与实际情况不同的偏差。比如，媒体调查“喝葡萄酒的人长寿”。一般是调查了那些长寿的老人，发现其中很多饮用葡萄酒。但还有更多经常饮用葡萄酒但不长寿的人已经死了，媒体根本不可能调查到他们。

可见，“幸存者偏差”是只关注到幸存者（即好的一面），而未关注到未幸存者（即不好的一面）。这是一种逻辑谬误，意思是只能看到经过某种筛选而产生的结果，而忽略了被筛选掉的关键信息。

例1： 美女、帅哥在职场竞争中有很大优势，他们容易获得高薪职位。这一论断只关注获高薪职位的美女帅哥，而没有注意到在职场竞争中失败的美女帅哥。

例2： 读大学期间就退学创业容易获得成功，例如，比尔·盖茨就是如此。这一论断对于大学期间退学创业失败的人没有被考虑。

例3： 抽烟或许有利于健康长寿，例如邓小平、黄永玉都是老烟民，但都很长寿。这一论断没有考虑到吸烟伤害身体甚至死亡的人群。

例4： 第二次世界大战时，美英空军对德国展开大轰炸，自身也损失惨重。专家们发现，所有返回的飞机腹部都遍布弹痕，但机翼却完好无损。他们由此推断：机腹非常容易受到炮火攻击，应该改进机腹的防护。后来证实，这些专家推断时受到“幸存者偏差”的影响，因为实际情况是：被击中机翼的飞机都坠落了，而仅被击中机腹的飞机大都返航了。因此，应该加强防护的是机翼，而不是机腹。

如何避免幸存者偏差呢？最明显的办法当然是让“死人”说话。双盲实验设计和详细全面客观的数据记录都是应对“幸存者偏差”的良方。所谓“兼听则明”也是这个道理，抛掉对个案的迷信，全面系统地了解才能克服这个偏差。

3.统计质疑

统计论证关键在于样本的代表性，影响样本代表性的三个因素有，样本的大小、范围和抽样的随机性。错误抽样的谬误指在做出归纳概括过程中抽样不合理（如抽样片面、样本不具代表性等）而产生的谬误。

如果统计论证的推理中出现了以偏概全这种逻辑错误，质疑该统计论证的主要方式就是拿出理由，指出样本是特殊的，偏颇的，不具有代表性。

例1： 认为大学的附属医院比社区医院或私立医院要好，是一种误解。事实上，大学的附属医院抢救病人的成功率比其他医院要小。这说明大学的附属医院的医疗护理水平比其他医院要低。

分析： 上述推理是由一个统计事实“大学的附属医院抢救病人的成功率比其他医院要小”，而得出一个解释性结论“大学的附属医院的医疗护理水平比其他医院要低”。这个结论是建立在将两个具有不同内容的数字进行不恰当比较的基础上的。要削弱这则论证，就要指出样本（质）不同。若去大学附属医院就诊的病人的病情，通常比去私立医院或社区医院的病人的病情重，因此，显然不能根据大学的附属医院抢救病人的成功率比其他医院要小，就得出大学的附属医院的医疗护理水平比其他医院要低的结论。这就有力地驳斥了题干的论证。

例2： 一家石油公司进行了一项石油溢出对环境影响的调查，并得出一个结论：接触过石油溢出的水鸟有95％的存活率。这项调查是基于一个检查，被送到石油溢出地附近兽医诊所看病的水鸟，调查发现20只受石油溢出影响的水鸟中仅仅只有一只水鸟死了。

分析： 上述推理根据，被送到兽医诊所看病的20只受石油溢出影响的水鸟只死了一只，得出结论，接触过石油溢出的水鸟有95％的存活率。若发现，只有那些看起来有很大存活率的水鸟才被带到兽医诊所，这意味着这20只受石油溢出影响的水鸟具有特殊性，也即样本没有代表性，这就有力地反对了关于水鸟存活率的调查结论。

例3： 很多人认为网恋不靠谱。芝加哥大学的一个研究小组对1.9万名在2005—2012年间结婚的美国人进行在线调查后发现，超过三分之一的人是通过约会网站或Facebook等社交网络与其配偶认识的；这些被调查对象总的离婚率远低于平均离婚率。这项调查表明，网恋在成就稳定的婚姻方面是很靠谱的。

分析： 上述论证是通过调查发现，网恋离婚率远低于平均离婚率，从而得出结论，网恋在成就稳定的婚姻方面很靠谱。这一论证是有缺陷的，若事实上，被调查对象（即网恋）的结婚时间比较短，这意味着，网恋的离婚率与平均离婚率不具有可比性，这显然使上述结论的成立受到了严重的质疑。

例4： 在过去几年中，高等教育中的女生比例正在逐渐升高。以下事实可以部分地说明这一点：在1959年，20到21岁之间的女性1.1％正在接受高等教育，而在1991年，在这个年龄段中的女性的30％在高校读书。

要评价上述论证，最需要了解什么信息？

分析： 上述论证由20到21岁女性入学比例的变化，推出在大学中女生所占比例上升。这则论证涉及统计数据的误用，大学招收的20到21岁的女性占所有20到21岁女性的比例由11％增长到30％，并不意味着招收的女大学生占所有被招收大学生的比例也由11％增长到30％。针对这一统计数据的误用提出的焦点问题是，在该年龄段的男性中，接受高等教育的比例。如果招收男生的比例足够高，那么女生占学生总数的比例未必上升，如果招收的男生比例足够低，那么可以推出招收女生的比例上升了，因此，这一信息对评价题干的论证非常关键。

例5： 美国的枪支暴力惨案再度引发了枪支管控的讨论。反对枪支管控者称，上世纪80年代美国枪支暴力案飙升，1986年有些州通过法律手段实施严格的枪支管控，但实施严格枪支管控的这些州的平均暴力犯罪率却是其他州平均暴力犯罪率的1.5倍。可见，严格的枪支管控无助于减少暴力犯罪。

分析： 上述结论认为严格的枪支管控无助于减少暴力犯罪；理由是，实施枪支管控的州的犯罪率比其他州高。这一理由是靠不住的，因为，枪支管控的效果不应该是与其他城市的比较，而应该是比较枪支管控前后同一城市的暴力犯罪率。若事实上，自1986年以来，实施严格枪支管控的这些州的年度暴力犯罪数持续下降，则说明严格的枪支管控有助于减少暴力犯罪。

例6： 分析下面的论证在概念、论证方法、论据及结论等方面的有效性。

其实，坐飞机出行的安全系数是最高的。

统计表明，坐飞机出行的安全系数是远远高于乘坐火车、汽车等地面交通工具的。近10年，国际上飞机百万架次事故率的平均水平为1.03。按照这个比例计算，一个人每天坐一次飞机，要2660年才遇上一次空难。我们外出都要算里程，所以在安全的数据度量问题上，用路程比用时间更合适、更科学。自20世纪70年代中期以后，飞机每飞行1000公里死亡的人数大约为0.05个，这个数字远远低于铁路和公路。中国民航飞机的百万架次事故率只为0.23。在中国从1982～2004年算下来，22年有21起空难，遇难人数才1404人。

人们认为火车更安全，是一种偏见。一般各国的飞机事故都会及时报道，而火车事故报道就不是很及时或者不进行报道，这给我们一种错觉，飞机似乎总出事。

分析： 上文作者试图通过一则统计论证来证明“坐飞机出行的安全系数是最高的”，但由于存在诸多逻辑问题，其论证是值得怀疑的，现把其中的逻辑缺陷分析如下。

首先，上文没有明确“安全系数”这一概念。因为按照不同的数据统计和理解，存在不同的比较方式，比如，有事故率方面的不同比较，包括百万架次（辆）事故率、百万乘客事故率、百万公里事故率等；也有死亡率方面的比较，比如每十亿次出行死亡人数、每十亿小时出行死亡人数、每十亿公里死亡人数等。不同的比较，结果可能是完全不同的。

其次，该作者用飞机百万架次事故率为1.03，推算出，一个人每天坐一次飞机，要2660年才遇上一次空难。由此作为飞机出行安全的一个证据，理由也是存疑的。因为虽然飞机百万架次事故率很低，但一旦出现事故，死亡率是最高的，而且是死亡人数众多。而且，该作者没有提供同样出行次数的情况下，乘坐飞机和乘坐火车的出事故次数和死亡人数的比较，也许每百万次出行死亡人数，飞机是要高于火车的。

再次，该作者用“飞机每飞行1000公里死亡的人数大约为0.05个，这个数字就远远低于铁路和公路”来支持飞机出行安全的结论也是片面的。因为飞机速度快，按照公里数计算，事故率和死亡率确实相对较低。但是，如果按照出行次数或出行时间计算，乘坐飞机出行的死亡率很可能高于乘坐火车或汽车。

另外，上文笼统地认为，飞机比火车等地面交通工具安全，该结论是不成立的。因为人们对安全的理解各不相同，有人以出行次数为基础，有人以出行时间为基础，有人以出行路程为基础，不同比较的结果是不同的。按照任何单一指标比较飞行和地面交通的安全性都是不恰当的。

最后，作者认为“火车更安全，是一种偏见”，仅仅举出报道差异，这个理由是不充分的。很多人认为火车安全的理由可能很多，比如火车事故的死亡率低、火车出事后逃生的机会比飞机大得多、飞机出事后很少有生还者、有些人对高空恐惧的心理偏见等等，如果该作者想证明自己的观点，这些都需要进行驳斥。

总之，由于上述统计论证存在诸多逻辑漏洞，因此，其结论是值得商榷的。

第二节 统计评估