科学推理：逻辑与科学思维方法最新章节_周建武著

第三节
数据应用

统计推理的作用在于，在现实生活中，人们常通过调查对象的统计性质来分析研究各种问题。为了评价统计论证，我们必须能够解释它们所依据的统计数据。

统计数据主要是指统计活动过程中所取得的反映经济和社会现象的数字资料，包括平均数、百分比、相对数量与绝对数量、比率、概率及其他样本数据。很多人都认为，数字是客观的，用数字说话是有说服力的。但需要注意的是，数字背后是可以有陷阱的，利用客观的数据可以安排种种陷阱，使我们在不知不觉中陷入圈套。所以，我们不要被那些看似有道理，实则不合理的数据所迷惑。在当代社会，我们确确实实生活在一个“数字化”的时代中。各种数字、数据、报表可以说铺天盖地，频频出现在大众传媒之中，我们当然不能对这些数字、数据、报表进行毫无根据的怀疑，但明智的、理性的态度是应该对这些数字保持必要的警惕：人们是如何得到这些数字和数据的？获得这些数字、数据的方法和途径是什么？这些数字、数据准确、可靠吗？这些数字到底能说明什么问题？要想不被数字愚弄，就应该对统计数字有一个批判的态度。

数据应用就是对数据进行分析、处理，从中获取有价值的信息。在论证中，用统计数据作论据具有很强的证据支持效力。正因如此，在论证中一出现有误用统计数据的情况发生，就会动摇论证的基础。另外，统计数据也是诡辩者感兴趣并善于利用的手段，它也为种种诡辩手法的运用提供了方便。因此，在考察统计论证或运用统计数据推出结论时，应注意以下两个方面：一是，对统计数据的基础反复核查；二是，利用统计数据作为证据建构合理的结论。

在应用统计数据的过程中，如果忽视统计数据的相对性、交叉性、相关性和可比性等将会导致的数据误用谬误。一旦在所使用的统计数据方面产生谬误，就会动摇论证的基础。数据应用的谬误主要有：平均数谬误、大小数字的陷阱、掩人耳目的百分比、赌徒谬误、统计不全、错误抽样的谬误、数字和结论不相关、数据不可比、独立数据等。

一、平均数

平均数是表示一组数据集中趋势的量数，是指在一组数据中所有数据之和再除以这组数据的个数。它是反映数据集中趋势的一项指标。

1.平均数的含义

“平均数”有几种不同含义：算术平均数（均值）、众数、中位数以及几何平均数、调和平均数、加权平均数等。因此，需要了解平均的含义到底是哪种，尤其要注意不恰当地使用这些数字所带来的统计问题。

算术平均数是指，一组数值的总和除以这组数值的个数所得到的数。一个数据集合的均值是算术平均数。它是这样计算的：用集合中数据的个数去除这些个别的数据的值之和。从算术平均数的算法可以看出，它很容易受极端值的影响。调查对象的差别越大，数量越少，算术平均数反映对象一般水平的能力也就越差。

众数是调查对象中出现次数最多的数。众数的大小不随极端值的变化而变化，因而它也无法反映极端值对调查对象整体水平的影响。在应该使用算术平均数的时候使用众数，会给人造成错误的印象。

中位数是将所有数据从高到低排列起来，居于数列中间位置的那个数。一个数据集合的中位数是当这些数据按照上升的顺序整理好之后的中点。换句话说，中位数是这样的点，在它的上方和下方有相同数目的数据。如果数列的项数是偶数，则把居于中间位置的两个数字加以平均，得到的便是中位数。中位数也不能反映调查对象的数量分布情况。

一般意义上，“平均数”指的就是算术平均数（均值）。平均已经似乎成了社会衡量各种事物的一个标准概念，统计与宏观趋势的分析中可以用平均，但具体事物的处理时却不能简单地用平均数来说明问题。。

2.平均数谬误

平均数谬误在这里就是指是误用算术平均数，即不恰当地使用算术平均数，从而平均数假象而引申出一般性结论的错误论证。

算术平均数的特点是拉长补短，以大补小，以最终求得的结果代表对象总体的某种一般水平。算术平均数很容易受极端值的影响。极端值可以将平均数向上拉，也可以将它向下拉。调查对象的差别越大，数量越少，算术平均数反映对象一般水平的能力也就越差。算术平均数掩盖了实际上的不平均，通过算术平均数设计的数字陷阱主要是利用了算术平均数的这一特点。

平均数的含义本身就意味着个体的统计值围绕它有上下幅度的波动，而且在许多情况下这种波动的幅度是相当大的。在论证中，如果将总体的平均值或平均数的性质机械地分配给总体中的个体，就会导致“误用平均数”的错误。

例1： “本市平均的空气污染指数已降到警戒线以下”，但你切不要以为生活在本市就十分安全，因为可能你所生活的那个社区，或你所工作的那个单位是本市污染最严重的社区或单位，假如你继续在该社区生活或在该单位工作，就会严重地损害你的健康。

例2： “三个统计学家打猎，碰上一头大鹿。第一个人开火，结果偏左一米。第二个人开火结果偏右一米。第三个人放下枪，欢呼胜利：“平均而言我们打中了！”事实上，平均而言打中了，没有任何意义。

例3： 受多元文化和价值观的冲击，甲国居民的离婚率明显上升。最近一项调查表明，甲国的平均婚姻存续时间为8年。张先生为此感慨，现在像钻石婚、金婚、白头偕老这样的美丽故事已经很难得，人们淳朴的爱情婚姻观一去不复返了。

分析： 张先生得出“人们淳朴的爱情婚姻观一去不复返了”的观点是基于对“平均婚姻存续时间为8年”这一统计数据的理解。而这一理解可能是不确切的，如果现在有不少闪婚一族，他们经常在很短的时间里结婚又离婚。这说明闪婚现象导致了平均婚姻存续时间降低，但这并不说明家庭从总体上不稳定。比如，少部分家庭是闪婚，但在短时间内不断地结了离，离了结，结了又离，离了再结，这样就大大降低了总体上平均婚姻存续时间，但不能说大部分家庭不稳定。

例4： 索马里自1991年以来，实际处于武装势力割据的无政府状态。1991年索马里的人均GDP是210美元，2011年增长到600美元，同年，坦桑尼亚的人均GDP是548美元、中非是436美元、埃塞俄比亚是350美元。由此看来，与非洲许多有强大中央政府统治的国家相比，处于无政府状态的索马里，其民众生活水平一点也不差。

分析： 以上论述根据处于无政府状态的索马里人均GDP高于非洲许多有强大中央政府统治的国家，得出结论，索马里民众生活水平一点也不差。但是，如果索马里的财富集中在少数人手中，许多民众因安全或失业等因素陷入贫困。这表明其人均GDP不能真实反映索马里民众生活水平，这就有力地说明出了上述论证严重的缺陷。

二、数据相对性

数据的相对性主要指的是百分比、基数与绝对量三者的相对关系，数据的相对性谬误就是指忽视三者的相对变化而导致对数据的滥用。

一般来讲，绝对数与相对比例相结合才能有效地说明问题，而仅仅用绝对数或相对比例往往容易误导受众。

1.绝对数字陷阱

绝对数字陷阱也叫大小数字的陷阱，是统计推理中用绝对数字构制的陷阱。在论证中为了需要任意操纵数字，使用庞大的数字可以让人相信某个事实；使用微小的数字可以让人觉得，某事微不足道。但有可能由这些大、小数字得出的结论有些是荒唐至极的，也许是说话人有意地隐瞒了某些重要信息。绝对数难以反映对象的相对变化，遇到绝对数时请拷问：说话人为什么要使用这些数字，他用百分比是不是更能说明问题？

例1： 某校今年本科上线人数达500人，比去年上线人数多了50人，所以，某校今年高考可以说是喜获丰收。

分析： 这则论证的谬误在于没有考虑考生的总人数是否增长。

例2： 郑兵的孩子即将上高中，郑兵发现，在当地中学，学生与老师的比例低的学校，学生的高考成绩普遍都比较好，郑兵因此决定，让他的孩子选择学生总人数最少的学校就读。

分析： 郑兵的想法是选择学生与老师的比例低的学校，但当他选择学校的时候只选择学生总人数最少的学校。可见，郑兵是把相对比例（学生与老师之比）和绝对数（学生人数）弄混淆了，也就是他的决定忽略了：一个学生总人数少的学校，如果老师人数也相应少，则学生与老师的比例不一定低。

例3： 消防队员的工作并不比其他工作更危险。过去5年中，我市消防队员因工受伤的只有4人，而电工因工受伤的有8人，钳工有11人，汽车司机就更多了。

分析： 从绝对数字上看，电工、钳工、汽车司机因工受伤的人数确实比消防队员多。但这绝对说明不了消防队员的工作不比其他工作更危险。谁知道该市的电工比消防队员多多少倍，钳工和汽车司机的数量又分别比消防队员的数量多多少倍？如果用相对数字来比较的话，消防队员因工受伤的百分比可能要比电工的要高出好多倍。

2.百分比陷阱

百分比可以使人们了解某一类对象在全体对象中所占的比例。使用百分比的优点是，可以使人们了解某一类对象在全体对象中所占的比例，统计结果简单明了，一目了然。使用百分比的缺点是，无法反映一种非常重要的信息，即得出百分比所依据的绝对数字。百分比高不意味着绝对量大，还要看基数。

（1）有关百分比的批判性问题

误用百分比指论证中使用了确切的百分比，却疏漏了一件重要的信息—百分比之所凭依的绝对数字。所以，在遇到百分比的时候，我们务必分析以下两个批判性问题：

CQ1.该百分比所依据的基础数据是什么？

CQ2.百分比所表示的绝对总量是多大？

例1： 在某种饮用水中，铅的含量只有0.0005％，请放心饮用。

分析： 如果饮用水中含铅量的合格标准是0.0001％，那么0.0005％就不是一个微不足道的数据。

例2： 肺结核发病正在迅速增长，今年肺结核发病数量增长的比率是去年的4倍。

分析： 增长的比率是去年的4倍，不意味着今年患病的人数是去年的4倍。假如前年患者的人数是1000例，去年是1001例，那么今年则是1005例，而不是4004例。这里，标准是增长的比率，去年与前年相比增长的是1，这个增长数字的4倍是4，因而今年的总数是1005例。

例3： 某出版社近年来出版物的错字率较前几年有明显的增加，引起了读者的不满和有关部门的批评，这主要是由于该出版社大量引进非专业编辑所致。当然，近年来该出版物的大量增加也是一个重要原因。

分析： 要评价以上论证，“错字率”就是一个必须抓住的关键性概念。错字率是单位数量的文字中出现错字的比例，一般地说，它和文字的总量没有确定关系。上述论证把近年来上述出版社出版物的大量增加，解释为该社近年来出版物的错字率明显增加的重要原因，是一个逻辑漏洞。

例4： 美国航空公司近两年来的投诉比率比前几年有明显下降。这主要是由于该航空公司在裁员整顿的基础上，有效地提高了服务质量。当然，9·11事件后航班乘客数量的锐减也是一个重要原因。

分析： 航空公司的投诉率，是单位数量航班乘客中投诉者的比例，一般地说，它和乘客的总量没有确定关系。以上论述把9·11事件后航班乘客数量的锐减，解释为美国航空公司投诉率有明显下降的重要原因，是一逻辑漏洞。

（2）使用百分比的陷阱类型

百分比只是一个相对数字，它不能反映对象的绝对总量。在我们的日常生活中，到处都有可能碰到莫名其妙的百分比。一旦说话人或作者拿百分比进行比较，我们要保持必要的警惕。

要警惕有人为了某种目的，选用需要的基础数据，使用百分比显得畸大或畸小。要注意百分比所表示的绝对总量，该百分比虽小，但绝不意味着它所体现的数字同样貌不惊人。

使用百分比的陷阱包括以下几种类型：

①使用小的分母（小的基数）加大百分比，可使人们相信夸大了的事实。

②使用大的分母（基数）缩小百分比，可以使人相信某种现象并不重要或不值得重视，没有必要大惊小怪。

③在不该使用百分比的情况下使用百分比，对不同的百分数进行错误的比较，从而误导对方。

在不该使用百分比的情况下使用百分比，是诱人上当的另一种把戏。其秘诀是，隐蔽大、小绝对数的实际差异，对不同的百分数进行错误的比较，从而使人产生错误的印象。相对数量和绝对数量是两个差别很大的概念，前者是个比值，而后者却仅仅是个统计数值，所占的百分比较高不一定意味着其绝对量较大。

例1： 通常认为左撇子比右撇子更容易出事故，这是一种误解。事实上，大多数家务事故，大到火灾、烫伤，小到切破手指，都出自右撇子。

分析： 上述论证只比较了右撇子出事故的人数比左撇子出事故的人数多，就确认左撇子不比右撇子更容易出事故，这个比较显然是不对的。怎样来比较左撇子与右撇子哪个更容易出事故呢？关键是要比较，左撇子的事故率和右撇子的事故率。

左撇子的事故率＝左撇子出事故的人数/左撇子的总人数

右撇子的事故率＝右撇子出事故的人数/右撇子的总人数

可见，上述论证中的漏洞是，未考虑左撇子在所有人中所占的比例。

只有考虑左撇子在所有人中所占的比例，才能确定左撇子和右撇子的总人数比，进而才能确定左撇子和右撇子哪个更容易出事故。如果左撇子在所有人中所占的比例明显低于右撇子，那么就不能根据大多数家务事故都出自右撇子，就否定左撇子比右撇子更容易出事故。

例2： 塑料垃圾因为难以被自然分解，一直令人类感到头疼。近年来，许多易于被自然分解的塑料代用品纷纷问世，这是人类为减少塑料垃圾的一种努力。但是，这种努力几乎没有成效，因为据全球范围内大多数垃圾处理公司统计，近年来，它们每年填埋的垃圾中塑料垃圾的比例，不但没有减少，反而有所增加。

分析： 这则统计论证涉及比例的相对变化与绝对值之间的关系。“塑料在垃圾中所占的比例”是一个相对量，“塑料垃圾的总量”则是一个绝对量。相对量增加，绝对量不一定增加。如果近年来，由于实行了垃圾分类，越来越多过去被填埋的垃圾被回收利用了，这意味着虽然塑料垃圾在垃圾中所占比例的有所上升，但塑料垃圾总量却可能明显减少，这就能有力地削弱了上述论证。

例3： 鸟类需要大量摄入食物以获得保持其体温的能量，有些鸟类将它们大多数的时间都用在摄食上。但是，一项对食种子的鸟类和食蜜的鸟类的比较研究表明：相同的能量需要，肯定会使食种子的鸟类比食蜜的鸟类在摄食上花费更多的时间，因为相同量的蜜所含的能量大于种子所含的能量。

分析： 上述论证涉及在比较数据时与基数的关系问题。在绝对值（总能量）相同的情况下，根据“相同量的蜜所含的能量大于种子所含的能量”能否推出“食种子的鸟类比食蜜的鸟类在摄食上花费更多的时间”，这取决于基数（食相同量的蜜与食相同量的种子所花的时间）是否相同。因此，要使论证成立，必须假设，食蜜的鸟类吃一定量的蜜所需要的时间不长于食种子的鸟类吃同样量的种子所需要的时间。否则，如果食蜜的鸟类吃一定量的蜜所需要的时间长于食种子的鸟类吃同样量的种子所需要的时间，这样题干结论就不一定成立了。

三、数据交叉性

数据的交叉性也是常见的数字陷阱，运用统计推理时，需要注意的是统计数据所描述的不同对象的概念外延是否重合，即数据中是否有相容的计算值。

例1： 员工诚实的个人品质对于一个企业来说至关重要。一种新型的商用测谎器可以有效地帮助企业聘用诚实的员工。著名的QQQ公司在一次对300名应聘者面试时使用了测谎器，结果完全有理由让人相信它的有效功能。当被问及是否知道法国经济学家道尔时，有1/3的应聘者回答知道；当被问及是否知道比利时的卡达特公司时，有1/5的人回答知道。但事实上这个经济学家和公司都是不存在的。测试结果证明：该测谎器的准确率是100％。从中可以推出什么结论？

分析： 根据以上论述可推出，当回答知道法国经济学家道尔时，有100名应聘者撒谎；当回答知道比利时的卡达特公司时，有60名应聘者撒谎；又因为测谎器的准确率是100％，所以在上述面试中撒谎的不少于100人，即未撒谎的不多于200人。

例2： 在产品检验中，误检包括两种情况：一是把不合格产品定为合格：二是把合格产品定为不合格。有甲乙两个产品检验系统，它们依据的是不同的原理，但共同之处在于：第一，它们都能检测出所有送检的不合格产品；第二，都仍有恰好3％的误检率；第三，不存在一个产品，会被两个系统都误检。现在把这两个系统合并为一个系统，使得被该系统测定为不合格的产品，包括且只包括两个系统分别工作时都测定的不合格产品。可以得出结论：这样的产品检验系统的误检率为0。请评价上述推理是否具有必然性？

分析： 根据以上论述，对于甲乙两个系统中的任一系统：

第一，测定为合格的产品实际上都是合格产品；

第二，合格产品中有3％测定为不合格，属误检；

第三，甲系统误检为不合格的产品，若经乙系统检验，则被测定为合格（同样，乙系统误检为不合格的产品，若经甲系统检验，则被测定为合格）。

因此，任意一批产品中，真正不合格的产品一定是分别经过甲乙两个系统的检验并都测定为不合格的产品。也就是说，甲乙两个系统所合并成的系统的误检率为0。所以上述推理是必然性的。

四、数据相关性

数据相关性是指应用统计数据推出结论时，数据必须与结论相关。数据的相关性表现在样本的归属问题上。相对不同的群体，某事在样本身上发生的可能性的大小通常是不一样的。所以，当我们衡量某事在一个样本身上发生的可能性时，必须确定这个样本属于哪个群体。

1.数据与结论不相关的谬误

数据与结论不相关的谬误是指把不相关的统计数据误认为密切相关而做出的错误的统计论证。如果统计推理提供的数字与其结论之间明显地毫无关联，人们可能不知道它究竟在说什么，但却不会上它的当。但是，在很多情况下，统计推理的前提与其结论之间貌似相关，而实际上却不相关。这种似是而非的相关性使很多人在不知不觉中受了骗。

在评价统计推理时，就要仔细分析一下统计推理的前提与其结论之间的相关程度，具体有两种方法：

一种方法是，把注意力放在推理中出现的统计数字上，仔细分析一下，从这些数字中可以推出什么结论？如果我们发现，由推理中给出的数字所推出的结论与推理的结论不相符，也许我们就发现了推理的错误所在。

另一种方法是，在遇到一个统计推理时，我们应先将推理中出现的统计数字放到一边，考虑一下，什么样的统计数字可以证明推理的结论？然后，把证明结论所需要的数字与推理中所给出的数字比较一下。如果二者毫不相干，或许我们就可由此发现推理的错误。

统计本质上也属于归纳，在统计论证中，归纳强度取决于样本与总体的相关性。统计概括的结论不但描述对象的性质，也描述对象的因果关系。当我们依靠统计数据来解释或者确认一种因果关系时，必须考虑前提所选取的样本属性与结论所描述的总体属性是否相关，在很多情况下，统计推理的前提与其结论之间貌似相关，而实际上却不相关。因此，数据与结论不相关往往也表现为强加因果联系的论证谬误。

例1： 某国牧师薪水增长的比率与该国朗姆酒消费增长的比率非常接近，有人由此提出结论说：当牧师有了多余的收入时，他们倾向于把多余的钱用来打酒喝。事实是由于该国人均生活水平的提高导致了这两方面的同步增长。

例2： 我国的戏剧工作者中，只有很小的比例在全国30多个艺术家协会中任职。这说明，在我国的艺术家协会中，戏剧艺术方面缺少应有的代表性。

分析： 上述论证有漏洞，因为我国的戏剧工作者中，只有很小的比例在全国30多个艺术家协会中任职，并不意味着在我国艺术家协会中戏剧工作者只占很小的比例。体现戏剧艺术在艺术家协会中的代表性，依据应该是“在艺术家协会中任职的戏剧工作者的比例”，而不应该是“戏剧工作者中有多少比例在全国艺术家协会中任职”。

例3： 一位评论家在谈到这种滥用数据的谬误时，举了一个颇具讽刺性的例子：

近十年来，得克萨斯州博士的数量每年增加5.5％，而该州骡子的数量每年却减少5.5％，所以博士数量的增长导致了骡子数量的下降。

分析： 得克萨斯州博士增长和驴子下降的百分比有统计关联，可能其真正的共同原因是城市化的进程。

2.概率误解

典型的数据与结论不相关的谬误是对概率的误解。

概率，又称或然率、机会率或机率，表示随机事件发生可能性大小的量，是事件本身所固有的不随人的主观意愿而改变的一种属性。如果一件事情发生的概率是1/ n ，不是指 n 次事件里必有一次发生该事件，而是指此事件发生的频率接近于1/ n 这个数值。

概率推理是根据某类事物部分对象具有某种概率，推出该类事物都具有该种概率的推理。概率是对大量随机事件所呈现的规律的数量上的刻画，通常用 P （A）表示。运用概率推理，我们可以获知某事件发生的可能性有多大，或者说某事件发生的机会有多大。在这个意义上，可以说概率推理即关于机会的推断。

（1）赌徒谬误

赌徒谬误是指根据一个事件在最近的过去不如期望的那样经常出现，推断最近的将来它出现的概率将会增加的统计推理谬误。

该谬误产生的根源在于人们误认为博彩游戏中相互独立的事件之间存在因果关联，由于赌徒们经常犯这种错误，故以此命名。赌徒们的错误在于误解了“大数定律”或“平均定律”。但是，大数定律和平均定律的原理告诉我们，一种情况随机发生的频率有其稳定性。在大量重复进行同一试验时，这种情况发生的频率总是接近于某个常数。这个常数就被称为该情况随机发生的概率。当试验次数足够多时，随机情况发生的频率与它们的概率无限接近。

比如，在掷硬币的游戏中，每次出现正面或反面是偶然的，但在大量重复时，出现正面的次数与总次数之比，却必然接近于确定的数—1/2。但大数定律只告诉我们一个长远的概率，并没有告诉我们，在投掷第 n +1个硬币时将会出现什么样的概率。赌徒们没有注意到，每一次抛掷都是一个独立的事件，先前的抛掷对以后的抛掷没有因果上的影响。所以，先前几次正面朝上的事实并不能增加下一次抛掷出现反面朝上的可能性。每次掷硬币正面向上的概率永远是1/2。即便以往10次掷硬币时，都是正面向下，下次掷硬币时，其正面向上的概率仍然是1/2。

再如，在盘子上有红、黑两色的轮盘赌中，每次出现红色的概率是二分之一，赌徒输一次就增加赌注，以为这一次输了，下一次赢的机会就会增大；赢一次就减少赌注，以为这一次赢了，下一次不大可能还会赢。一个赌徒在输掉几次之后，加大赌注，以期在“应该”要发生的事件到来时大捞一把。然而，赌徒可能会输得更惨。

例1： 有一个与赌徒的谬误相关的有趣例子，据说在第一次世界大战中，许多士兵要找新的弹坑藏身，理由是看起来不大可能两个炮弹一个接一个都落在同一点，这样他们就合理地认为藏在新弹坑在一段时间内将会安全一些。在第二次世界大战中，国际象棋大师班里在伦敦的住宅被炸之后，基于同样的理由返回了他的住宅，结果他的住宅又一次挨了炸弹。

例2： 一对农村夫妇，特别想要个男孩，生了第一个孩子是女儿，取名叫招弟；第二个又是女儿，叫跟弟；第三个还是女儿，叫听弟；第四个仍是女儿，叫等弟；第五个到第七个也都是女儿，分别叫候弟、盼弟、望弟；一共生了7个女儿，就是没生出男孩。其实，不管连续生了几个女儿，下一个生儿生女的概率仍各为50％。

例3： 有一个故事讲的是很多年前有一个人坐飞机到处旅行。他担心可能哪一天会有一个旅客带着隐藏的炸弹。于是他就总是在他的公文包中带一枚他自己卸了火药的炸弹。他知道一架飞机上不太可能有某个旅客带着炸弹，他又进一步推论，一架飞机上同时有两个旅客带炸弹是更加不可能的事。事实上，他自己带的炸弹不会影响其他旅客携带炸弹的概率。

（2）条件概率谬误

条件概率是指事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为 P （A|B），读作“在B条件下A的概率”。

条件概率的谬论是假设 P （A|B）大致等于 P （B|A）。

例1： 假设人群中有1％的人患有某重大疾病，而其他人是健康的。我们随机选出任一个个体，并将患病以disease、健康以well表示，阳性以positive、阴性以negative表示。

P （disease）＝1％＝0.01

P （well）＝99％＝0.99

假设检验动作实施在未患病的人身上时，有1％的概率其结果为假阳性（如果没有患病的99人被测试，那么，根据1％的错判率，其中大约有1人将被错判为有病）。即：

P （positive|well）＝1％

P （negative|well）＝99％

再假设检验动作实施在患病的人身上时，有1％的概率其结果为假阴性（阴性以negative表示）。即

P （negative|disease）＝1％

P （positive|disease）＝99％（如果你真得了病，而被检出为阳性的条件概率）

分析： 由计算可知，100人中测试为阳性的2个人中，只有1个人是确实患病的。也即，你被检出为阳性，而你实际上真得了病的条件概率 P （disease|positive）＝50％。

由本例中所选的数字，最终结果可能令人难以接受：被测定为阳性者，其中的半数实际上是假阳性。所以，在这种情况下，如果在一次体检中被检测出有病，也别过于苦恼，因为有一半的可能是假阳性，你应该进一步做重复检测，再次确认是否真的患病。

例2： 一种检测假币的仪器在检测到假币时灯会亮，制造商称该仪器将真币误认为是假币的可能性只有0.1％。因此，该仪器在1000次亮起红灯时有999次会发现假币。

分析： 上述在讨论百分比时实际偷换了数据概念，该仪器将真币误认为是假币的可能性只有0.1％，是指“在检测一千次真币时红灯会亮一次”，而不是“在一千次亮起红灯时有九百九十九次会发现假币”。

例3： 在对100个没有使用过毒品的人进行吸毒检验时，平均只有5人的检验结果为阳性。相反，对100个吸过毒的人进行检验的结果有99人为阳性。所以，如果对随便挑选的人进行此项检验，绝大多数结果呈阳性的人都是用过毒品的人。

分析： 上述论证中的推理是错误的，因为这则论证没有考虑到使用毒品的人在总人口中所占的比例。如果使用毒品的人在总人口中所占的比例极小，那么随便挑选的人进行此项检验，可能里面根本就没有吸过毒的人，但有可能有一些人检验结果为阳性，这样题干结论就不成立了。

例4： 一种为机场安全而设计的扫描仪在遇到行李中藏有易爆品时会发出警报，扫描仪把没有易爆品的行李误认为有易爆品的可能性只有百分之一。因此，在一百次报警中有九十九次会发现易爆品。

分析： 上述论证的推理是错误的，因为在讨论百分比时替换了一组数据的概念。从“把没有易爆品误报为有易爆品的可能性只有百分之一”中推不出“在一百次报警中有九十九次会发现易爆品”。“把没有易爆品误报为有易爆品的可能性只有百分之一”的意思是，若连续检验10000件没有易爆品的行李，扫描仪可能会发出100次报警，而这100次警报可能都是假的。而“一百次报警中有九十九次会发现易爆品”的情况属于“把有易爆品的行李误认为没有易爆品的可能性只有百分之一”。可见，题干对“把没有易爆品误报为有易爆品的可能性只有百分之一”误解为“把有易爆品的行李误认为没有易爆品的可能性只有百分之一”。

五、数据可比性

比较或者对比是确定事物之间相同点和相异点的思维方法，它为客观全面地认识事物提供了一条重要途径。对比可以是两个对象之间的比较，也可以是同一对象自身前后不同阶段之间的比较，前者称为横向比较，后者称为纵向比较。

运用对比论证的规范如下。

（1）比较的双方要具备可比性

数据的可比性是数据能够起到证据作用的必要条件，是审查统计数据是否具备作为理由的资格。在统计推理或统计论证中，如果忽略总体性质的差异对两个统计数据进行比较，并试图在此基础上确立某一结论，这就犯了数据不可比的错误。

（2）要建立合理的参照系

比较要有比较的对象，也要有比较的共同基础。也就是说，要进行比较，就必须具有合理的共同参照系，没有共同的参照系，两者就无法进行比较。所谓参照系指的是用来衡量和确定双方优劣长短的标准，这样的标准必须具有客观性，否则比较的结论就不可靠。

数据的可比性是统计数据能够起到证据作用的必要条件，审查数据是否具备作为理由的资格，这是评估统计论证最重要的方面。统计概括的结论总是涉及总体的性质，也就是总体的规模和它的异质性程度，由于忽略总体性质的差异而对两个统计数据进行比较，并试图在此基础上确立某一结论，这就犯了数据不可比的错误。

数据不可比的谬误根源在于：

①两个样本有实质性差别。

②统计对象和样本有实质差别。

③概念的不同解释对得出结论的关键影响。

比如，在比较有关犯罪率的数据时，可能需要考虑“犯罪”这一概念基础是否有相对变化，比如几年前还没有“破坏东西生态环境罪”，相应的行为未计入犯罪数据中，而在今年增加了此项立法，相应的犯罪行为就被计入犯罪数据中，因此现在的犯罪率可能会高于以往的，然而，据此并不能充分肯定现在社会现象比以往更加严重。

数据不可比谬误的主要表现为“对比不当”与“独立数据”的谬误。

1.“对比不当”的谬误

“对比不当”的谬误是指在不同的基础上进行比较，或者把本来不可比的对象、数据拿来强行做比较。削弱统计论证常用的方式是通过指出比较的根据或基础不正确，来说明某一组数据不能说明问题或两组数据不可比。

（1）比较的对象不恰当

遇到统计数字时需要追问：说话人为什么要使用这些数字，他用百分比是不是更能说明这个问题？说话人是否有意地用令人印象深刻的大、小数从而隐瞒某些重要信息？

例：今年本公司的汽车销售了10万辆，这比我们的一个竞争对手的销量多出了一倍，看来，我们最好的年头到底来了。

分析： 这则论证的谬误在于没有和本公司其他年份的销量对比，因而得不出结论。

（2）两个样本有实质性差别

由于忽视统计对象和样本的实质差别，而将两组数据机械进行比较而导致的错误。即表面上这两组数据在进行比较，而实际上这两组数据根本就没有可比性。

例1： 统计表明，大多数医疗事故出在大医院，因此去小医院看病比较安全。

分析： 这则统计论证的结论是建立在将两个具有不同内容的数字进行不恰当比较的基础上的。若样本（质）不同，即事实上，去大院就诊的病人的病情，通常比去小医院的病人的病情重，因此，显然不能根据大医院的医疗事故多，就得出去大医院看病不安全的结论。所以，上述论证是有漏洞的。

例2： 在第二次世界大战中，大约有37.5万名平民在美国本土死亡而有大约40.8万名美国军人在海外死亡。基于这些数字可以得出结论，在第二次世界大战中作为军人派驻海外并不比作为平民留在本土危险很多。

分析： 要比较危险程度，不能用绝对死亡人数来比较，而要用死亡率来比较，这种比较将揭示出死亡人数少的一组反而有更高的死亡率。题干推理甚的荒谬之处在于，事实上留在国内的市民远比在海外服役的军队人数多得多。

例3： 在美国与西班牙作战期间，美国海军曾经广为散发海报，招募兵员，当时最有名的一个海军广告是这样说的，美国海军的死亡率比纽约市民的死亡率还要低。海军的官员具体就这个广告解释说：“根据统计，现在纽约市民的死亡率是每千人有16人，而尽管是战时，美国海军士兵的死亡率也不过每千人只有9人。”

分析： 由于这两个数据的统计对象和样本有实质的差别，海军士兵是经过体格检查选拔出来的身强力壮的年轻人，而纽约市民中则有婴幼儿、老年人和各式各样的病人，所以基于这样不同的调查对象所做出的统计数据是没有可比性的。

例4： 一份研究报告指出，一种特殊的教育计划增加了接受研究的3～5岁的孩子在今后学校教育中获得成功的可能。因此，对所有孩子实行类似的教育方案会提高他们在以后学校教育中取得成功的机会。

分析： 以上论述根据，一种特殊的教育计划使被研究的3岁到5岁的孩子都获得了成功；从而得到一个普遍性的结论，这一教育计划会使所有3岁到5岁的孩子都获得成功。若研究人员无意地包括了相当多的以前接受过别的教育启智项目的孩子，这意味着，作为这个研究人员测试对象的孩子是特殊，他们的成功性增大完全有可能是另外教育启智项目的结果，这就能有力地削弱上述结论。

例5： 研究发现，试管婴儿的出生缺陷率约为9％，自然受孕婴儿的出生缺陷率约为6.6％。这两部分婴儿的眼部缺陷比例分别为0.3％和0.2％，心脏异常比例分别为5％和3％，生殖系统缺陷的比例分别为1.5％和1％。因而可以说明，试管婴儿技术导致试管婴儿比自然受孕婴儿出生缺陷率高。

分析： 以上论述运用统计数据得出结论，试管婴儿技术导致试管婴儿比自然受孕婴儿出生缺陷率高。若发现，试管婴儿的父母比自然受孕婴儿的父母年龄大很多，父母年龄越大，新生儿出生缺陷率越高。这就说明“试管婴儿比自然受孕婴儿出生缺陷率高”的原因不是“试管婴儿技术”，而是“父母年龄大”，从而有力地削弱了上述结论。

例6： 对某种溃疡最常用的一种疗法可在六个月内把44％的患者的溃疡完全治愈。治疗这种溃疡的一种新疗法在六个月的试验中，有80％的溃疡患者有明显的好转，61％的溃疡患者完全治愈。由于在实验中治疗的溃疡比平均的病情更严重，因此，这种新的疗法显然在疗效方面比最常用的疗法更显著。

分析： 以上论述通过比较患者在六个月内的痊愈率，新疗法比常用疗法高，推出新疗法更好。但该论述却没有提供最常用的疗法使溃疡患者好转的比例。要评价这一论证，必须针对数据的可比性提出的一个焦点问题：在六个月内用最常用的疗法医治该种溃疡的患者中，取得明显好转的比例是多少？如果六个月内用最常用的疗法医治该种溃疡的患者中，取得明显好转的比例超过80％，那么不能说明新疗法比常用疗法好，如果六个月内用最常用的疗法医治该种溃疡的患者中，取得明显好转的比例在80％以下，则说明新疗法比常用疗法好。

2.“独立数据”的谬误

独立数据是脱离比较基础的数据。在统计论证中，独立数据在论证中的证据效力是不能令人信服的。

（1）没有设定供比较的对象

如果没有供比较的对象，那么这组数据表面上在进行比较，而实际上根本没有比较。

例如：这种药物的疗效提高了68％。

这句话并没有明确说明这种药物的疗效比什么提高了68％，是该药物的疗效比市场上见到的同类药品的疗效提高了68％？还是该药物的疗效比该公司以前生产的同类药品的疗效提高了68％？不提供这样的背景信息，上述表面上的比较就毫无意义。

（2）没有与相关的数据进行比较

若要使所列的数据成为有说服力的证据，就必须与相关的数据进行比较。比如，某人提出一个特殊群体具有某种行为的比例，因此，这种行为与这个群体的特殊情况有因果联系。为了证明题干的这种因果联系是否成立，我们就需要找出用于对比的另一个群体中具有该种行为的比例，并把这两个可对比的群体中具有该种行为的比例进行比较。

比如，如果一份对中国人的调查显示，肺癌患者中90％以上都是汉族人，由此显然不能得出结论，汉族人更容易患肺癌，因为汉族人本身就占了中国人的90％以上。

例1： 据某国卫生部门统计，2004年全国糖尿病患者中，年轻人不到10％，而患者中的70％为肥胖者。这说明，肥胖将极大地增加患糖尿病的危险。

分析： 该论证所用的是独立数据，不具备说服力。从上述论证的前提可知，该年全国中老年糖尿病患者中，肥胖者约占60％～70％。仅由这一前提是不能得出肥胖会增加患糖尿病的危险这一结论的。如果事实上在2004年，肥胖者在该国中老年人中所占的比例超过60％，接近于肥胖的糖尿病患者在整个中老年糖尿病患者中的比例，这意味着，肥胖很可能与患糖尿病无关。

例2： 一项对某高校教员的健康普查表明，80％的胃溃疡患者都有夜间工作的习惯。因此，夜间工作易造成的植物神经功能紊乱是诱发胃溃疡的重要原因。

分析： 要使上述统计论证使所列的数据成为有说服力的证据，就必须与相关的数据进行比较。若发现，该校教员中只有近五分之一的教员没有夜间工作的习惯，即该校教员中80％以上都有夜间工作的习惯，这个比例已经大于或者等于胃溃疡患者有夜间工作习惯的比例，也就是说，是否患胃溃疡与有否夜间工作的习惯无关。

第三节 数据应用