妙趣横生的统计学：培养大数据时代的统计思维（第四版）最新章节_杰弗里·班尼特著

1.2 抽样

我们仅能依靠观察总体中的每个成员来了解总体参数的真值。例如，想知道你所在学校学生的精确平均身高，你需要对每个同学进行测量。这种对总体中每个成员进行数据收集的方法称为普查。然而，进行一次普查通常很不切实际。在某些情况下，总体太大，收集每个成员的数据既耗时又费力。在另一些情况下要排除普查，因为它会干涉研究目标。例如，涉及检验销售前的棒棒糖的质量，我们不能运用普查的形式，因为那样的话，每个棒棒糖都要检验，就没有完整的棒棒糖可以出售了。

不是所有的价值都能被计算，不是所有能计算的都具有价值。

——阿尔伯特·爱因斯坦（Albert Einstein）

普查是指对总体中所有样品进行数据收集。

大多数统计研究都可以不进行普查。一般情况下，我们从样本中收集数据（而不是对总体中的每个个体进行收集），并通过样本统计量推断总体参数。当然，仅当样本中的个体对总体具有代表性或依据研究的特性进行数据选取时，这个推断才是有意义的。也就是说，我们要寻找总体的代表性样本。

代表性样本 是具有总体本质属性的样本。

例1 有关身高的代表性样本

假设你要统计你所在学校全部学生的平均身高，以下哪个更可能是该研究的代表性样本？男子篮球队成员还是你统计课班级里的同学？

答案男子篮球队不是研究身高的代表性样本，因为它只包含男生且男子篮球队成员一般比同龄人高。你所在统计课班级的同学的平均身高更接近所有同学的平均身高，所以你所在统计课班级里的同学比男子篮球队成员这个样本更具有代表性。

许多药物研究是测试新研发药物是否有效的。美国医学协会杂志发表过一篇文章，其中表明研究结果为药物有效的论文比药物无效的论文更容易发表。这个公共偏差使得所发布的药效结果比实际药效更容易让人相信。

1.2.1 偏差

假设在电视收视率案例的5000个家庭样本中，尼尔森仅选择常常夜间轮班的工薪家庭。它会发现样本中的家庭很少观看深夜节目（因为上夜班的人不能在家里观看深夜节目）。很明显，这个样本不能代表全部的美国家庭，据此得出“深夜节目在美国人中不受欢迎”的结论是错误的。我们说这个样本是有偏差的，因为它并不包含所有典型的美国家庭（在实际的样本选择中，尼尔森尽力避免这些明显的偏差）。偏差在设计和进行统计研究时会引起许多问题，并使结果趋向于我们偏好的特定结果。我们不能相信一个有偏差的研究结果。

如果统计研究的设计和实施趋向于一个偏好的特定结果，那么它可能存在偏差。

偏差产生的途径有如下几种。

·如果样本中的个体在某些方面与总体的个体有区别，则说明该样本存在偏差。在这种情况下，研究结果将反映样本的特有性质，而不是总体的普遍特征。

·如果研究者倾向于某一特定结果，则会产生偏差。在这种情况下，研究者会有意无意地曲解数据含义。

·如果在收集数据时，有意无意地选择了不具有总体代表性的数据，则说明数据设定本身存在偏差。

·即使研究已经完成，也可能存在报告偏差。例如，一个数据图表可能只反映了部分事实，或歪曲了数据（见3.4节）。

减少偏差是统计研究中的一项巨大挑战。因此，寻找偏差成为评估统计研究或媒体报道的重要步骤。

例2 为什么使用尼尔森数据

尼尔森媒体研究通过向电视台和网站收取服务费来赚钱。例如，NBC向尼尔森公司支付费用来获取电视节目收视率数据。为什么NBC自己不统计数据，而是购买另一家公司的数据呢？

答案电视节目所能赚取的广告费，取决于广告的收视率。收视率越高，广告费就越高。这意味着如果NBC自己统计其收视率，将会存在很大的偏差。因此，广告客户不会相信NBC本公司统计的收视率。通过租用相对独立的数据资源，如尼尔森数据，NBC公司可以提供让广告客户更能信任的收视率信息。

思考时刻

实际上NBC购买尼尔森公司数据的同时，也给尼尔森一个机会让NBC的收视率看起来还不错。如果你是广告代理，尼尔森收视率还有其他别的因素能帮助你获得信心吗？

1.2.2 抽样方法

一个良好的统计研究必须具有一个代表性样本，否则样本存在偏差会导致结论毫无意义。我们依次检验一些普通的抽样方法，理论上至少能筛选出一个代表性样本。

1.简单随机抽样

在众多案例中，获得代表性样本的最好方法是在总体中进行简单随机抽样。随机抽样使总体中的每一个对象都有平等的机会被选入样本。例如，可以通过掷骰子选择总体中掷到6的人作为一个随机抽取的样本。但选择高于6英尺的人作为样本并不是随机抽样，因为每个人被选择的机会不同。

在统计中，我们预先决定所需的样本容量。在简单随机抽样中，具有特定样本容量的可行样本都有均等的被选择的机会。例如，从你所在学校的全部学生中用简单随机抽样选取100个学生作为样本，你可以给学校中的每个同学编号，然后抽签选出100个人，只要确保每个学生的编号是唯一的，那么由100个学生组成的每一个可能样本被选中的机会就相同。你也可以通过计算机或者有内置随机数字生成器的计算器选择学生编号。

思考时刻

寻找计算器上的随机数字键（几乎每个科学计算器都有）。当你按下它时会发生什么？如何用随机数字键选择100个学生的样本？

因为对于特定容量的样本，简单随机抽样使每个样本有均等的被抽取机会，所以只要样本容量足够大，就能找到具有代表性的样本。

例3 当地居民抽样

你想在城镇的居民中进行投票选举，能否从当地的财产税收记录中通过简单随机抽样抽取名字？

答案来自财产税收记录的样本不是该城镇总体人口的简单随机抽样样本，因为记录中只包含该城镇有财产的人，它不包括这个城镇的所有人，它可能还包括不在该城镇生活但在这里有不动产的人。

2.系统抽样

在一些案例中，尽管简单随机抽样十分有效，但是我们可以通过更简单的方法获得同样的结果。假设你要检验英特尔公司生产的微机芯片的质量。由于芯片靠流水作业线产出，你可以每隔50个抽取一个芯片作为样本。此样本是一个代表性样本，因为每隔50个抽取的芯片与其他芯片相比没有任何特殊的规律特征。这种形式的抽样方法被称作系统抽样。

例4 博物馆评估

美国航空航天博物馆想策划一个新的太阳系展览，工作人员对一个系统抽样的参观者样本进行采访调查。他选择每15分钟正好进入参观太阳系展览的人作为系统抽样的样本。他为什么使用系统抽样的方法而不是简单随机抽样来确定样本呢？在该案例中，系统调查更能抽取到有代表性的样本吗？

答案简单随机抽样偶尔会间隔很短地选择两个参观者，这样的话，工作人员没有足够的时间去采访他们。而系统抽样每隔15分钟抽选一个参观者，很好地避免了这个问题。因为参观者在特定的时间进入，与早一点或晚一点进入没有任何不同，所以我们可以通过系统抽样得到有关总体的代表性样本。

例5 什么情况下系统抽样会失败

你准备调查男女混住的宿舍，其中男生被分配在奇数号房间，女生被分配在偶数号房间。当你每隔10个房间抽取1个房间时，能获得代表性样本吗？

答案不能。如果你从奇数号房间开始抽取，每隔10个抽取的房间依旧是奇数号（比如房间号3，13，23，…）。同样地，如果你从偶数号房间开始每隔10个抽取一个房间，它依然是偶数号房间。因此，你获得的样本要么全是男生，要么全是女生，不具有男女混合的代表性。

思考时刻

在例5中，如果你每隔5个房间抽取1个，而不是每隔10个抽取，所得的样本是否具有代表性？

3.任意抽样

系统抽样虽然比简单随机抽样简单，但在某些情况下仍然不切实际。假设你想知道你所在学校惯用左手学生的比例，你将花费很大的精力去进行简单随机抽样或系统抽样，因为两者都要考虑到你所在学校的所有学生。然而，以你统计课班级的同学作为样本就会变得容易得多，你只需让班里惯用左手的同学举手以作统计。这种抽样方式叫作任意抽样。为了确定惯用左手学生的比例，以你所在的统计班级作为任意样本是不错的选择。因为该班级里惯用左手学生的比例和整个学校范围内惯用左手学生所占的比例没有什么不同。但如果你是研究不同专业同学的比例，该样本就会存在偏差，因为一些专业不需要学统计。总的来说，任意抽样比其他形式的抽样调查更容易出现统计偏差。

例6 沙拉酱口味测试

超市在考虑是否要引进一种新品牌的沙拉酱，所以提供免费试吃，以收集顾客意见。这里使用了哪种抽样方法？这个样本对总体购买者来说具有代表性吗？

答案顾客试吃沙拉酱的样本是一个任意样本，因为这些顾客刚好在这个店里，并愿意尝试新产品（这种类型的任意样本是人们自己选择是否成为该样本的一部分，也称为自主选择样本，我们将在1.4节中详细介绍）。该样本不能准确地代表顾客总体，因为不同的人会在不同的时间进行购物。例如，在家休息的人通常比上班的人更趋向于在中午购物，并且仅仅是喜欢吃沙拉酱的人才有可能试吃。当然，数据仍然很有用。因为在这个调查中，喜欢吃沙拉酱的顾客的意见才最重要。

4.整群抽样

整群抽样是指将总体中的个体归类为随机的组或群。假设你在农业部门工作，并且想知道使用有机农业技术的农民所占的比例。如果用简单随机抽样或系统抽样去选取样本，会耗时耗力，因为需要去许多相距甚远的独立农场采集数据。使用某个县的农民作为任意样本又会出现偏差，因为不同地区的农业生产方式会有很大差异。你可以在美国范围内随机选择几十个县，对其中的每个农民进行调查。我们认为每个县都是一个农民群体，样本包含了随机选取的群体中的农民。

例7 汽油价格

你想知道离机场出租车站1英里远的加油站的汽油平均价格。说明在本案例中使用的抽样调查方法。

答案你可以在全美随机选取几个机场，调查离机场出租车站1英里远的所有加油站的油价。

5.分层抽样

假如你在策划一个预测下届美国总统选举结果的投票。研究总体为所有可能的投票者，你可以从中选择一个简单随机抽样样本。然而，由于总统选举以州为单位计算选举结果，如果你知道每个州投票者的偏好，就可以更准确地预测结果。因此，样本应该包括50个州中每个州各自的随机样本。在统计术语中，50个州代表不同子组或层级。因为样本是从每个层级中随机选择得到的，所以该方法叫作分层抽样。

例8 失业数据

美国劳工部每月调查60000个家庭来编制失业率报告（见1.1节，例2）。劳工部首先将县和市分成2000个不同的地区，然后在这些地区随机选择一些家庭进行调查。这是分层抽样吗？它的层级是什么？为什么在本案例中分层抽样很重要？

答案失业率调查是分层抽样的一个案例，因为它首先将总体分成各子组。子组或层级是2000个地区的人。分层样本在本案例中十分重要是因为地区不同，其失业率也不同。例如，堪萨斯州农村和硅谷的失业率会存在很大差距。通过分层抽样，劳工部可以保证样本公平地代表所有地区。

1.2.3 抽样方法总结

图1-3总结了之前讨论的五种抽样方法。没有单独的哪种方法是最好的，每种方法都有其使用范围（某些研究甚至采用两种或者多种抽样调查方法）。但不管怎样抽选样本，其一定要符合以下三点：

·只有样本对总体具有代表性，研究才有意义；

·有偏差的样本不可能是代表性样本；

·由于在实际选择样本时可能运气不好，即使是一个精心选择的样本也可能不具有代表性。

常用的抽样方法

简单随机抽样 ：选取的是容量相同且每个样本有同等概率被选择的样本。

系统抽样 ：通过简单的系统抽取样本，比如在总体中每隔10个或每隔50个抽取样本。

任意抽样 ：使用一个碰巧很容易被选择的样本。

整群抽样 ：先将总体分成不同的组或群，然后从中随机挑选几个群作为样本。

分层抽样 ：当我们注重总体中不同的子组或层级时，选择该方法进行抽样。首先定义层级，然后在每个层级中随机抽取样本。总样本包括所有从每个独立层中抽取的样本。

图1-3 常见的抽样方法

例9 抽样方法

辨别下列案例中所使用的抽样方法。

a.某一果园采摘了1200篮苹果。一位农业检查员随机抽取25篮，检查其中的每个苹果是否有虫子。

b.一个教育调查者想知道在某个大学中，男生还是女生在课上问的问题多。在这所大学的10000名学生中，随机抽取了50名男生和50名女生。

c.为了研究行星系，天文学家进行了一项在100颗邻近的星球中找寻行星的调查。

d.为了决定谁将获得球星亲笔签名的足球，使用一个计算机程序从体育场的观众中随机选择11个人的门票号码。

答案 a.对苹果的检查是整群抽样调查，因为调查者最初随机选择了几个组群（篮子），之后检查所选群中每个苹果的质量。

b.男生和女生代表研究中两个不同的层，所以这是一个分层抽样的案例。

c.天文学家研究邻近的星球，是因为在这个研究中很容易得到它们的数据，所以这个是任意抽样的案例。

d.由于使用计算机随机选取11个门票号码，每个门票号码都有均等的被抽取的机会，这是简单随机抽样的案例。