购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第2章
好样本和坏样本

案例分析

“大家去投票”是2008年总统大选期间开展的一个全国性活动,人们通过在罐子里投入一颗软糖,支持他们认可的总统候选人。34个州共有超过1000家餐馆参与了这项活动,每周一会清点一次投票结果。截至2008年10月13日(当日的投票结果由哥伦比亚广播公司驻佛罗里达州彭布罗克派恩斯的记者站公布),麦凯恩获得了53.5%的软糖选票。当时距离选举日还有几周时间,但是选票数已经超过了211000张。尽管这个结果错误地预测麦凯恩会在2008年的大选中获胜,但2004年的软糖投票结果曾正确地预测出小布什将赢得大选。2008年的失败预测只是因为麦凯恩运气不好,还是其中存在根本的缺陷?在本章结尾,你将学到如何评估从软糖投票中得到的数据是好是坏。

糟糕的样本

在路易斯安那州的拉比德斯帕里什,多年来只有一家公司获准提供急救服务。1999年,当地报纸《小镇消息》请大家致电谈一谈他们是否同意让那家公司继续垄断经营。这种致电民意调查一般是自愿的:打其中一个电话号码是投赞成票,而打另一个电话号码是投反对票。电话公司会收取致电一方的电话费。

结果该报接到了3763通电话,表明这个问题得到了非同寻常的关注。调查表明,其中有638通电话是从该公司办公室或其管理人员的家中打来的,更多的电话无疑是该公司较低级别的员工打来的。“我们的员工非常关注这件事和他们工作的稳定性,他们的家人的致电次数可能超过了正常数量。”该公司的一位副总裁说。还有消息称,该公司员工被要求“尽早投票,多打几次电话”。

《小镇消息》由此认识到,抽到坏样本比抽到好样本容易得多。该报的民意调查依赖“自愿回应”(voluntary response),即人们主动打电话过来,而不是由报纸来抽取样本,结果就是“有偏的”,样本中赞成继续垄断的人的比例提高了许多。自愿回应法吸引到的样本是对所讨论话题有强烈感受的人,比如救助公司的员工,所以调查结果并不能很公正地代表普通人的意见。

其他方法也会导致抽到坏样本。比如,我每个星期卖几箱橘子给你们公司,你从每箱中抽取几个橘子做检查,以评定质量。最容易的做法是从摆在每箱最上面的橘子中取样,但这些橘子可能无法代表整箱的情况,因为放在下面的橘子更容易在运输的过程中受损。假如我不诚实,也许会把烂橘子摆在下面,而在上面摆放好橘子。如果你从上面抽样,所得结果就是“有偏的”,即作为样本的橘子,其质量要优于整箱橘子。

有偏抽样法

如果调查问题的设计使得结果总是往某个方向偏,我们就称这个设计是“ 有偏的 ”(biased)。

从总体中抽样时,如果抽取最容易得到的个体,这种方法就叫作“任意抽样”(convenience sampling)。

自愿回应法的样本是经由对某一诉求的回应而自然得到的。写信回应(write-in)或致电回应(call-in)民意调查都属于自愿回应。

任意抽样法的样本及自愿回应法的样本都常常是有偏的。

例1 在购物中心做访谈

只对箱子上层的橘子进行检查,这是任意抽样的一个例子,在购物中心做访谈则是另一个例子。制造商和广告代理商常常用在购物中心做访谈的方式,搜集消费者的消费习惯和广告效果等信息。在购物中心做抽样调查快捷又省钱,但在购物中心里选取的样本并不能代表美国人的看法。比如,他们更富有,更有可能是青少年或退休的人。而且,调查人员倾向于从顾客中选择穿着整洁,看上去比较安全的人士。因此,在购物中心里抽取的样本是有偏的:某部分人口比重过高(有钱人、青少年和退休人士),而有些人群的比重又过低。从这样的样本得到的信息,可能与总体的看法有很大出入。

例2 写信回复你的意见

安·兰德斯曾经问她的专栏读者:“如果可以重新选择,你还会生孩子吗?”她收到了近1万人的回复,其中约有七成的人回答“不要”。那么,我们可以得出结论说70%的父母后悔要孩子了吗?当然不行。这是一个自愿回应式调查。通常对某个话题有强烈负面感受的人,更有可能不嫌麻烦地做出回应。兰德斯的调查结果是有很大偏差的——她的样本中后悔要孩子的父母的比例,远高于全体父母中后悔要孩子的百分比。

2011年8月24日,阿比格尔·范布伦(兰德斯的侄女)在其专栏“亲爱的阿比”中再次提出了这个问题。一位读者问道:“许多年以前,有一位专栏作家向她的读者提出过这个问题,我很想知道那次的调查结果。现在你问了同样的问题,你认为大部分读者会怎样回答呢?”

范布伦回复说:“当时的调查结果令人惊讶,因为大多数人回复说,如果可以重新选择,他们不会要孩子。我重新提出这个问题,是想看看这么多年过去了,人们的想法是否有所改变。”

2011年10月,范布伦女士写道,这一次的调查结果显示,大多数人又想要孩子了。这个结果令人振奋,但这仍然是一个自发写信回复意见的调查。

“嘿,老爸,你在昨天写给安·兰德斯的信里说了些什么?”

总之,写信回应和电话回应的调查方法,几乎一定会得到有偏的结果。

简单随机样本

在自愿回应式调查中,人们可以自行决定要不要回应,而任意抽样的样本则是由调查人员决定的。这两种调查方法都会受人为因素的影响而得到有偏的调查结果。统计学家的补救方法,就是用与人为因素无关的随机方式来选取样本。用随机方式选出的样本,既不会受取样者的偏好所影响,也不会受回应者个人选择的影响。用随机方式选取样本,是通过赋予每个个体同样的中选机会来消除偏差的。不管有钱还是没钱,年轻还是年老,黑人还是白人,每个人被选中的概率都是一样的。

随机抽样的最简单方法就是把名字全部放到一顶帽子里(即总体),然后从中抽取一部分(即样本)。这就是“简单随机抽样法”(simple random sampling)。

简单随机样本

大小为n的“ 简单随机样本 ”(simple random sample,SRS)是指有n个个体的样本。其样本选取的原则是,总体中任意一个个体的中选概率相同。

简单随机抽样法不仅让每个个体有相同的中选概率(由此可消除偏差),也让每个样本有同样的中选机会。从帽子里抽名字就能做到这一点:把100个名字分别写在同样大小的纸条上,放在帽子里混合均匀,这就是总体;然后一张接一张,共抽出10张纸条,这就是一个简单随机样本,因为这10张纸条和其他任何10张纸条的中选概率都一样。

练习

2.1 班级抽样。 我们班上有20名学生,他们坐在指定的座位上,每排5人。我想得到一个简单随机样本,即从班上抽取4名学生。于是,我用以下方法从每一排选出一名学生:我在同样大小的纸条上写下数字1~5,然后把这些纸条一起放在帽子里,随机抽出一张。我从第一排的左边开始数,选出纸条上的数字对应的学生。例如,纸条上的数字是3,我就从第一排选出从左至右的第3名学生。然后,我把这个纸条放入帽子重新混合后,再抽出一张纸条,用同样方法选出第二排的一名学生。以此类推,再选出其他两排的两名学生。每一排的每名学生都有1/5的概率被选中,所以,每名学生被抽中的概率是相同的。这是一个简单随机样本吗?请回答并做出解释。

每一个个体或n个个体组成的集合中每个个体被抽中的概率是相同的,这可以在从帽子里抽名字的过程中清楚地看到。这就是简单随机样本的含义。当然,如果想从全美1.17亿个住户中抽样,从帽子里抽签就不大方便了。因此,我们大多是用电脑产生的“随机数字”(random digit)来选取样本的。许多统计软件都带有随机数字生成器,可以生成随机数字。在例4中,我们将讲到如何用一个网上工具进行简单随机抽样。

如果不用电脑软件,你也可以用“随机数字表”(table of random digits)来“人工”选取较小的样本。

随机数字表

随机数字表 是由一连串的0~9之间的数字构成的,且满足以下两个条件:

第一,表中任一位置的数字,其为0~9中任何一个数字的概率相同。

第二,不同位置的数字是相互独立的(independent)。也就是说,知道表中的一部分数字,不会为你提供任何关于其他部分数字的信息。

本书附录部分的表A[详见本书(下册)第335页]就是一个随机数字表。你可以想象表A是这样做出来的:请一位助理(或让电脑生成)把数字0~9放在一顶帽子当中混合均匀,随意抽出一个数字,记下来后放回帽子里,混匀后再抽,以此类推。助理先把混合及抽取数字的工作都做好了,所以当我们抽取随机数字时,就不必重复进行这两项工作了。表A第一行的数字是19223950340575628713……为了让这个表更容易读取,将每5个数字组成一组,而且每行都有编号。这些“组”及“行”并没有特别的意义,因为这个表只是一长串随机选择的数字。现在我们举例说明,怎样用表A来选取简单随机样本。

知识普及 随机数字真的是随机的吗?

不是!表A中的随机数字是用电脑程序生成的,而电脑程序只是按照你的指令工作。你只要输入同样的指令,电脑就会生成同样的“随机”数字。当然,有些聪明的家伙把电脑程序设计得很高明,使生成的数字很像随机数字。这些其实叫作“假随机数字”(pseudo-random numbers),表A当中的数字就属于这种。假随机数字在统计随机化方面取得的效果不错,但在其他方面,事情可能会被这些数字背后隐藏的非随机性搞砸。

例3 如何选取简单随机样本

琼的小型会计师事务所共为30家客户提供服务。为了提高客户满意度,琼想选择5家客户做访谈。为避免偏差,琼需要一个包含5家客户的简单随机样本。

第一步:贴标签

给每家客户一个数字标签,尽量用位数少的数字。对于30家客户,最少需要用到两位数,所以我们用标签01、02、03,…,28、29、30来代表这30家客户。

用标签00到29也可以,或者用其他30个两位数的标签。下面是用01~30表示的30家客户:

01 一流水管工程

02 阿克森印刷

03 行动运动用品店

04 安德森建筑

05 贝利货运

06 巴隆公司

07 本奈五金

08 佳品照相器材

09 蓝图专业

10 中央树木服务

11 经典花店

12 电脑服务

13 达林玩具

14 福莱士地产

15 艾南迪电子

16 JL用品

17 约翰森商品

18 凯瑟建筑

19 刘氏中餐馆

20 魔谭

21 无敌机械

22 摄影艺术

23 河城古玩

24 河畔旅舍

25 乡村精品店

26 卫星服务

27 苏格兰洗衣

28 缝纫中心

29 轮胎专卖

30 冯氏游戏

第二步:制表

翻开表A,从任何地方开始读出两位数组。假设从第130行开始,我们看到的数字是:69051 64817 87174 09517 84534 06489 87201 97245。

那么,这一行的前10个两位数组是:69 05 16 48 17 87 17 40 95 17。

表A中的每个两位数组就像从00,01,…99这100个数中随意抽取的一个数字,这些数字都是随机抽取的,所以正是我们需要的。

琼只需用01~30的数字,所以我们可以忽略这个区间以外的数字,由此得到5个数字来选择样本。在上面10个数字中,我们忽略其中大于30的5个数字,剩下05、16、17、17和17,从中选出05、16和17,而忽略另外两个17。现在将手指移到其他行(比如第131行),用同样的方法选择样本,直到选出5家客户。

琼的客户样本包含的客户标签是05、16、17、20、19,它们分别是贝利货运、JL用品、约翰森商品、魔谭和刘氏中餐馆。

使用随机数字表要比从帽子中抽取名字更快捷。如例3所示,简单随机抽样只需要两个步骤。

两个步骤选取简单随机样本

第一步:标签。为总体中的每个个体分配一个数字标签。如果你打算使用随机数字表,那么请确保所有的标签都是同样位数的数字。

第二步:软件或表。使用电脑软件或随机数字表,随机选择样本。

你可以用任何便利的方法分配标签,比如按照人名的首字母顺序。使用随机数字表时,只要所有的标签有同样的位数,所有个体就有同样的概率被抽到。选择尽可能短的标签:对于不超过10个对象的总体,使用一位数;总体在11~100之间,使用两位数;三位数适用于101~1000个对象的总体;以此类推。我们建议的标准做法是从1开始(或者01、001)。你可以按照任何顺序从表A中读取数字——顺着行或列读取,因为这个表本身是没有顺序之分的,标准做法是顺着行读取。

现实中抽取简单随机样本大多是用电脑软件完成的,但是,电脑软件无须查阅随机数字表,因为它可以自动生成随机数字。

例4 如何用电脑软件选取简单随机样本

许多商务统计软件包可用于选取简单随机样本。网上练习提供的一个软件是www.randomizer.org上的Research Randomizer电脑软件。点击Randomize Now按键,在空格处填上内容即可,你还可以用这个软件为样本排序。

重复完成例3的任务,我们让Research Randomizer随机工具抽取5个数字。数字范围是1~30,要求每个数字都是唯一的,排列顺序是从小到大,选中的数字是非标签的形式(图2–1)。然后,点击Randomize Now按键,得到数字4、7、14、16、23。

这一次的客户样本标签是04、07、14、16、23,分别对应的是安德森建筑、本奈五金、福莱士地产、JL用品和河城古玩。

图2–1

练习

2.2 评估教学助理的表现。 为了评估教学助理的表现,一所大学的统计学系每周会随机选出三名教学助理,安排一教职工去他们的班级走访,对他们的工作做出评估。该学校现有的20名教学助理名单如下。使用电脑软件(例如Research Randomizer)或者表A的第116行,选出本周要评估的三名教学助理。记得,一开始时要给这20名教学助理编号。

道玻梅尔 弗鲁海森

约瑟夫 桑德斯

基尔 施耐德

科尔什尼特 森克森

考斯特 史贝德

兰德格拉夫 斯普林格

莱瑟曼 史塔格纳

马丁 斯泰特勒

马佐 谭

珀尔 特曼斯坦

你信任样本吗?

《小镇消息》电话回复、安·兰德斯和购物中心访谈都选取了样本,但是,我们没法信任从这些样本处得到的调查结果,因为它们都会导致偏差。对于从简单随机样本处得到的调查结果,我们的信心就大得多,因为样本的抽取是完全随机的,没有人为因素的干扰,可以避免产生偏差。对于任何一个样本,我们要问的第一个问题就是:样本是不是随机抽取的?民意调查和其他抽样调查的执行者,如果他们知道自己要干什么,就会采用简单随机抽样的方式。

例5 盖洛普调查

2011年1月,盖洛普针对美国发生的枪击事件进行了调查。问题是:“你认为预防再次发生枪击事件,美国人最需要做的一件或两件事情是什么?”调查结果表明,最多的答案是制定更严格的持枪法,有24%的回应者提到了这一点。这真的代表了美国人的普遍意见吗?要回答这个问题,我们应该先了解一下盖洛普是怎样选择调查样本的。在关于这项调查的报道中,我们可以看到:“这项盖洛普民意调查是通过2011年1月14日~16日所做的电话访谈展开的,调查人员随机抽取了年龄在18岁及以上的1032位成年人,他们都住在美国大陆,抽样方法是随机数字拨号抽样法。”

这是一个有助于赢得我们信任的良好开端。盖洛普公司告诉我们这次调查的总体是谁(生活在美国大陆的年龄不小于18岁的成年人),我们还知道这次从总体中获得的样本数量是1032人,而且最重要的是,抽样是随机的。在评估民意调查时还有其他一些因素需要考量,我们稍后会讨论,但我们至少听到了令人安慰的字眼——“随机抽样”。

知识普及 打高尔夫球

随机抽样让每个个体被选中的概率相等,所以当需要决定哪些幸运儿可以得到某些难得的机会,比如打一场高尔夫球的时候,随机抽样是一个公平的方法。许多高尔夫球爱好者都想在苏格兰圣安德鲁斯的著名的老球场打球,但只有少数人能如愿。在夏天旺季的时候,每6个人中只有1个人能得到花150英镑(约合244美元)打一场球的机会。

小结

本章要点

• 我们选取样本,以期得到有关总体的信息。

• 怎样才能选出能较好地代表总体的样本呢?任意抽样和自愿回应抽样都很常见,但不会产生可信的调查结果,通常是有偏的。也就是说,非随机抽样法在选取样本时,会系统性地偏向于总体中的某一部分个体。

• 用随机性来产生数据,是统计中的重大概念之一。随机样本就是随机挑选的样本,可以避免人为因素导致的偏差。

• 随机样本中最基本的一种就是简单随机样本,简单随机抽样使所有个体都有同样的被选中的概率。

• 要人工选取简单随机样本的话,可以使用随机数字表,如表A或电脑软件。

在第1章,我们讨论了抽样调查,这是一种观察研究和选取数据的方法。抽样的方法决定了样本能否充分代表总体。有偏的抽样方法,例如任意抽样和自愿回应抽样,所产生的样本很可能会得出不正确的结论。简单随机抽样可以避免偏差,产生值得信任的数据,使我们的调查研究迈出了坚实的第一步。

在第3章,我们将更细致地观察从总体中抽出的简单随机样本能告诉我们关于总体的哪些情况。在第4章,我们将讨论人们在现实世界中做统计调查时会碰到的一些问题。

案例分析与评估

想要参与本章开头案例中提到的软糖投票,必须在指定的餐馆用餐。用你在本章学过的知识,判断这个调查所收集的数据是好是坏。你应该将评估意见写下来,以便让没有学过统计学的人能更好地理解你的推理过程。

练习

2.1 见本书第27页。

2.2 见本书第32页。

2.3 读者来信。 你在一家本地报社工作,该报最近报道了一项将会使设立特许学校变得更容易的法案。你向编辑报告说收到了201封有关这个报道的读者来信,其中有171封表示反对该法案。“我觉得很奇怪,怎么会有这么多读者反对这项法案。我原以为这项法案会非常受欢迎。”编辑说道。你认为大多数读者确实反对该法案吗?你应该如何向编辑解释这个统计学问题呢?

2.4 意见调查。 2007年3月29日,《商业周刊》在其网站上做了一项调查。它提出的问题是:“你认为谷歌是否过于强大?”读者可以点击三个按钮——“同意”、“不同意”或“不确定”——中的任意一个。结果有1336人(35.9%)选择“同意”,有2051人(55.1%)选择“不同意”,还有335人(9.0%)选择“不确定”。

(a)此项调查的样本数是多少?

(b)在网站上,《商业周刊》关于该项在线调查发表了一段声明:“请注意,这是意见调查,不是科学调查。”请解释为什么该调查有可能得出不可靠的结果。

(c)在调查问题之前有一段话:“谷歌在搜索方面的引领地位及其介入软件开发和传统广告领域的行动,在竞争对手中激起了强烈反应。”你认为这段话可能会对调查结果产生什么影响。

2.5 更短时间的意见调查。 2010年1月5日,《洛杉矶时报》对读者做了一项在线调查:“你对谷歌回应苹果iPhone手机的做法有什么感受?苹果iPhone手机激发了人们使用手机应用软件的热情,还是只是一款手机?”读者可以选择4个按钮之一作答(“我要尽快买一部”,“只是一款手机”,“消费者应该耐心等待突破性进展的出现”,以及“这是另一个可怕的谷歌式垄断”)。大多数投票行为是在2010年2月底发生的。我们最后一次检查投票结果(2012年1月5日)时,有175人(24%)选择“我要尽快买一部”,有222人(30%)选择“只是一款手机”,有234人(32%)选择“消费者应该耐心等待突破性进展的出现”,有109人(15%)选择“这是另一个可怕的谷歌式垄断”。

(a)这项调查的样本数是多少?

(b)请解释这个调查的结果为什么不可靠。

2.6 安·兰德斯的离婚人士调查。 专栏作家安·兰德斯曾经问离婚的读者,是否后悔离婚。她得到了大约30000个回复,其中有23000个来自女性。近75%的读者声称他们不后悔离婚,其中大多数人甚至说要是更早离婚就更好了。请说明为什么这个调查结果肯定是有偏的。你觉得可能是往哪个方向偏了?或者说,75%这个数字,对于所有离婚的成年人来说,可能偏高还是偏低?

2.7 我们不喜欢单行道。 高速公路规划部门计划把印第安纳州西拉斐特的一条主要道路改造成单行道。《拉斐特信使报》对此进行了为期一天的调查,邀请该报的读者拨打一个专门的电话号码,表达他们的意见。第二天,该报刊登了调查结果:

本报读者一边倒地认为,在西拉斐特的乡村区,应该保留双向道路,而不该设单行道。周三打电话给本报“表达意见”的读者,大约8个人里有7个对设单行道有怨言。在收到的98个意见中,不反对设单行道的只有14个人。

(a)你认为该报想要调查的总体是什么?

(b)在这个总体中,赞成设单行道的人所占的比例,会大于还是小于14/98?为什么?

2.8 谁赢得了辩论? 在2007年5月15日10名共和党总统候选人的首场辩论之后,福克斯新闻网请观众用短信投票的方式选出胜者,收到了大约40000个回应。调查结果是,有29%的人支持马萨诸塞州前州长米特·罗姆尼,有25%的人支持罗恩·保罗(得克萨斯州代表),有19%的人支持纽约市前市长鲁迪·朱利安尼,有8%的人支持阿肯色州前州长麦克·哈克比,有5%的人支持加州代表邓肯·亨特,有4%的人支持参议员约翰·麦凯恩(亚利桑那州代表),有3%的人支持科罗拉多州代表托马斯·坦克雷多,有1%的人支持参议员山姆·布朗贝克(堪萨斯州代表),弗吉尼亚州前州长吉姆·吉尔摩和威斯康星州前州长汤米·汤普森获得的支持率为0。

(a)你认为福克斯新闻网想要调查的总体是什么?

(b)福克斯新闻网这样评价其调查结果:“这个结果反映了那些参与者的意见,而不是一个反映总体的、科学的抽样调查的结果。”请解释为何这个调查结果不可靠。

2.9 自己设计坏样本。 你就读的大学想要了解学生们对在校园停车的意见,但不可能询问每个学生的意见。

(a)说出一个坏抽样方法,该方法建立在自愿回应的基础上。

(b)再说出一个坏抽样方法,但与自愿回应无关。

2.10 电话回应抽样调查。 2005年,《旧金山时报》报道了新西兰的一项调查,其结果表明有75%的新西兰人反对新的容许同性恋的人权法。这项调查是以电话回应的方式进行的,致电者需支付1美元的话费。该报道还提出,一家科学调查机构发现,支持者的比例是56.4%,反对者的比例是39.3%。你会怎样向一个不懂统计学的人解释,为何这两个调查结果的差别如此之大,哪一个结果更可信?

2.11 电话回应与随机抽样调查。 一项对电视观众的全国性调查发现,有48%的调查对象声称他们更愿意相信有30000人参与的电话回应抽样调查的结果,而不是有1000人参与的随机抽样调查的结果。请解释为何后一种调查结果会比前一种更可靠。

2.12 选出一个简单随机样本。 有家公司想了解,公司里少数族裔经理人对于公司经理人表现评估体系的态度,下面是该公司所有少数族裔经理人的名单。请利用表A的第136行选出一个由6位少数族裔经理人组成的简单随机样本,并通过面谈了解他们对公司经理人表现评估体系的看法。

伯林纳 汉斯 刘 拉姆西

布朗 赫柏 麦克伊辛 桑特纳

卡德尔 霍洛曼 米勒 史

克雷格米尔 许 纳加拉贾 史塔斯尼

克莱西 凯扎尔 诺茨 图尔克门

克里奇洛 库巴科 奥茨特克 韦尔杜奇

迪恩 李 珀尔 伍尔夫

戈埃尔 林 佩鲁贾 徐

2.13 选出一个简单随机样本。 你选修的“古代乌加里特宗教”课程的教学质量很差,你们班决定向院长反映这一情况,大家一致同意从班上随机选出4个人去见院长。班上所有学生的名单如下,请用随机数字表选出一个由4个人构成的简单随机样本,从表A的139行开始。

阿什米德 卡茨福斯 萨姆贝隆

布雷克 李 沙利文

克劳瑟 麦克法兰 斯文森

达奈德 纳尔逊 汤普森

德拉古利奇 普莱斯勒 王

德雷珀 全 文纳斯滕

福克斯 莱逖冈逖 温纳

弗莱 史莱斯曼 徐

杰尔辛 舒艾特 张

2.14 关于选举的简单随机样本。 假设你想在一个城市的480个选区中选出一个包含20个选区的简单随机样本,并在选举日当天严密监督选举过程的公正性。

(a)请详细说明怎样给480个选区编号。一个号码要用几位数?你选择的位数,最多可以给多少个选区编号?

(b)用表A来选出这个简单随机样本,并列出你选中的选区号码。从表A的第107行开始。

2.15 这是不是一个简单随机样本? 某大学有30000名本科生和10000名研究生。一项关于学生对医疗保健福利的意见调查,要从30000名本科生中随机抽出300人,再从10000名研究生中随机抽出100人共同构成调查的样本。

(a)请说明为什么这样的抽样方法能使每名学生被选中的概率相同。

(b)然而,这并不是一个简单随机样本,为什么?

2.16 租金调查。 某所大学里负责学生住宿管理的部门想知道,学生每月在校外租房需要付多少租金。调查总体包括12304位住在校外且尚未毕业的学生,学校会从中按姓氏的首字母顺序随机抽出200人,寄出问卷请他们填写。

(a)请说明你会怎样给这些学生编号,以便选出简单随机样本。

(b)用表A从第105行开始选出样本中的前5名学生。

2.17 公寓居住情况调查。 你计划对某大学城里的公寓住户做居住情况调查。你先随机选出三个公寓社区,然后对其中的住户做深入的访谈。利用表A,从第112行开始,在以下社区当中选出一个包含三个社区的简单随机样本。

奥尔巴尼 加斯莱特村 橡树园

苹果园 乔治敦 老南塔基特

贝克斯利 湾角 议会山

溪角 西科里坊 费森园

坎特伯雷大道 峰景 拉文郡

查比利斯别墅 印第安溪谷 洛基峰

樱桃径 杰佛森园 肖特园

都柏林广场 肯布鲁克村 斯特拉福德

英语村 马纳坪 林溪

费尔维湖 小溪地 沃尔纳特诺尔斯

弗里斯特溪 玛宝峰 林径

森林公园 莫斯格林 约克园

2.18 随机数字有些什么性质? 对于随机数字表,以下叙述中哪些是正确的?哪些是不正确的?请说明理由。

(a)每两位数字中,有1%的概率是33。

(b)在每行的40个数字里,正好有4个以4开头的数。

(c)表中不可能出现像99999这样的数,因为这个数字不是随机生成的。

2.19 在线调查。 在《十大网络》于2012年播放的俄亥俄州和宾夕法尼亚州篮球赛的电视转播中,解说员提出这样一个问题:“本年度哪位球员对其所在球队来说最重要,是宾州队的泰勒·巴图还是俄亥俄队的埃文·特纳?”观众可以在线回答这一问题,并在节目最后公布调查结果。最终,特纳获得了72%的投票,巴图获得了26%的投票,还有2%的观众选择了“其他人”。请解释,为什么这个调查的结果几乎肯定是有偏的。

2.20 再多些随机性。 大部分抽样调查都是随机抽取住宅电话并打过去,但并不一定要对接电话的人做访谈。他们可能问有哪些成人住在那里,然后随机选取一位作为样本。这样做有什么好处?

2.21 歧视性种族偏见与警察执法。 美国丹佛警察局想知道,当地的西班牙裔居民是否认为警方会因为种族偏见而进行选择性执法。某位社会学家为此准备了一些有关警察的问题。警察局从主要是西班牙裔人居住的区域,抽出一个包含200个家庭住址的简单随机样本,再派出一位穿警察制服的西班牙裔警官到每个被选中的家庭,去访谈那里的一位成年人。

(a)总体和样本各是什么?

(b)为什么虽然样本是简单随机样本,结果却很可能是有偏的?

2.22 应该用随机抽样吗? 随机抽样在多人竞争一样好东西时,是“公平”的裁决方法,因为每个人得到它的概率都一样。但是,随机抽样并非永远都是好选择,有时我们并不想对所有人一视同仁,因为有的人或许比别人更有资格拥有好东西。在下面这些情况当中,你支持使用随机抽样调查法吗?请说出理由。

(a)篮球比赛场地有4000个座位,但是有7000个学生都想买票观看。是不是应该在7000人中随机抽出4000人?

(b)等着做肝脏移植手术的病人,其人数远超过可供移植的肝脏数目。医生在决定把肝脏移植给哪个病人时,应该完全采用随机抽样的方式吗?

2.23 网上练习。 网上有一些自愿回应的调查,访问www.misterpoll.com即可看到。这些调查的样本量是多少?谁可以投票?是否可以多投几次票?你相信这类调查的结果吗?为什么?

2.24 网上练习。 要想看看电脑软件选出简单随机样本的速度,可以试试www.randomizer.org上的Research Randomizer电脑软件。点击Randomize Now按键,在空格处填上内容即可。

2.25 网上练习。 Random.org网站上有一个在线工具,可以生成随机数字。

(a)如何用这些工具生成随机数字?

(b)这个网站是怎样介绍生成随机数字的方法的? f5tEE5KpprZvCmTIZFUZXr1x4BOwe6qN8TxgaDUDNAI9P0JaJsxicSqBCmxRIoeQ

点击中间区域
呼出菜单
上一章
目录
下一章
×

打开