购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1 抽样的基本要素

下面是统计学家在讨论抽样时所用的一些专业词汇:

抽样专业词汇

总体 ——研究并从中获得信息的人、动物或事物的所有群体。

个体 ——总体中的任何一个成员。如果总体是人群组成的,通常将其个体称为受试者。

样本 ——总体的一个组成部分,也是真正进行研究并收集信息的对象,最终利用这些信息得出关于总体的结论。

抽样列表 ——个体名单,可以从中选择样本。

变量 ——个体的一种特性,可以测量样本中的个体特性。

值得注意的是,对总体的定义是从对信息的要求的角度而言。如果想要获得关于所有中国大学生的信息,那么即使只有一所大学的学生可以作为抽样的对象,研究的总体仍然是所有中国大学生。为了使任何一个抽样样本结果都有意义,必须明确抽样样本是代表什么总体的。例如,国民体质监测监测了所有居民的体质状况,还是仅仅是市民的体质状况?是户口所在地居民的体质状况呢?还是仅仅是学生的体质状况呢?样本中的人群是由我们事实上已经掌握其信息的人构成的。如果体质状况监测没能将其包括在内,就没有成为样本中的一员。

总体与样本之间的差异是统计学的基础。下面的例子说明了这种差异,介绍了抽样的一些主要功能,同时也指出了对样本中每一个个体所检测的变量。但是这些例子中没有说明抽样列表。从理论上讲,抽样列表应该是一个包括总体中所有个体的名单。众所周知,获得这样一个列表是在抽样过程中遇到的众多实际困难中的一个。

例1 国民体质监测。 2005年,中国国家体育总局等有关部委在全国开展第二次全国国民体质监测工作,天津市作为全国开展第二次全国国民体质监测的组成单位,于2005年4月~2005年7月在全市范围内开展此次监测工作。此次监测工作在18个区县全部展开,在各区县均建立监测点。监测内容包括体质检测和问卷调查两部分。天津市监测数据的可靠性、客观性和代表性是我国此次监测数据真实、准确、可靠的基础,对于全面科学分析研究我国国民体质现状具有重要意义。对于这个典型的国民体质状况监测:

总体:3~69周岁的天津市市民。

样本:天津市从市区和郊县选取的24 840人的检测对象。

个体:任何一位3~69周岁的天津市市民。

例2 中国居民营养与健康状况如何? 国民营养与健康状况是反映一个国家或地区经济与社会发展、卫生保健水平和人口素质的重要指标。良好的营养和健康状况既是社会经济发展的基础,也是社会经济发展的重要目标。我国曾于1959年、1982年和1992年分别进行过三次全国营养调查。近10年来,我国社会经济得到了快速发展,一方面为消除营养缺乏和改善居民健康提供了经济、物质基础,另一方面也带动了膳食结构、生活方式和疾病谱的变化。为及时了解居民膳食结构、营养和健康状况及其变化规律,揭示社会经济发展对居民营养和健康状况的影响,为国家制定相关政策、引导农业及食品产业发展、指导居民采纳健康生活方式提供科学依据,2002年8月~2002年12月,在卫生部、科技部和国家统计局的共同领导下,由卫生部具体组织各省、自治区、直辖市相关部门在全国范围内开展了“中国居民营养与健康状况调查”。该项调查在全国31个省、自治区、直辖市的132个县(区、市)共随机抽取71 971户(城市24 034户、农村47 937户):

总体:所有中国家庭。请注意这里的个体是指家庭,而不是个人或者家人。一个家庭包括了所有分享同一个生活区域的所有的个体成员,而不考虑他们之间是怎样的相互关系。

样本:随机抽取的71 971个家庭。

个体:任何一个中国家庭。

例3 运动饮料市场研究。 市场研究是人们设计用来发现消费者对产品的选择和使用情况的研究。市场研究的一个例子是美国可口可乐公司对其产品在北京市超市中销售情况进行的研究。可口可乐公司在北京市随机选取了100家超市,对其各种运动饮料的销售情况进行调查和统计。根据这个研究结果,可口可乐公司将对其运动饮料的生产和销售策略做出相应的调整。对于可口可乐公司对其产品销售情况的调查研究:

总体:北京市所有的超市。

样本:可口可乐公司在北京市选取的100家超市。

个体:任何一家北京的超市。

例4 青少年儿童体质与健康的调查和研究。 目前,关于我国青少年儿童体质与健康的调查和研究很多。由教育部、卫生部、国家体育总局、科技部、国家民委等五部委每5年组织一次青少年儿童体质与健康的调查和研究,1985年~2005年共组织了5次。其中,2005年共调研6~22岁大、中、小学生383 216人。

总体:我国6~22岁所有的大、中、小学生。

样本:2005年参与调研的383 216名6~22岁大、中、小学生。

个体:任何一位我国6~20岁的大、中、小学生。

抽样还有许多用处,其中的一些近乎稀奇古怪。例如,美国一家电台由于播放一首歌曲而欠下歌曲作家的一份版税。一个名为ASCAP的作曲家组织为其所有成员收回了这些版税,ASCAP是通过向电台收取准许费实现这一目的的,也就是购买其组织中成员的歌曲的版权。在ASCAP的目录中有400万首歌曲,因此每年收到的准许使用费就高达4亿2000万美元。ASCAP是如何将这笔收入在它的成员中间进行分配的呢?方法很简单,就是通过抽样。ASCAP每年在全国各地电台播出的5 300万小时的歌曲节目中录制大约6万小时的录音带。然后,这些录音带被运送到纽约,在那里专业的琐事专家将对这些录音带进行收听,并记录抽样中每首歌曲播放的频率,当然这些专家都能够迅速识别所有这400万首歌曲。对这个样本中歌曲的计数被用作在作曲家之间分配版税收入的依据,那就是作曲家分配份额的大小取决于他们的歌曲播放的频率高低。尽管抽样(调查)通常是隐藏在背后,但是它已经被广泛地应用于包括运动人体科学等诸多领域的研究中。

为什么要抽样呢?

为什么仅审视整体中的一个部分呢,而不是对整体进行调查?

(人口)普查

一项(人口)普查是一个包括整个人口的样本。

例如,美国的宪法要求美国政府每10年要进行一次人口普查。如果人口数目巨大,那么进行一次人口普查的花费是巨大的,并且需要一段很长的时间。即使是能支付一次人口普查的联邦政府也使用了像CPS (Current Population Survey,CPS)这样的样本,以便能够向人民提供有关就业和许多其他变量的适时数据资料。如果政府向这个国家的每一个成年人询问其就业情况,那么有关该月的失业率的信息不能在下一个月获得,而是到明年才能够获得。我国也是大约每隔10年进行一次全国人口普查,平时更多的是采用抽样调查数据推算。

还有一些原因说明我们为什么选择一个样本而不是整体调查。假如你在检验烟火或者电源开关的保险丝,样本中的个体将被破坏。显然,不可能将所有的烟火或者保险丝破坏掉以获得相应的数据资料。另外,一个较小的样本通常可以产生相对普查更加准确的数据资料。列出一个细致的样本的零件清单肯定要比要求工作人员逐一清点仓库中50万件零件的普查得出一个更加准确的结果。其原因就是当人感到厌烦时不会准确地计数。

事实上,对于人口普查的一个更加严谨的定义是“试图将整个人群作为一个样本。”据美国人口普查局估计,1990年的美国全国人口普查丢失了1. 8%的美国人口。这些丢失的人口中包括一个估计占黑人人口4. 6%的人口数,他们绝大部分生活在内地城市中。即使有政府的资源作保障,一次人口普查也可能出现错误。那么究竟为什么要进行人口普查工作呢?这是因为人口普查可以提供关于大到整个国家,小到每一个街道的人口详细信息;可以为国家的经济发展和人口计划提供重要的信息。

如何进行有缺陷的抽样

我们必须进行抽样,并对样本进行研究。进行有缺陷的抽样显然要比完好的抽样容易。例如对几筐桔子进行抽样,可以从每筐中选择一些桔子作为样本进行检查以确定桔子的质量好坏。显然,从每筐的最上面选择几个桔子进行检查是容易的,但是这些桔子并不一定能够代表整筐桔子的质量,那些在筐底的桔子通常在运输中会受到损害。一旦桔子供应商知道了选择样本的方法,一定会将腐烂的桔子放在筐的底部,而将一些好的桔子放在上面。如果仅从上面抽样,那么抽样结果是存在 偏性 的——样本中的桔子一致地比其所应该代表的整体好。

存在偏性的抽样方法

一个统计研究的设计方案如果只有利于某个特定的结果,那么它就是 存在偏性 的设计方案。

在抽样过程中,对总体中任何一个个体的选择是通过最容易的方法得到的,这种抽样被称为 便利抽样 方法。

一个自愿响应抽样是自愿选择自己作为对一个共同性要求的回应。信函或者电话民意调查是 自愿响应抽样 方法的例子。

便利抽样样本和自愿响应抽样样本通常是存在偏性的。

例5 健身房里的访问 。上面对桔子进行抽样的方法是便利抽样方法的一个例子。健身房里的访问是另外一个例子。一些研究人员和学生常常在健身房通过访问顾客的方式收集与运动健身相关的思想观念和消费观念的信息。在健身房抽取一个健身者样本人群是很快而且不需要花费很多的事情。但是在健身房所接触的人并不是整个国家人口的代表。他们往往是比较富裕的人群,或者是有积极健身观念的年轻人。另外,调查者也倾向于在健身人群中选择那些看上去穿着比较得体的个体进行调查。健身房抽样样本是存在偏性的,他们过分突出代表了整个人口的某些部分人群(富人、有积极健身观念的年轻人),而不能够代表其他人群。这样一个便利样本中的人群的观点可能与整个人口的观点完全不同。

例6 信函民意调查。 美国专栏编辑Ann Landers曾经询问她的《建议》栏目的读者一个问题,“假如你不得不再做一次选择的话,你将选择要孩子还是不要孩子?”Ann Landers收到将近1万份答复,几乎有70%的人的回答是“不要!”那么目前有70%的父母后悔要了孩子是事实吗?完全不是这样。这是一个典型的自愿响应抽样样本。那些对这个问题有深刻感受的人,特别是那些持否定态度的人们更有可能不厌其烦对此作出回应。由此可见,Ann Landers的调查结果存在了严重的偏差,那就是在她的调查样本中,不愿要孩子的父母所占百分率远远高于在美国所有父母中不愿要孩子父母所占的百分率。

信函和电话民意测验几乎注定将导致严重的偏差结果。事实上,仅仅有大约15%的公众曾经对电话访问做出过回应,这些人中间的许多倾向于通过播打电话的方式来参加电台交谈栏目的节目。这样的抽样样本并不是作为人口总体的一个代表性的样本。

练习1

1.1 一位运动医学专家想知道在成年女运动员中缺铁性贫血的发生率有多高。她从当地的体育局中获得了520名成年女运动员名单,然后从这些女运动员中随机选取了100名成员进行检测。结果只有96名女运动员参加了检测。在此项研究中,总体是什么?抽样范围是什么?抽样样本是什么?

1.2 不同运动项目的运动员在运动训练和比赛中发生损伤的部位和类型存在着差异。对网球运动感兴趣的一位学生想研究网球运动员在比赛和训练过程中的损伤状况。她从国家青年网球运动队中随机选取了30名运动员进行调查研究,记录每一位运动员的伤病情况。在本研究中,总体是什么?抽样样本是什么?检测了哪些指标?

1.3 一家健身俱乐部想在某社区开办一家新的连锁店,但不知道该社区居民对于参加健身俱乐部进行健身的接受程度。于是该健身俱乐部在此社区随机选取了一个由500名居民组成的样本,并通过问卷方式对这些居民进行了调查。健身俱乐部的调查有意义吗?其抽样样本是什么?总体是什么?

1.4 美国迈阿密的警察局想知道迈阿密当地的黑人居民对警察服务的态度。一位社会学家准备了几个有关警察的问题。有关组织者从迈阿密主要的黑人居住区中选择了一个抽样样本,这个抽样样本由300个邮政地址构成。然后调查人员拜访每一个邮政地址上生活的家庭或机构中的一位成年人,并提出相应的问题。本研究中总体是什么?抽样样本是什么?个体是什么?

1.5 女人与爱。1987年,美国作家Shere Hite出版了一本畅销书,书名是《女人与爱》。Hite在不同的女性人群中发放了100 000份调查问卷,询问有关爱、性和男人与女人相互关系的问题。她就是基于返回的这4. 5%的调查问卷写出了此书。那些回复的女人都是对男人感到厌烦的,并且急切地想与他们打一仗的女人。例如,91%的离婚女人都说是她们自己引发了离婚。结果女人对男人的愤怒成为了该书的主题。

解释为什么Hite的抽样方法是存在偏性的。在所有的离婚女人当中,她们自己引发了离婚的女人所占的百分比91%是高或是低?为什么? BC+D7H54ret47HKVObANxJ+T46RKPZdoKidDbNb/cc05cKifMUkSWsEHXkOQZbSs

点击中间区域
呼出菜单
上一章
目录
下一章
×