一个可靠的抽样调查依赖于统计方法(随机抽样)和实际操作技巧(后续访问、问题的文字表述、充满技巧的访问)。当目标是在一个巨大的人口中抽取样本时,使用SRS是一个好的统计学方法,但是由于太高的经济花费而在实践中不是一个可行的好方法。第一,在这种情况下取得一个完整的抽样列表是很少能够实现的。第二,与一个全国范围的SRS样本取得联系在经济上花费太大了。如果国家统计局选择一些家庭SRS样本作为当前中国居民营养与健康状况调查的样本,那也就意味着要派遣访问者去云南的丽江或黑龙江的漠河找到被选择的一些家庭地址。即使选择电话访问这种相对较简单和便宜的调查研究方式,实际的抽样过程仍然存在许多困难和问题。对于这些抽样过程中实际遇到的困难的解决方案是利用一个比SRS更为复杂的抽样设计方案,同时抽样的开始 不是人群而是地图 。全国范围的抽样调查几乎总是分若干个阶段完成的。
一个计划面对面的抽样调查设计方案通常是按照以下的步骤进行的。
阶段 1:在全国2 860个县中选择一个样本。可以很容易获得一个包含所有县的名称列表作为抽样列表。
阶段 2:从阶段1中选择的每一个县中抽取一个镇区或者是市政区的样本。同样抽样列表也是很容易获得的。
阶段 3:使用一张地图或者是一张航空照片作为抽样列表,在阶段2抽取的每一个市政区样本中抽取一个小区域(诸如城市中的街区)的样本。
阶段 4:最后,在阶段3选取的每一个街区样本中选择一个家庭样本。如果在一个街区中的地址列表不完全,访问者可以在空白处填写相关地址。
一个多阶段的抽样设计就克服了SRS在实际抽样过程中存在的缺点。不需要一个列出整个国家所有居民地址的列表,只需要一个较小区域的家庭地址列表,这个较小的区域就是抽样样本中的县,再是市政区,然后是这个区内的一些街区。另外,样本中的所有这些地址都是分类集中在少数的小区域内,这使得收集数据资料的工作更加方便。电话调查同样也可以利用多阶段的抽样方案,电话号码的区号和前3位数字可以作为前2个阶段的抽样内容。随机数字拨号随机选择最后的4位数字。
多阶段抽样设计的每一个阶段中所抽取的样本可能都是一个SRS样本,但也可能是另外一种类型的随机抽样样本。例如,在一个街区中的这些地址也可以通过一种有组织的随机抽样方法选出。具体方法是随机地选择一个起始点,然后按照地理位置或者数字顺序每隔2个或者9个选择一个(在练习1. 35中有详细的描述)。有组织的抽样方法抽样速度快,不需要抽样列表,如果被抽样的个体是按照地理位置上的顺序排列的,那么有组织抽样使地理上的抽样散布范围很明确。曾经有一位研究人员去拜访云南大理的一个住宅区,他是每隔2户拜访1户。那个住宅区包括一些3层楼高的爬楼梯公寓建筑,所以他所拜访的所有的地址都在3楼,这些家庭相对那些住在较低楼层的家庭贫穷。由此可见,这种有组织的随机抽样方法便捷实用。
多阶段抽样设计是一个很好的主意,但是在其第一个阶段中对县区进行的SRS却是一个糟糕的主意。大多数县是一些人口很少的农村地区。对全国范围县的一个SRS可能很容易丢失这个国家的大多数大城市。在一个多阶段抽样方案的第一个阶段通常选择一个县或者电话局的分层抽样样本。下面就是其主要内容。
分层抽样
抽取一个 分层随机样本:
步骤1 将抽样列表中的个体分为不同的组,称为层。在这些个组中选择其中的一个自己特别感兴趣的层进行抽样调查,或者是选择在每一个层中的个体相互之间非常相似的。
步骤2 在每一个层之中抽取一个独立的SRS样本,然后将这些独立的SRS样本结合在一起构成完整的样本。
在抽样之前,必须利用有关总体的一些事实资料选取不同的阶层。对于县区,可以根据其居民的数量和居住地是城市、郊区或者农村进行阶层划分。当前的人口调查在其多阶段抽样的第一个阶段中,根据人口数量和包括所有那些人口密度大的地区在地理位置上对不同的区域进行阶层划分。这就是一个分阶层抽样的例子,在这个例子中任何一个阶层中的样本都是一个(人口)普查样本。
分层抽样相对SRS有两个优点:
▶通过在每一个阶层抽取一个相对独立的SRS样本,这样做可以收集到有关每一个阶层相对独立的信息。
▶如果在每一个阶层中的所有个体的某项检测变量相对作为一个整体的总体相互之间更加相似,那么对于一个分阶层样本的估计数值相对一个相同容量的来自总体的一个SRS样本的相应估计更加精确。
为了能够更好地理解分阶层抽样的第二个优点,举一个极端的例子。例如,为了快速估测参加2008年北京奥运会的女运动员的平均身高,按项目不同进行分层抽样。篮球项目和体操项目的女运动员分别属于不同的层。篮球项目层中女运动员SRS样本的平均身高相对总体女运动员SRS样本的平均身高更精确地估计了篮球项目中女运动员的平均身高。在这个案例中的每一个阶层中的个体都恰好相似。那么一个仅仅包含每一个阶层中的一个个体的分阶层抽样样本就可以完全地描述这个总体的情况。但是一个个体容量相同的总体SRS样本将具有较低的精确度。
如果你注意到以下这一点你可能会感到很吃惊,那就是分阶层抽样样本破坏了SRS的一个最吸引人的特性——总体中每个个体相同所被选择机率。分层抽样不需要给予总体中每个个体相同的被抽取的机率。在分层抽样样本中,一些阶层可能被有意识地提高了其代表性。
例19 一个根据民族的分阶层抽样。 一所规模庞大的大学拥有学生共30 000人,其中3 000名是少数民族学生。一个容量是500名学生的SRS样本将给予每位学生被抽取成为样本的机率相同。那就是
我们希望获得一个仅仅包括大约50名少数民族学生的SRS样本,这是因为全校学生中只有10%的少数民族学生,我们希望SRS样本中少数民族学生的比例大约是10%。为了估计学校中少数民族学生对2008年北京奥运会火炬传递的思想观点,同时估计结果具有合理的精密度和代表性,样本容量50是不够大的。我们可能更愿意选择一个由200名少数民族学生和300名其他学生组成的分阶层随机抽样样本。
你已经知道了如何抽取一个分阶层的抽样样本。将少数民族学生标记数字0001 ~3000,然后利用附录1表1选择出一个容量是200的SRS样本。然后将其他的学生用数字000001~27000进行标记并再一次利用附录1表1选择一个容量是300的SRS样本。这两个SRS样本合在一起构成这个分阶层抽样样本。
在这个分阶层抽样样本中,每一个少数民族学生被选中的机率是
每一个其他的学生被选中的机率相对小一点。
因为我们有两个SRS样本,因此我们很容易估计少数民族学生和其他学生各自的思想观点怎样。为了估计所有学生的思想观点而使用完整的分阶层抽样调查还需要更加细致的工作。为了避免偏差的发生,抽样者必须纠正那些有意识地提高少数民族学生在样本中代表性的做法。做到这一点并不难,因为他们知道每一个学生被抽选的机率是多少,即使是这种机率并不总是相同的。
单纯、有组织和分阶层随机抽样样本都使用了机率来从总体中选择个体,就如同多阶段抽样样本是由街区的不同的建筑物中抽选出来构成的。所有这些都适合概率抽样的一般性统计学的框架结构。
概率抽样
一个 概率抽样 是已经知道什么样的样本是可能的(不是所有的都需要可能性)和每一个可能的样本有多大的机率或者说是概率被选中(不是所有的都需要相同的可能性)的抽样方式。
SRS是基本的概率抽样方法。其他抽样方法可能相当复杂,但是抽样的所有概率方法都有下面两个主要特征:(1)访问员对访问的对象毫无决定权;(2)选样本有明确的程序,且包含机会的有计划使用。因此,用概率方法有可能计算出总体中任一特定个体被选入样本的机会。起初,人们似乎认为主观判断对选择样本是需要的,而机会方法并不重要。例如, 定额抽样方法 保证样本中男性的百分比等于总体中男性的百分比。而在概率抽样中,只能说样本中男性的百分比很可能接近总体中的百分比。这样,使必然性变为可能性。但主观判断加选择往往带有偏性,而机会是不带偏袒性的。因此,为了极小化偏性,就应该使用不带偏性且客观的概率方法选取样本。
我们可以把一些复杂的抽样设计的细节问题留给专家们。使用者所关心的是来自任何概率样本的估计值是否具有与来自SRS估计值相同的良好的特性。我们已经知道了抽样分布,也可以给出无偏差可信声明,同时随着样本容量的增加可以增加结果的精密度。诸如自愿响应样本这样的非概率抽样样本并不具有上述的这些优点,因此也不能够给出有关一个总体的令人信服的信息。
如果你是在国民体质监测中心、健身房或者是市场推广行业做事,就得进行抽样调查。在设计一个抽样调查过程中,可以将上述抽样方法简要概括如下。
第一步,确定总体人群,包括范围和基本个体。例如,对运动员的损伤状况进行调查研究,其个体可以是体操项目的运动员,也可以是跳水、足球等项目的运动员,可以是男性运动员,也可以是女性运动员。但明确所调查研究的运动员的运动水平和训练年限以确定一个个体是否属于这个总体。
第二步,指定所要测量的变量,同时准备测量这些变量所需要的问卷或者是其他的仪器设备。需要首先在一个试验性的受试者人群中检验问卷是否清楚而且完整。
第三步,建立抽样列表。这一步是与第一步紧密联系的。如果选择了体操项目运动员的损伤状况调查,并且是国际运动健将水平的男体操运动员,可以使用中国国际运动健将名录中体操运动员的姓名作为抽样列表,只是因为这样一个列表比较容易获得,而许多运动员可能会重名,导致同一名运动员的损伤种类和数量都增加。
第四步,进行样本的统计学设计。统计学设计要明确样本容量和选取的方法。例如,多阶段抽样方法和分层抽样方法可能是这种统计学设计的一个组成部分。总之,统计学设计应咨询统计学家获得一些行家的建议。
第五步,注意一些细节问题,诸如对访问者进行培训,如何选择调查的时间,如何用文字恰当地表述问题,如何培训访问者,如何提高信函调查的应答率等等。
1.31 在一所规模较大的大学中,工程专业大约有20%的学生是女性。这所学校计划抽取一个有200名工程专业的学生的样本,调查学生的生活质量好坏。
(a)你希望在这个样本中有多少名女学生?
(b)如果这项调查想分别单独报告男学生和女学生的生活质量,那么你将建议使用什么样的抽样设计?为什么?
1.32 一所大学聘用了2 000名男教师和500名女教师。有关男女具有平等的受雇佣机会的官员随机抽取了一个有200名男教师和200名女教师组成的分层样本进行调查。
(a)一个特定的女教师被调查到的机会是多少?
(b)一个特定的男教师被调查到的机会是多少?
(c)这是一个概率样本吗?为什么?
(d)在这个样本中的每一个成员都被问到,“在你看来,在具有相同的职位和资历情况下,女性教师是否比男性教师普遍收入少呢?”
200名女性中有180人(90%)说“是的。”
200名男性中有60人(30%)说“是的。”
总之,在这个400人组成的样本中有240人(60%)的回答是“是的。”所以这位官员报告“基于这个抽样样本的结果,我们可以得出结论,所有的教师中有60%的人感觉女性教师相对男性教师来说拿钱少。”这个结论正确吗?为什么?
(e)如果我们选取了一个有200名男教师和50名女教师组成的分层随机样本,这个学校的每一位教师被选中的机会是相同的。这个机率是多少?这是一个SRS吗?为什么?
1.33 一家俱乐部有25位学生,他们的名字如下:
以及10名教师,他们的名字如下:
这家俱乐部可以选送4名学生和2名教师去参加一个会议。于是决定在希望去的学生和教师中随机选取参加会议的人。利用附录1表1来选择一个有4名学生和2名教师组成的分层随机抽样样本。
1.34 假设拥有在练习1.32中所描述的那所大学中的2 000名男教师和500名女教师并按姓名字母先后顺序排列的名单。解释你将如何指定标记并利用附录1表1选取一个包含200名男教师和200名女教师的分层随机样本。在你的抽样样本中前5位男教师的标记是什么?前5位女教师的标记是什么?
1.35 系统的随机抽样样本。在一个多阶段抽样过程中的最后阶段,你必须在一个左右邻近的区域内选择500个家庭住址。你有这500个家庭地址按照地理上顺序排列的名单。为了选择一个系统的随机样本,就要按照下面的过程:
第一步。在这个所列出的家庭住址名单中的前100个中随机选择1个。(将这100个家庭住址分别标记为00、01、…,99,并利用附录1表1中的一个两位数字进行选择。)
第二步。这个样本是由来自第一步中的那些地址组成的,在第一步中得到的那些家庭地址数字编号前分别加上100、200、300和400就得到在这个名单中的位置靠后的家庭地址了。
例如,如果在第一步中71被随机选择出来,那么这个系统随机样本是由标记为数字71、171、271、371和471的地址组成的。
(a)利用附录1表1从一个具有500个地址的列表中选择一个包含5个地址的系统随机样本。从第130行进入这张表。
(b)一个特定的地址被选中的机会是多少?解释你的答案。
(c)解释为什么这个样本不是一个SRS样本。
1.36 对大学教师进行抽样。一个劳工组织想要研究大学教师对于集体契约的态度。这些态度表现为在不同类型的学院中是不同的。美国大学教授协会将学院分为如下几个种类:
Ⅰ类 提供博士学位教育,并且每年至少颁发15个。
ⅡA类 颁发学士以上的学位,但是不属于I类。
ⅡB类 只能够颁发学士学位。
Ⅲ类 2年的学院。
描述一个抽样设计,它既可以单独收集各个类别的有关教师态度的信息,也可以收集总体有关教师态度的信息。