购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2 单纯随机抽样(Simple Random Sampling, SRS)

存在缺陷的抽样是容易的,完好的抽样要求更加谨慎小心。在便利抽样和自愿响应抽样中存在的偏性是由于人们对个体的选择上有问题。统计学家对这种偏差的补救措施是消除人为的选择过程,让非个人的客观机会代替人为过程来选择样本。这样的抽样结果就是一个单纯随机抽样。单纯随机抽样的本质观点是抽样列表中每一个个体被抽到而成为样本的机率与其他任何一个个体都是相同的。下面就是其完整的定义:

单纯随机抽样

一个容量是“个个体的 单纯随机抽样 是一个含有n个个体的样本,其中的n个个体的选择是通过以下方式实现的:在抽样列表中n个个体中的每一个被选择的机率相同。(我们将使用n作为一个样本中个体数目的速记形式。)

将单纯随机抽样缩略为 SRS 。由上述内容可以看出,SRS的定义并没有对任何一个样本进行描述,取而代之的是它描述了选择样本的方法。如果让每一个容量是n的可能抽样样本成为实际选择的抽样样本的机率都相同,那么通过这种方法获得的抽样样本就是一个SRS样本。这样的抽样方法相对便利抽样方法有一个明显的优点,那就是公平或者说是不存在偏性。不论是富人还是穷人、黑人还是白人、年轻人还是老年人,都有相同的机会成为一个SRS样本的一部分。我们也许由于运气不好而在一个SRS样本中拥有过多的富裕的老年的黑人,但是这种选取样本的方法本身并不存在任何偏性。这是SRS非常重要的一个特性:那就是尽管不能够保证这样的样本代表了整个人口的意愿,但是至少是一种公平的方法来选取样本。

为了能够进一步理解SRS的思想观点,我们可以想象从帽子中抽取人名的抓阄过程。在每一张相同的标签上写下抽样列表中每一个个体的名字,将标签放入帽子并充分混合,然后随意从中抽取一个。如果帽子中的标签真正完全混匀了,那么其中任何一个标签被抽中的机率是相同的。抽取的标签上所写名字对应的人就是SRS一个个体。抽取的标签不要放回。帽子中每一个剩余的标签被抽到的机率仍然是相等的。抽了2个标签,也就有了一个容量为2的SRS。事实上,任何2个标签都与现在抽到的这2个标签拥有相同的被抽到的机率。要想得到一个容量是n的SRS,就继续抽取标签一直到有了n个标签为止。最终标签上所写名字对应的n个个体就是一个容量为n的SRS样本。

上述在帽子里抓阄的例子形象生动地说明了给予每一个个体以及由n个个体组成的每一个可能的组合相同的被抽取的机率的含义,这就是SRS的思想理念。但若使用从帽子中抽签的方法来从整个国家的3. 7亿个家庭中抽取一个样本是很困难的。因此,我们需要一个切实可行的方法来进行SRS。

随机数字

画一个正圆的轮子,使其围绕一个光滑的支点转动并且当其停止转动时不会偏向任何一个特殊的方向。显然这个光滑的支点应该位于圆心处。将轮子的边缘划分为10等份,即10个扇区,分别用0,1,2,3,4,5,6,7,8和9这10个数字标记每个扇区。在轮子的边缘处安装一个固定的指针,此时转动轮子(图1-1)。轮子会越转越慢并最终平滑地停住。此时观察指针发现,扇区1与指针相对应。然后再次转动轮子,此时是扇区9对应着指针。如果持续不断地进行这个过程,就会得到如下的一串数字:

1 9 2 2 3 9 5 0 3 4 0 5 7 5 6 2 8 7 1 3……

图1-1 轮盘随机数字选择

可以看出,轮子的任何一次转动产生这10个数字的机率是相同的。因为轮子本身没有记忆,任何一次转动的结果都不会影响任何其他一次转动的结果。通过轮子的转动,事实上正在生成一个随机数字表。

随机数字

随机数字表 是一个包含数字0,1,2,3,4,5,6,7,8,9的列表,它具有以下特征:

1.列表中任何位置上的数字是0,1,2,3,4,5,6,7,8,9中任何一个数字的机率相同。

2·在不同位置上的数字是相互独立的,这意味着一个数字的数值不影响任何其他一个数字的数值。

本书最后附录1的表1是一个随机数字表。这个随机数字表是从数字19223950340575628713开始的。为了使这个表更容易阅读,其中的数字是以5个一组的形式出现在编号的行中。这些组和行是没有任何意义的,这张表只是一个很长的数字列表,其中的数字具有上述随机数字的两个特征。计算器和计算机软件也可以生成随机数字。不论是如何获得随机数字,使用随机数字的目的是为了进行SRS。因此随机数字的来源并不是关键。重要的是关于随机数字的以下一些事实,这些事实是由随机数字的基本特征1和2衍生而来:

3.任何两位随机数字成为100个可能的两位随机数字,如00,01,02,…,98,99,中的任何一个的机率是相同的。

4.任何三位随机数字成为1000个可能的三位随机数字,如000,001,002,…,998,999中的任何一个的机率是相同的。

5.…同样情况适用于4位或者更多位的随机数字。

SRS的步骤

随机数字使我们利用附录1的表1进行SRS变得很容易。下面就是一个例子说明SRS的步骤。

例7 如何进行SRS 。国际残疾人奥委会(IPC,International Paraolympics Committee)为了全面了解残疾人运动组织与健身运动在中国的发展状况,决定在中国34个省级行政区中随机选择一个包含5行政区的样本进行详细访问。为了避免偏性的发生,IPC决定进行一个容量为5的SRS。

第一步:作标记。 使用位数尽量少的数字给中国每一个省级行政区作标记。标记34个行政区需要两位数,因此我们用的标记数字是:

01,02,03,…,32,33,34

显然,使用从01~34这34个数字进行标记是准确的,或者使用另外34个两位数进行标记也未尝不可。标记后的中国省级行政区列表如下:

第二步:查表。 从附录1表1任何地方开始读取2位数字一组。假设我们是从第130行开始的,那就是

69051 64817  87174  09517  84534  06489  87201  97245

那么在这一行中前10个2位数字就是:

69  05  16  48  17  87  17  40  95  17

每一个连续的2位数字构成的一组就是一个标记。在这个例子中,00和35~99这些数字标记没有被用到,因此予以忽略。在这张表中,首先碰到的01~34间的5个标记就选择为IPC的样本。由上述可见,在第130行的头10个标记中,忽略了5个标记,这是由于这些数字太大(超出了34),其他的数字是05、16、17、17和17。因此,标记为05、16和17的省级行政区就被选进了样本。第二和第三个17被忽略是由于这个行政区已经在样本之中了。现在读完第130行的数字(并在需要的情况下继续读第131行等等),一直到选出所需要的5个省级行政区。

最终,这个样本是由标记为05,16,17,20和19的省级行政区组成。这些行政区分别是内蒙古自治区、河南省、湖北省、广西壮族自治区和广东省。

使用随机数字表要比从帽子中抽取名字快得多。另外,利用编写计算机程序来从一个非常巨大的抽样列表中选择样本几乎只需1秒钟,许多抽样者在实际操作中就是采用这种做法。正如例7所展示的,SRS的过程包括2个步骤:

SRS包括两步

第一步:标记。 给抽样列表中每一个个体一个数字标记。

第二步:查表。 利用随机数字表随机地选择标记数字。

下面是SRS过程中的一些提示:在对抽样列表中的成员进行标记时,不必将这些标记混杂在一起。附录1表1将会完成抽样所要求的随机化过程。抽样者完全可以按任何一种自己感到比较方便的标记方法对抽样列表中的个体进行标记,例如按照字母先后顺序排列人名。确保所有标记都有相同的数字位数。只有这样才能够保证所有个体被抽取作为样本的机率相等。使用尽可能短的数字标记:10位以内的成员的总体用1 位数 ,11~100名成员的总体用2 位数字 ,101~1000名成员的总体用3 位数字 ,如此继续。可以从0 (或者00和000,根据需要确定)开始标记,也可以从1 (或者01和001)开始标记,这完全看抽样者自己的选择。由于随机数字表没有任何顺序,因此按任何顺序阅读随机数字表中的数字都是正确的,但是通常情况下,总是从左到右阅读,如果还需要的话可以继续阅读接下来的一行数字。最后忽略那些重复出现的标记数字和没有作为标记的数字。

练习2

1. 6 利用随机数字表(附录1表1),在如下的25名志愿者中选择含有3人的SRS样本作为一种药物测验的受试者。并说明从哪里进入这个表,以及如何使用的这个表。

1. 7 一个食品处理程序有50批罐装蘑菇等待运输,每一批是由如下的批号进行标记的。

选择含有5批货物的SRS样本作为检查对象。利用附录1表1来完成,从表中的第139行开始。

1. 8 随机数字是如何变化的?下面各个陈述中哪些是有关一个随机数字表正确的叙述,哪些是错误的叙述?

(a)在每一行的40个数字中,正好有4个0。

(b)每一对数字恰好是00的机率是1 /100。

(c)数字0000是永远不可能作为一组数字出现的,因为这种模式是不随机的。

1. 9 一项抽样实验。下表是北京市某小学二年级40名学生身高(厘米,cm)数据。按照如下的步骤做一个抽样实验:

(a)根据表中40名小学生编号,利用附录1表1抽取一个容量是4的SRS样本作为小学二年级学生身高样本。

(b)使用计算器计算样本中的4名小学二年级学生的平均身高。身高h 1 ,h 2 ,h 3 和h 4 的平均值是

(c)再将步骤(a)和(b)重复进行3次(总共4次),每一次使用附录1表1中的不同部分。这40名小学生中是否有不只一次被选中的情况出现呢?4个样本的平均身高是否不同?

(d)利用在这个练习中尚未使用的附录1表1中的一个部分从这个总体群体中抽取一个容量是16的SRS样本。计算这个样本中16个小学生的平均身高。

正如将在下一个部分中看到的那样,容量是16的抽样样本间平均身高的变异性要比容量是4的抽样样本间的变异性小。将自己的结果与其他同学的结果相互结合将进一步证明这个抽样实验是正确的。 oKJGMMLrUtt6YvWYoEWny2JsHi44vy/T2oTkddv3ivcg9TROg4cwokh5cDRLRnyt

点击中间区域
呼出菜单
上一章
目录
下一章
×