常用的随机抽样技术主要有简单随机抽样、分层抽样、系统抽样、整群抽样和多阶段抽样。在具体的抽样调查中,可根据调查对象的特点,单独使用其中一种技术,也可以多种技术结合使用。
1.简单随机抽样
简单随机抽样又称纯随机抽样,是指在进行抽样时,对总体不经过任何形式的处理,不进行排队或分类,按照随机原则从总体中抽取样本单位的抽样方式。简单随机抽样是抽样中最基本也最单纯的形式,适用于总体单位数不是太多的均匀总体,即具有某种特征的单位均匀地分布于总体的各个部分,使总体的各个部分都是同分布的。
简单随机抽样的取样方法主要有四种。
(1)直接抽选法。这种方法是指直接从调查对象中随机抽选。例如,从仓库中存放的所有同类产品中随机指定若干件产品进行质量检验;从粮食仓库中不同的地点随机取出若干粮食样本进行含杂量、含水量的检验;等等。
(2)抽签法。先将总体的各个单位按照某种自然的顺序编上号码并做成号签,再把号签掺合起来,任意抽取所需单位数,然后按照抽中的号码取得对应的调查单位加以登记调查。所谓摇奖机,就是基于这样的原理。
(3)随机数表法。随机数表是指含有一系列随机数字的表格。这种表格的编制,既可以借助电子计算机产生,也可以采用数码机产生或自己编制。表中数字的出现及其排列是随机形成的。查随机数表时,可以竖查、横查、顺查、逆查;可以用每组数字左边的头几位数,也可以用其右边的后几位数,还可以用中间的某几位数。这些都需要事先完全确定好。但一经决定采用某一种具体做法,就必须保证对整个样本的抽取完全遵从统一规则。
表2-4是从随机数码表中截取的一部分数字组成的表。
表2-4 随机数码表
(续)
假如要从1000名新生中抽取50名学生,可以先将这1000名学生从0至999进行编号,然后从表格中任意一个数字开始向任何一个方向摘录数字,以3位数为一个编号(如果总体编号取到的是4位数,则应以4位为一个编号),共选50个编号。现在我们从表2-4随机数码表的第6行第2列开始选取3位数,依次向下数:261、073、553、121、544、245、955、211…,共选50个号码。这50个号码所对应的每名学生就是一个样本。
(4)计算机取随机数法。当总体单位数很大时,用上述方法有一定的困难,这时可以利用计算机的某些程序语言产生随机数。一些常用的统计软件,如SPSS、SAS等,都可以产生随机数。
2.分层抽样
分层抽样又称分类抽样,是将总体单位按照某个变量分成不同类型的组,然后在各组中随机抽取样本单位。实际上它是将总体先进行分组(或分类),然后再在各组(或各类)中进行简单随机抽样。例如,在一所大学抽取学生进行调查时,可以先把总体分为男生和女生两大类,然后采用简单随机抽样技术,分别从男生和女生中各抽取100名学生。这样,由这200名学生所构成的就是一个由分层抽样所得到的样本。
设总体中的 N 个单位可以划分为 k 类,第 i ( i =1,2,…, k )类包含 N i 个单位,因此, N = N 1 + N 2 +…+ N k =∑ N i 。从第 i 类中随机抽取 n i 个单位,则从 k 类中一共抽取了 n = n 1 + n 2 +…+ n k =∑ n i 个单位, n 就是样本容量。
分层抽样按照确定各组单位数的方法的不同,分为等比例分层抽样和不等比例分层抽样。
(1)等比例分层抽样。它是按照统一的比例来确定各组的样本单位数,也就是抽取的各类单位数占该类总体单位数的比重是相等的,即
等比例分层抽样确定各组的单位数的公式如下:
这种方式因考虑了各类单位数的比重大小的不同影响,从而使样本单位能合理地分配于总体之中,因此较简单随机抽样有更好的抽样效果。
(2)不等比例分层抽样。它是指各类所抽选的单位数按各类变量的变动程度来确定,变动程度大的多抽选一些单位,变动程度小的少抽选一些单位,没有统一的比例关系。
在实际工作中,由于事先很难了解各类变量的变异程度,因此,大多数分层抽样采用等比例分层抽样法。
3.系统抽样
系统抽样又称等距抽样,它先将总体单位按一定的顺序排列,根据总体单位数和样本单位数计算出抽选间隔,也即距离,用 k 表示, k = N / n ,然后按照此距离抽选样本。例如,从1000名职工中抽选20名(即按2%的比例抽选)进行调查,那么抽选间隔为50(=1000÷20),即将全体职工按一定顺序排列后,从每50名职工中抽取1名进行调查。它是最容易的一种抽样组织方式,并且其抽样误差小于纯随机抽样,故在实际工作中被广泛采用。
等距抽样按样本单位抽选的方法不同,分为随机起点等距抽样、半距起点等距抽样和对称等距抽样。
(1)随机起点等距抽样。在前 k 个单位中按随机原则抽取第一个单位,以后每隔 k 个单位再抽取另外的样本单位。如果第一次抽取的单位为第 i 号单位,则第2次抽取的单位为第 i + k 号单位,第3次抽取的单位为第 i +2 k 号单位,依此类推,第 n 次抽取的单位为第 i +( n -1) k 号单位。
当总体的排队顺序与研究变量无关时,随机起点等距抽样是适用的。但当总体的排队顺序与研究变量有关时,随机起点等距抽样则不适用,因为容易产生系统性的偏差。例如,假设第一个单位在前 k 个单位中的变量值是偏高的,则后面选取的单位在以后各组中的变量值也是偏高的,从而引起样本平均数的偏高,以此推断总体平均数肯定是偏高的。
(2)半距起点等距抽样。它是将总体单位排列后,让第一个样本单位位于前 k 个单位的中间位置,以后再每隔 k 个单位选取其他的样本单位,也即每个样本单位都选在各组的中点。
无论总体的排列顺序与研究变量是否有关,都可以采用这种方法,长期以来它在大规模社会经济调查中被广泛运用。这种方法的缺点是随机性不明显,当总体排列确定、样本容量确定时,则样本单位也随之确定了。此外,只能抽取一个样本,不能进行样本轮换,抽样框的利用率太低。
(3)对称等距抽样。首先在第一组中随机抽取一个样本单位,假设顺序号为 i ,在第二组与第一个样本单位对称的位置抽取第二个样本单位,顺序号为2 k-i 。在第三组与第二组样本单位对称的位置抽取第三个样本单位,顺序号为2 k + i 。依次抽取后面的样本单位,顺序号依次为4 k-i ,4 k + i ,6 k-i ,6 k + i ,…。这种方法保留了半距起点等距抽样的优点,又避免了它的缺点,具有随机性,样本可轮换,是一种较好的方法。
等距抽样的最主要优点是简便易行,并且当对总体结构有一定了解时,充分利用已有信息对总体单位进行排队后再抽样,则可提高抽样效率。
4.整群抽样
整群抽样又称群体抽样。这种抽样技术是先将总体分为若干群或组,然后以群作为抽样单位,从中随机抽取一些群,对中选群内的所有单位进行全面调查。例如,检验产品质量时,每隔1h抽出5min内生产的全部产品来检验。又如,调查农民家庭经济情况时,用简单随机抽样的方法抽选村,对抽中村的所有农户全部进行调查。整群抽样与前三种抽样技术有较大不同,前三种技术均属个体抽样,整群抽样的抽样单位不是单个个体,而是由总体单位组成的群。整群抽样与分层抽样相比,虽然两者都是将总体划分为多个组,但划分组的作用却不同。分层抽样划分的组称为“类”,分类的作用使得每个组的组内方差尽量的小,抽取的样本仍是总体单位;整群抽样划分的组称为“群”,分群的作用却是要扩大群内方差,抽取的样本是群。
整群抽样的优点是编制名单和抽选工作较为集中、省力、方便,确定一个群就可以抽出许多单位进行观察。但是,正因为以群为单位进行抽选,抽选单位比较集中,显著地影响了在总体中各单位分布的均匀性,因此,整群抽样和其他抽样技术相比,在抽样单位数相同的条件下,抽样误差较大,代表性较低。为此,在统计工作实践中采用整群抽样时,一般都要比其他抽样技术抽选更多的单位,借以降低抽样误差,提高抽样结果的准确度。
5.多阶段抽样
以上介绍的四种抽样技术都是只经过一次抽选就可确定样本单位,属于单阶段抽样,在调查范围较小、调查单位比较集中时可采用单阶段抽样。但如果调查单位很多、分布面很广,难以从总体中直接抽取样本单位,就必须采用多阶段抽样。多阶段抽样是把抽取样本单位的过程分成两个或更多阶段进行,即先从总体中抽选若干大的样本单位,也称第一阶段单位;然后从被抽中的这些大的样本单位中再抽选较小的样本单位,也称第二阶段单位;依此类推,直到最后抽出最终样本单位。如果第二阶段单位是最终样本单位,这就是二阶段抽样;如果第三阶段单位是最终样本单位,这就是三阶段抽样。若对农民生活水平进行调查,可以按省、(市)县、乡、村、户进行多阶段抽样。
多阶段抽样具有整群抽样简单易行的优点,它保证了样本相对集中,从而节约了大量的调查费用。由于不需要包含所有低阶段抽样单位的抽样框(抽样单位的名单),所以便于实施抽样工作,在调查单位分布范围比较广、调查规模比较大时,经常采用多阶段抽样。