统计工作从搜集统计数据开始,抽样调查是搜集统计数据的一种重要方法。进行抽样调查的3个步骤是,首先要从研究对象的总体中按照一定的抽取方法抽取部分单位作为样本,这种抽取方法也称抽样方法,然后对抽取的样本单位进行调查,再根据调查取得的样本数据推断总体的数量特征。
由于调查的只是一个样本,而不是整个总体,因此抽样误差必然存在。在实际调查中,由于总体均值是未知的,因此不可能知道抽样误差的大小,但可以对其进行概率说明。尽管抽样误差不可避免,但却是可以控制的。选择合适的抽样方法是控制这类误差的一个重要方法。也就是说,能否找出准确显现总体样本特征的抽样结果,很大程度上取决于抽样方法选择的合理性。
抽样方法主要有随机抽样法和非随机抽样法两种,而非随机抽样法又包括按周期抽样法、主观抽样法等。本章将介绍随机抽样法和按周期抽样法这两种方法。
对于给定样本,Excel 2013的加载项“分析工具库”提供了抽样的基本功能,如果读者还没有安装Excel 2013的“数据分析”加载项,请先安装,安装方法见3.3.1节。安装完成后,我们就可以利用Excel 2013进行样本抽样了。
选择“数据”选项卡,执行“数据分析”命令,弹出如图5-1所示的“数据分析”对话框,选择“抽样”选项,单击“确定”按钮,弹出如图5-2所示的“抽样”对话框。
图5-1 “数据分析”对话框
图5-2 “抽样”对话框
下面详细介绍图5-2“抽样”对话框中各项参数的含义。
1.“输入”选项组
该选项组的功能是设定样本来源的相关信息。
(1)“输入区域”的空格中要求填写样本来源即总体在Excel中的区域位置,可以直接输入,也可以单击 按钮,再选定总体的区域。
(2)“标志”的勾选框表示总体是否存在标志,用以区分不同的抽样结果。在某些情况下,需要用到多个抽样数据组,此时需要用样本中的某些数据对每个抽样数据组进行标志,或者说命名,以方便进一步应用。一般而言,数据标志存在于数据区域的首行或首列,换言之,如果输入区域的第一行或第一列中包含标志,就勾选此框,否则不选。
2.“抽样方法”选项组
该选项组的功能是选择抽样方法,有“周期”和“随机”两个选项,分别代表按周期抽样法和随机抽样法两种方法,详细介绍分别见5.1.2节和5.1.3节。
3.“输出选项”选项组
该选项组的功能是设定抽样结果的生成位置,有3个选项。
(1)若选择“输出区域”选项,并且在其后的空格中直接输入,或者单击 按钮再选定区域,则抽样结果会与总体数据出现在同一个工作表中。
(2)若选择“新工作表组”选项,并且在其后的空格中输入新建的工作表名称,则抽样结果会出现在新建的工作表中。
(3)若选择“新工作簿”选项,则抽样结果会出现在新的工作簿中。
然后,单击“确定”按钮,即可得到抽样结果。
下面详细介绍抽样的两种方法——按周期抽样法和随机抽样法。
有时总体数据本身呈现一定的周期循环特征,如铁路的月客流量,每年的暑假和春节前后都会出现波峰,再如月降水量,我国大部分地区夏季7~8月出现高峰,冬季1~2月出现谷底。此时,随机抽样法会破坏样本的周期性,导致总体样本信息缺失,也就无法准确分析总体样本的特征。而周期抽样法是按照周期值来选择抽样单位的固定间隔,然后按照这个固定间隔来抽取样本,使得选取的抽样单位也具有了周期区间的性质,因此保留了总体样本的周期性,是一种非常适合于周期循环性总体样本的抽样方法。
下面我们通过实验5-1来介绍使用Excel 2013对已知总体样本采用按周期抽样法进行抽样的操作。
实验5-1:图5-3是1990年1月至2008年12月全国的月发电量数据,单位是亿千瓦每小时。要求:采用按周期抽样法从中抽取样本。
图5-3 全国发电量原始月度数据
一般来说,由于节假日原因,每年的1月或2月,即春节前后发电量达到最低,而在10~12月发电量达到高峰,因此,月发电量有着明显的周期循环性质,所以我们应当采用按周期抽样法来抽取样本。
具体步骤如下:
(1)选择“数据”选项卡,执行“数据分析”命令,弹出“数据分析”对话框,选择“抽样”选项,单击“确定”按钮,弹出如图5-2所示的“抽样”对话框。
(2)在“输入区域”空格内填写数据区域“$B$2:$B$229”(或者直接选取),此例中输入区域的第一行和第一列并无标记,因此不选“标志”勾选框;在“抽样方法”一栏中,选择“周期”选项,“周期”代表总体数据的循环周期,由于是发电量的月度数据,以一年为周期,即周期是12,所以“间隔”空格填“12”;“输出选项”有三种选择,可以根据实际需要进行相应选择,我们不妨选择“新工作表组”选项,并在“输出区域”的空格中填写输出的区域位置,这个位置也可以自由挑选,我们不妨设“Sheet4”,得到如图5-4所示的抽样结果。
图5-4 实验5-1的抽样结果
如图5-4所示,工作表Sheet4的A列即为1990年1月至2008年12月全国的月发电量数据的按周期抽样结果。
随机抽样是最为常用的抽样方法。它从一个容量为N的有限总体中抽取得到一个容量为n的简单随机样本,并且每一个容量为n的可能样本,都有相同的概率被抽中。
用简单随机抽样进行抽样调查,首先应建立一个抽样框,即抽样总体中所有个体的名册;然后根据随机数表进行抽样。使用随机数表,可以保证抽样总体中的每个个体都有相同的概率被抽中。由于随机抽样不受主观因素影响,抽样的平均误差最小,能够更好地反映总体的特征。
下面我们通过实验5-2来介绍使用Excel 2013对已知总体样本采用随机抽样法进行抽样的操作。
实验5-2:图5-5是2007年我国内地266个地级市(部分地区没有数据,故没有列出)的国内生产总值增长率,单位是%,要求:采用随机抽样法从中抽取50个样本。
具体步骤如下:
(1)选择“数据”选项卡,执行“数据分析”命令,弹出“数据分析”对话框,选择“抽样”选项,单击“确定”按钮,弹出如图5-2所示的“抽样”对话框。
图5-5 地级市国内生产总值增长率的原始数据
(2)在“输入区域”空格内填写数据区域“$B$2:$B$267”(或者直接选取),此例中输入区域的第一行和第一列并无标记,因此不选“标志”勾选框;在“抽样方法”一栏中,选择“随机”选项,“样本数”代表抽取样本的容量,此处要求抽取50个样本,所以“样本数”空格填“50”;“输出选项”有三种选择,可以根据实际需要进行相应选择,我们不妨选择“新工作表组”选项,并在“输出区域”的空格中填写输出的区域位置,这个位置也可以自由挑选,我们不妨设“Sheet4”,得到如图5-6所示的抽样结果。
如图5-6所示,工作表Sheet4的A列即为2007年266个地级市国内生产总值增长率的一个容量为50的随机抽样。
图5-6 实验5-2的抽样结果