购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

实验四
参数估计

一、实验目的及要求

(一)实验目的

应用统计软件,完成抽样工作,并且在获取抽样数据的基础上,计算样本统计量,对相应总体参数进行区间估计。

(二)实验要求

(1)了解抽样组织形式,掌握抽取样本数据的方法。

(2)掌握Microsoft Excel应用函数表单进行参数估计的方法和步骤,注意各区间估计的假设前提。

(3)了解“描述统计”分析工具“平均数置信度”复选框的结果解释。

二、抽样

从客观现象总体中抽取一部分单位组成样本,从样本中搜集数据并得到有关总体分布的结论,这是统计推断过程的一部分。Microsoft Excel可以使用“抽样”分析工具扩展函数来完成抽样工作。使用“数据-数据分析”菜单打开“数据分析”对话框,如图1-4-1所示。从分析工具下框中选择“抽样”,点击“确定”打开“抽样”对话框,如图1-4-2所示。

图1-4-1 数据分析-抽样分析工具

图1-4-2 “抽样”分析工具对话框

1.输入

输入包含想要抽样的数值总体的数据区域引用。我们可以点击输入区域右侧的箭头来选择数据区域,“抽样”分析工具将输入区域中的数据视为总体,并使用总体来建立样本。Microsoft Excel会依次按第l列、第2列等的顺序抽取样本。如果输入区域的第一行或列中包含了标志,那么选中“标志”复选框;如果输入区域中没有标志,则清除“标志”复选框。

2.抽样方法

选择“周期”或“随机”单选框以选取需要的抽样方法。“周期”抽样需要输入周期间隔,输入区域中位于间隔点处的数值以及此后每一个间隔点处的数值将被复制到输出列中。当到达输入区域的末尾时,抽样将停止;“随机”抽样是指直接输入样本数,电脑自行抽样,不受间隔的规律限制,每一个数值都是从输入区域的任意位置上抽出,并且任何数值都可以重复选取。

3.输出选项

(1)如果选中“输出区域”单选框,则点击输出区域右侧箭头,选择一个下侧和右侧没有数据的单元格,这个单元格代表输出结果最左上角单元格的引用。数据会被写入单元格下面的单列中。如果选取“周期”单选按钮,输出表格的数值个数等于输入区域的数值个数除以间隔数(抽样率);如果选取“随机”单选按钮,输出表格的数值个数等于样本数。

(2)如果选中“新工作表组”单选框,则可以在当前的工作簿中插入新的工作表,并从新工作表的A1单元格开始粘贴结果。如果要给新的工作表命名,那么在该单选框右边的文本框中输入名称。

(3)如果选中“新工作簿”单选框,可以建立新的工作簿,并将新工作表中的结果粘贴到新工作簿中。

比如,要从如图1-4-3所示的数据中抽取10个随机样本数据,步骤如下:

第一步,使用“数据-数据分析”菜单打开“数据分析”对话框,从分析工具下框中选择“抽样”,点击“确定”打开“抽样”对话框。

第二步,点击输入区域右侧的箭头,鼠标拖动选择A1至D10单元格;数据区域不包含标志值,所以不选中“标志”复选框;选中“随机”抽样方法,在样本数框中输入10;输出选项选择“输出区域”,点击右侧的箭头,鼠标选择E2单元格,如图1-4-4所示。

图1-4-3 抽样示例数据

图1-4-4 抽样示例分析工具对话框

第三步,点击“抽样”对话框的“确定”按钮,返回结果。在E1单元格输入“抽样结果”字样,结果如图1-4-5所示。

图1-4-5 抽样示例分析工具分析结果

三、区间估计

总体参数估计就是用样本统计量去估计未知的总体参数,其基本方法有点估计和区间估计两种。点估计又称为定值估计,即令样本统计量直接作为总体参数的估计值,用Microsoft Excel实现的方法,也就是直接调用Average、Var.s、Stdev.s等函数计算出样本数据的均值、方差、标准差等统计量,然后用它们直接分别代表总体的均值、方差和标准差。显然,点估计的误差是很大的。因此,除非迫不得已,总体参数估计都不直接采用点估计,而更多采用区间估计。本实验主要介绍区间估计的方法和步骤。

区间估计是利用样本统计量,在给定的概率(1- α )保证下,给总体参数构造一个估计区间,这个区间覆盖在点估计值的周围,而总体参数可以以(1- α )概率认为落在这个区间之内。概率(1- α )称为置信度(或置信水平),其中 α 称为显著性系数(或显著水平),构造的这个区间就称为置信区间。

区间估计的实验就是要通过软件,实现一定置信度水平下的置信区间反映结果。Microsoft Excel没有提供专门的分析工具库扩展函数来分析各种情况下的参数区间估计结果,所以我们只能使用函数或函数表单来实现实验目标。此外,还记得实验三中“描述统计”对话框中的“平均数置信度”复选框和它的返回结果吗?它也能实现参数估计的结果,不过需要对使用条件进行解释,我们将在介绍区间估计的函数方法的过程中,利用函数计算结果和“平均数置信度”返回结果来对比说明它的作用。

(一)总体标准差已知,均值的置信区间估计

如果总体服从正态分布,那么从总体中随机抽样形成的样本的均值服从正态分布;如果总体的分布是非正态的,但样本容量足够大时,样本的均值近似服从正态分布。“总体标准差已知,均值的置信区间估计”正是在这两个假设前提下展开的。另外为了简便处理,所有的参数区间估计实验中,我们都假设样本数据是采用简单重复随机抽样的组织形式获取的(在理论课中,大家应该学习到,抽样方法也会影响到抽样平均误差的计算公式表达)。

小贴士:总体标准差已知,总体均值的置信区间

其中, Z 代表标准正态分布中,对应于分布曲线面积为“1-显著性系数/2”的值(即上尾概率为“显著性系数/2”)。 σ 代表总体标准差, n 代表样本容量。

1.Confidence.norm函数

用途:使用正态分布,返回总体平均值的置信区间。

语法:Confidence.norm(alpha,standard_dev,size)。

参数:alpha是用于计算置信区间的显著性水平,alpha=1-置信水平,且以0~1之间的小数状态表达。(比如置信水平为95%,alpha=0.05);standard_dev是已知的总体标准差(或其所在的单元格地址);size为样本容量。

举例:假设样本为随机抽取的46名学生的考试成绩,他们的平均分为60分,总体标准偏差为5分,当置信水平为95%时,公式“=Confidence.norm(0.05,5,46)”返回1.45,即在95%的置信水平条件下,全班考试平均成绩的置信区间为(60-1.45,60+1.45)分。

2.函数表单

函数表单是一种利用函数和命名组合形成的可以反复使用的电子表格,也是Microsoft Excel进行总体参数区间估计的主要方法。下面,我们就以一个例子来介绍“总体标准差已知,均值的置信区间估计”实验函数表单的构建方法。

比如,随机抽取32名学生的统计学成绩,如图1-4-6所示,已知全班统计学成绩的标准差为11分,对全班统计学课程平均成绩进行区间估计。

第一步,用鼠标左键单击A列的列标,选中激活整个A列。在“公式”菜单中找到“定义的名称”卡片集,点击“根据所选内容创建”卡片,打开“以选定区域的值创建名称”对话框,如图1-4-7所示。在对话框中,选中“首行”复选框后,点击“确定”按钮。这样我们就完成了对变量数据的命名,A列上的所有数据都被命名为“统计学成绩”,后续在函数的参数设置时,不用再调用单元格地址,直接调用命名的名称就可以了。

图1-4-6 区间估计-大样本函数表单示例数据

图1-4-7 数据命名

第二步,构建函数表单框架。C2单元格输入“样本统计量”;C3单元格输入“样本容量”;C4单元格输入“样本均值”;C5单元格输入“用户输入”;C6单元格输入“总体标准差”;C7单元格输入“置信水平”;C8单元格输入“计算结果”;C9单元格输入“抽样平均误差”;C10单元格输入“Z值”;C11单元格输入“置信区间半径”;C12单元格输入“置信区间下限”;C13单元格输入“置信区间上限”。按住“Ctrl”键,选中C3:D3、C4:D4、C6:D6、C7:D7、C9:D9、C10:D10和C11:D11七组单元格,在“公式”菜单中找到“定义的名称”卡片集,点击“根据所选内容创建”卡片,打开“以选定区域的值创建名称”对话框。在对话框中,选中“最左列”复选框后,点击“确定”按钮,完成对函数表单框架的命名。

第三步,输入框架下对应的数据和函数公式。D3单元格输入公式“=Count(统计学成绩)”;D4单元格输入公式“=Average(统计学成绩)”;D6单元格输入已知的总体标准差11;D7单元格输入置信水平,如0.95;D9单元格输入公式“=总体标准差/Sqrt(样本容量)”;D10单元格输入公式“=ABS(Norm.s.inv((1-置信水平)/2))”;D11单元格输入公式“Z值∗抽样平均误差”;D12单元格输入公式“=样本均值-置信区间半径”;D13单元格输入公式“=样本均值+置信区间半径”。输入内容如图1-4-8所示。

在E11单元格输入公式“=Confidence.norm(0.05,总体标准差,样本容量)”,将结果与D11单元格的置信区间半径作对比。最后的置信区间结果如图1-4-9所示,即在95%的置信水平条件下,全班统计学课程的平均成绩(总体均值)落在区间(75.19,82.81)内。

图1-4-8 总体标准差已知的均值估计-函数表单

图1-4-9 总体标准差已知的均值估计-表单结果

小贴士:函数表单的使用

函数表单构建好后,将来可以就符合假设条件的数据反复使用它来得到分析结果。比如前面的总体标准差已知的均值的置信区间估计的函数表单,将来有了新的数据,我们可以指定数据名称为“统计学成绩”(虽然数据可能和统计学没有一点关系),然后调用同一函数表单来对新数据的总体均值进行区间估计。当然,最好的做法是我们在构建函数表单的时候,并不指定数据名称为有代表含义的内容,可以统一叫作“样本数据”,这样将来使用起来就更方便了。在下面的实验中,我们都统一使用“样本数据”来命名。

函数表单使用的函数中,Count和Average函数已经在前文中介绍过了,下面就ABS函数、Norm.s.inv函数及其复合计算结果作出说明。

(1)ABS函数

用途:返回数字的绝对值。

语法:ABS(number)。

参数:number参数可以是任意有效的数值表达式。

举例:公式“ABS(-100)”返回的结果为100。

(2)Norm.s.inv函数

用途:返回标准正态分布的概率度。该分布的平均值为0,标准偏差为1。

语法:Norm.s.inv(probability)。

参数:probability为正态分布的概率值,通常为分布区间点左侧的累积概率值。

举例:公式“=Norm. s. inv (0.908789)”返回结果为1.33333,正态分布概率为0.908789时,标准正态区间点值为1.33333。

总体标准差已知的均值的置信区间估计的函数表单中,Z值称为(标准正态)分布的临界值,其计算公式“=ABS(Normsinv((1-置信水平)/2))”的返回结果标准正态分布中,对应于分布曲线面积为“1-(1-置信水平)/2”的值(即上尾概率为“(1-置信水平)/2”)。由于标准正态分布是对称分布,所以公式“=ABS(Normsinv((1-置信水平)/2))”与公式“Normsinv(1-(1-置信水平)/2)”的返回结果是相同的。

那么,为什么我们不把置信水平尽可能地提高到100%呢?你不妨改变函数表单中置信水平的用户输入值,会发现随着置信水平的提高,Z值会逐渐增大,从而使得置信区间半径加大,降低了对总体参数区间估计的精确性,这显然是统计分析所不愿意看到的。因此我们总要维持置信区间长度和置信水平之间的平衡关系,一般软件默认都会选择95%作为置信水平。

(二)总体标准差未知,均值的置信区间估计

在实际获取的数据中,总体的标准差很少是已知的,在求均值的置信区间时,只能用样本标准差来对总体标准差进行点估计。此时,如果面对的是大样本,那么样本均值的抽样分布仍然服从正态分布,可以利用前面的Confidence.norm函数或类似函数表单(只需要在用户输入下去掉总体标准差一行,而在样本统计量下增加一行计算样本标准差,适当调整函数调用的参数即可)就可以完成总体均值的区间估计。

如果面对的是小样本,那么样本均值的抽样分布服从 t 分布。如果随机变量 X 服从正态分布,则统计量 服从自由度为 n -1的 t 分布。从形状上看, t 分布和正态分布很相似,它们都是钟形。但是与正态分布相比, t 分布的中心面积较小,而两侧尾部面积较大。

自由度是指可以自由变动的样本值个数。 t 统计量计算公式中,分子含有样本均值,分母也含有样本均值(样本方差等于各样本值与样本均值的离差平方和),因此样本均值决定的自由变动的样本值个数就是该统计量的自由度。而当计算出样本均值后,样本容量已知为 n ,就仅有 n -1个样本值可以自由变动了。比如,样本均值计算为25,样本容量为4,则当已知其中3个变量值时,第4个就不能自由变动了,因为总和一定要等于100(即25×4=100)。所以, t 统计量服从自由度为 n -1的 t 分布,其中 n 为样本容量。

小贴士:总体标准差未知,小样本,总体均值的置信区间

其中, t n-1 代表自由度为 n- 1,上尾概率是“显著性系数/2”的 t 分布临界值, S 代表样本标准差, n 代表样本容量。

下面,我们就来介绍“总体标准差未知,小样本,均值的置信区间估计”的方法和步骤。

1.Confidence.t函数

用途:使用学生 t 分布,返回总体平均值的置信区间。

语法:Confidence.t(alpha,standard_dev,size)。

参数:alpha是用于计算置信区间的显著性水平,alpha=1-置信水平,且以0~1之间的小数状态表达(如置信水平为95%,alpha=0.05);standard_dev是标准差(或其所在的单元格地址),在总体标准差未知时,可以利用Stdev.s函数嵌套计算样本标准差进行点估计;size为自由度,通常等于样本容量-1。

举例:假设样本为随机抽取的16名学生的考试成绩,他们的平均分为60分,样本标准偏差为5分,当置信水平为95%时,公式“=Confidence.t(0.05,5,16)”返回2.66,即在95%的置信水平条件下,全班考试平均成绩的置信区间为(60-2.66,60+2.66)分。

2.函数表单

样本为随机抽取的15名学生的统计学成绩,总体标准差未知,并将A1单元格的“统计学成绩”改为“样本数据”,如图1-4-10所示。

第一步,用鼠标左键单击A列的列标,选中激活整个A列。在“公式”菜单中找到“定义的名称”卡片集,点击“根据所选内容创建”卡片,打开“以选定区域的值创建名称”对话框,选中“首行”复选框后,点击“确定”按钮,将A列命名为“样本数据”。

第二步,构建函数表单框架。C2单元格输入“样本统计量”;C3单元格输入“样本容量”;C4单元格输入“样本均值”;C5单元格输入“样本标准差”;C6单元格输入“用户输入”;C7单元格输入“置信水平”;C8单元格输入“计算结果”;C9单元格输入“抽样平均误差”;C10单元格输入“自由度”;C11单元格输入“ t值”;C12单元格输入“置信区间半径”;C13单元格输入“置信区间下限”;C14单元格输入“置信区间上限”。按住“Ctrl”键,选中C3:D3、C4:D4、C5:D5、C7:D7、C9:D9、C10:D10、C11:D11和C12:D12八组单元格,在“公式”菜单中找到“定义的名称”卡片集,点击“根据所选内容创建”卡片,打开“以选定区域的值创建名称”对话框,选中“最左列”复选框后,点击“确定”按钮,完成对函数表单框架的命名。

第三步,输入框架下对应的数据和函数公式。D3单元格输入公式“=Count(样本数据)”;D4单元格输入公式“=Average(样本数据)”;D5单元格输入公式“=Stdev.s(样本数据)”;D7单元格输入置信水平,如0.95;D9单元格输入公式“=样本标准差/Sqrt(样本容量)”;D10单元格输入公式“=样本容量-1”;D11单元格输入公式“=T.inv.2t(1-置信水平,自由度)”;D12单元格输入公式“=t值∗抽样平均误差”;D13单元格输入公式“=样本均值-置信区间半径”;D14单元格输入公式“=样本均值+置信区间半径”。输入内容如图1-4-11所示。

图1-4-10 区间估计-小样本函数表单示例数据

图1-4-11 总体方差未知的小样本均值区间估计-函数表单

在E12单元格输入公式“=Confidence.t(1-置信水平,样本标准差,样本容量)”,结果同D12单元格的置信区间半径作对比。最终结果如图1-4-12所示,即在95%的置信水平条件下,全班统计学平均成绩落在区间(76.78,88.42)分内。显然,这个置信区间要比图1-4-9所演示的大样本均值置信区间宽,这主要是因为 t 分布比正态分布要平缓松散。

图1-4-12 总体方差未知的小样本均值区间估计-函数表单结果

函数表单中使用T.inv.2t函数来计算 t 值,下面就这个函数的基本情况作简要介绍:

用途:返回作为概率和自由度函数的 t 分布的双尾概率度。

语法:T.inv.2t(probability,degrees_freedom)。

参数:probability为对应于双尾 t 分布的概率,degrees_freedom为分布的自由度。

举例:公式“=T.inv.2t(0.5,60)”返回0.6786007。

与Norm.s.inv函数不同,T.inv.2t函数的probability参数就是显著性系数,而Normsinv函数的probability参数是一个左侧累计概率,累计概率达到(1-显著性系数/2)。Microsoft Excel也提供了一个函数T.inv来计算服从 t 分布的左侧累计概率对应的概率度,大家感兴趣也可以自行测试。

3.“描述统计”对话框中的“平均数置信度”复选框

“描述统计”对话框中的“平均数置信度”复选框也能返回置信区间半径。利用图1-4-10的示例数据,使用“数据-数据分析”菜单,打开“数据分析”对话框,从分析工具下框中选择“描述统计”,点击“确定”按钮进入“描述统计”对话框。输入区域点击右侧箭头,选择A1至A16单元格;分组方式选择“列”单选框;因为输入数据包含了A1单元格的标志值,所以选中“标志位于第一行”复选框;输出选项选择输出区域,点击右侧箭头,选择E10单元格(任意一个右侧和下侧没有数据的单元格即可);“汇总统计”“平均置信度”“第K大值”和“第K小值”中只选中“平均值置信度”复选框,保持默认值为95%,如图1-4-13所示。

点击“确定”按钮,得到返回结果。为了方便比较,我们把输出区域定在了E10单元格,输出结果和函数表单的结果放在同一行,如图1-4-14所示。由结果可以看出,“描述统计”对话框中的“平均数置信度”复选框的结果和总体标准差未知的小样本均值置信区间估计的置信区间半径结果是一致的。所以,在处理总体标准差未知的小样本均值置信区间估计问题时,用“描述统计”对话框中的“平均数置信度”可以快速获得置信区间半径,用“描述统计”对话框“汇总统计”复选框返回结果中的“平均”值可以获得样本均值,再使用“样本均值-置信区间半径”和“样本均值+置信区间半径”两个公式分别计算置信区间的下限和上限,最终获取置信区间。

图1-4-13 “描述统计”中“平均数置信度”

图1-4-14 “描述统计”中“平均数置信度”返回结果

(三)总体比率的置信区间估计

总体比率的估计就是利用样本比率对总体比率进行区间估计,当样本容量足够大时,样本比率 p 的抽样分布近似服从正态分布。说明:若样本容量为 n ,样本比率为 p ,则 np n (1- p )小于5时,抽样分布服从二项分布; np n (1- p )大于5时,抽样分布近似服从正态分布。

小贴士:总体比率的置信区间

其中, p 代表样本比率, π 代表总体比率, Z 为标准正态分布临界值, n 为样本容量,且假设 np n (1 - p )均大于5。

对于总体比率区间估计的函数表单构建方法就不再详述,仅以图1-4-15展示函数表单框架及对应输入的函数公式。

图1-4-15 总体比率的区间估计-函数表单

(四)总体方差的估计

总体方差的估计就是用样本方差对总体方差进行区间估计。对于来自正态总体的简单随机样本,其方差的抽样分布服从自由度为 n -1的卡方分布。因此,用卡方分布构造总体方差的置信区间。

小贴士:总体方差的置信区间

其中, S 代表样本标准差, σ 代表总体标准差, n 为样本容量, 是单尾概率为“显著性系数/2”的卡方临界值 是单尾概率为“1-显著性系数/2”的卡方临界值。

对于总体方差区间估计的函数表单仅以图1-4-16展示函数表单框架及对应输入的函数公式。

图1-4-16 总体方差的区间估计-函数表单

函数表单中使用Chisq.inv.rt函数来计算卡方值,下面就这个函数的基本情况作简要介绍:

用途:返回具有给定右侧累计概率的卡方分布概率度。

语法:Chisq.inv.rt(probability,degrees_freedom)。

参数:probability为卡方分布的右侧累计概率,degrees_freedom为自由度。

举例:公式“=Chisq.inv.rt(0.5,2)”返回1.386294361。Microsoft Excel还提供了一个函数Chisq.inv来返回具有给定左侧累计概率的卡方分布概率度,大家感兴趣可以自行测试。

(五)两个总体方差之比的区间估计

两个总体方差之比的区间估计就是用两个样本方差之比对总体方差之比进行估计。两个样本方差之比的抽样分布服从自由度为 n 1 -1和 n 2 -1的 F 分布。

小贴士:两个总体方差之比的置信区间

其中, S 1 代表样本1标准差, S 2 代表样本2标准差, σ 1 代表总体1标准差, σ 2 代表总体2标准差, n 为样本容量, 是单尾概率为“显著性系数/2”的 F 分布临界值, 是单尾概率为“1-显著性系数/2”的 F 分布临界值。

对于总体方差之比区间估计的函数表单仅以图1-4-17展示函数表单框架及对应输入的函数公式。

图1-4-17 总体方差之比的区间估计-函数表单

函数表单中使用F.inv.rt函数来计算 F 值,下面就这个函数的基本情况作简要介绍:

用途:返回右尾 F 概率分布的逆函数值,即 F 分布的概率度。

语法:F.inv.rt(probability,degrees_freedom1,degrees_freedom2)。

参数:probability是 F 分布的右侧累计概率值,degrees_freedom1是分子自由度,degrees_freedom2是分母自由度。

举例:公式“=F.inv.rt(0.1,86,74)”返回1.337887726。Microsoft Excel还提供了一个函数F.inv来返回左尾 F 概率分布的概率度,大家感兴趣可以自行测试。

思考练习

1.构建“两个总体均值之差的区间估计”函数表单,并保存工作簿文件名为“练习7.xls”。

2.构建“两个总体比率之差的区间估计”函数表单,并保存工作簿文件名为“练习8.xls”。

3.构建“必要样本容量”的函数表单,并保存工作簿文件名为“练习9.xls”。 96XKq+hiRtJivZW78qV7V1xZSy14+Lj+2IYYZp51gbOecTL6VJ43krX0lmboojpU

点击中间区域
呼出菜单
上一章
目录
下一章
×