平均值过程倾向于对样本进行描述,它可以对需要比较的各组计算描述指标,进行检验前的预先分析。平均值过程的优势在于所有的描述性统计变量均按因变量的取值分组计算,无须先进行文件拆分过程,输出结果中各组的描述指标放在一起,便于相互比较分析。
平均值过程计算指定变量的综合描述统计量,包括平均值、标准差、总和、观测量数、方差等一系列单变量描述统计量,当观测量按一个分类变量分组时,平均值过程可以进行分组计算。例如,要计算某地区高考的数学成绩,SEX变量把考生分为男生、女生两组,平均值过程可以分别计算男生、女生的数学成绩,还可给出方差分析表和线性检验结果。使用平均值过程求若干组的描述统计量,目的在于比较,因此必须分组求平均值,这是与描述过程的不同之处。
与其他统计分析过程的操作一样,平均值过程的大部分功能可以完全由窗口管理实现,这给用户带来了很大的方便。
在主菜单栏中单击“分析”菜单,选择其中的“比较平均值”子菜单,然后单击“平均值”按钮,即可打开如图4-1所示的“平均值”主对话框。
“平均值”主对话框的中间为“因变量列表”文本框,该框中的变量作为因变量,通常受自变量影响或由自变量决定,因此被用来预测或建模。要从源变量框中选取变量进入该框,只需选中所要选取的变量,然后单击
按钮即可。如果选中两个以上的变量,系统将会在同一张输出表中依次给出其分析结果。
位于“因变量列表”文本框下方的“自变量列表”文本框中的变量是自变量,又称为预测变量或解释变量。要执行“平均值”过程,该框中必须至少有一个变量。选中变量进入该框后,可以看到框上方的“下一个”按钮被激活,单击该按钮进入下一层,下一层的自变量将再细分样本。要回到上一层,单击“上一个”按钮即可。
单击“选项”按钮,即可打开“平均值:选项”对话框,如图4-2所示。
图4-1“平均值”主对话框
图4-2“平均值:选项”对话框
如图4-2所示,“单元格统计”文本框中为在输出结果中显示的统计量,其排列顺序即输出时的显示顺序。可供选择的统计量显示在“统计”文本框中,包括总和、个案数、平均值、中位数、分组中位数、平均值标准误差、最小值、最大值、范围、标准差、方差、峰度、峰度标准误差、偏度、偏度标准误差、第一个、最后一个、占总和的百分比、总个案数的百分比、几何平均值、调和平均值。选择完需要分析的统计量后单击“继续”按钮确认选择并返回“平均值”主对话框。
很多统计量都是在前几章中提到过的,读者可参照前面的讲解进行学习。在“单元格统计”文本框中,系统默认的统计量包括平均值、个案数、标准差。
“平均值:选项”对话框的下方是“第一层的统计”栏。该栏中有两个复选框,用于检验第一层的分组变量对结果变量的影响是否显著。
其中,“Anova表和Eta”复选框表示对第一层自变量进行单因素方差分析,并计算Eta统计量的值和η。方差分析的零假设是,第一层自变量各水平上的因变量平均值都相等。η统计量表明因变量和自变量之间联系的强度。η是因变量中不同组中差异所解释的方差比,是组间平方和与总平方和之比。而“线性相关度检验”复选框用于检验线性相关性,即不同组的平均数之间是否存在线性趋势。实际上也就是进行单因素方差分析,并且在分析中产生R和R2,其检验的假设是因变量平均值是第一层自变量值的线性函数。只有在控制变量有基本的数量级(如自变量表示年龄或人种,不能是房屋颜色或居住城市等),且自变量有3个水平以上时方可使用。R和R2测度线性拟合的良好度,R是观测值与预测值之间的相关系数,R2是决定系数。如果第一层中有多个因变量,则SPSS只对最后一个因变量计算R和R2。
下面以数据文件“house.sav”为例对平均值过程的操作及结果进行说明,使读者更加直观地了解平均值过程的功能及对其结果的分析。
I 操作步骤
(1)在数据管理窗口中打开“house.sav”数据文件,如图4-3所示。
图4-3 “house.sav”的数据
(2)在主菜单栏中的“分析”菜单中选择“比较平均值”菜单,然后单击“平均值”按钮,即可打开“平均值”主对话框。
(3)在“平均值”对话框的左侧变量列表中选中price变量和sale变量,单击
按钮将其移入“因变量列表”框中,并将district变量移入“自变量列表”框。然后单击“选项”按钮打开“平均值:选项”对话框,如图4-4所示。
图4-4“平均值:选项”对话框
(4)在“平均值:选项”对话框中选择需要分析的统计量,本例在“单元格统计”中,选中平均值、个案数、标准差、最小值和最大值5个统计量。然后单击“继续”按钮,确认选择并返回“平均值”主对话框。
(5)在“平均值”主对话框中单击“确定”按钮完成设置并执行操作。
II 输出结果及分析
有了前一章的基础,本章对“平均值”分析结果的解读就变得相对简单了。表4-1是数据摘要表。
表4-1 数据摘要表
表4-1是我们早已熟悉的观测量摘要表,说明了观测量总个数为21,其中有效值为21个,无缺失值。
表4-2分为5个部分,分别对城中心、卫星城、近郊区、远郊区的“标价”变量和“最终出售价格”变量进行了平均值、个案数、标准差、最小值和最大值5个统计量的分析,第5部分为总计,对所有的观测量就5个统计量进行分析。
表4-2 平均值过程分析报告
续表
从表4-2可以看出,就平均值而言,城中心为3 250,卫星城为2 064,近郊区为1 891.67,远郊区为1 768,而总体的平均值为2 226.67,从这些数据可以看出4个地段房价的差距。表4-2中还有最终出售价格变量的平均值、标准差、最小值、最大值的统计分析数据,此处不再一一讲解。
4.2.2小节讲到,在平均值过程中可以选择分层变量对变量进行分层分析,但本例中没有用到这一方法,读者可自行练习,并尝试对结果进行分析。对于本例中没有涉及的平均值过程的其他功能,读者也可以选择相应的例子自行练习,以更好地掌握平均值过程。
平均值过程语句是调用平均值过程的语句,下面分别介绍语句的标准格式、语法说明及举例。
I 标准格式
除了完全窗口管理,还可以使用命令语句和子命令调用平均值过程,便于高级用户的操作。平均值过程的命令格式可以简化如下。
具体的语法语句如下。
“/”后面的是子命令,“[]”中的子命令是可以选择的。子命令中的选择项分为两类:使用“[]”括起来的是可以并列选择的,即可以同时选择若干个在[]中的选择项;使用“{}”括起来的选择项只能选择其一。
II 语法说明
(1)平均值语句。平均值语句可以在该语句中指定因变量和作为自变量的分类变量,也可以使用子命令形式指定因变量和自变量。
①TABLES=varlist形式。这是指定因变量的方式,可以使用“TABLES=”,也可以省略,直接在平均值关键字后面列出因变量的变量表,至少指定一个因变量。
BY后面的自变量必须是分类变量,平均值过程按BY变量的值分组对因变量进行分析。每个BY分语句定义一个控制层,所以必须有至少一个BY分语句。一个控制层可以指定若干个分类变量作为层控制变量,有几个BY分语句就有几个控制层。控制层数(BY分语句数目)和每层中的分类变量数目,以及每个分类变量的水平数决定观测量如何分组。
②“/”形式。为平均值语句提供因变量表和BY变量的另一种方法是使用子命令方式,即在“/”后面直接列出因变量表,并且紧接着“BY”后面列出各层的分类。
(2)MISSING子命令。平均值过程的自变量是缺失值的,作为该自变量的一个水平单分一组给出统计量。
使用MISSING子命令指定处理因变量缺失值的方法,共有3个选择项。
①TABLE项。系统默认的对缺失值的处理方法,对于任意一个变量带有缺失值的观测都从分析中剔除,这样,包括在表中的每个观测都有一个对所有变量来说非缺失值的全集。当使用“/”分割一个表时,缺失值对每个表分别处理。
②INCLUDE项。该项将用户定义的缺失值当作合法值处理,参与分析的因变量列表项仅对因变量剔除用户缺失值,认为所有自变量缺失值都是合法的。
③DEPENDENT项:在任何因变量中含有缺失值的观测都将不被计算。
(3)单元格统计量S子命令。单元格统计量S子命令指定对由BY变量确定的分析单元计算哪些统计量,可供选择的统计量如下。
①DEFAULT:所有系统默认的统计量,包括平均值、标准差、单元内观测量数目。
②平均值:系统默认的统计值。
③STDDEV:标准差,系统默认的统计值。
④SUM:单元内的因变量值的总和。
⑤VARIANCE:单元方差,等于单元标准差之平方。
⑥MEDIAN:中位数。
⑦GMEDIAN:各组中位数。
⑧SE:平均值的标准误差。
⑨SUM:总和。
⑩MIN、MAX和RANGE:最小值、最大值和范围。
⑪KURT、SEKURT:峰度和峰度的标准误差。
⑫SKEW和SESKEW:偏度和偏度的标准误差。
⑬FIRST、LAST:各分组第一个和最后一个观测的因变量的值。
⑭NPCT:每组观测量数占总数的百分比[NPCT(var)]。
⑮SPCT:每组因变量总和占总和的百分比[SPCT(var)]。
⑯HARMONIC:调和平均数。
⑰GEOMETRIC:几何平均数。
⑱ALL:以上所有描述统计量。
⑲NONE:不计算描述统计量。
(4)统计量子命令。该子命令指定对第一层分类变量进行统计分析,可以指定以下选择项。
①ANOVA:对第一层变量进行单变量方差分析。
②LINEARITY:当第一层变量的水平数大于等于3时,对第一层变量进行线性度测度。指定此项,会给出因变量观测值与预测值之间的相关系数和对线性回归的方差分析的假设检验结果。
③ALL:选择以上两项分析。
④NONE:对第一层变量不做特殊分析。
⑤**:如果省略子命令,系统自动选择默认项进行分析计算,默认项标有双星且使用黑体字。
III 举例说明
以4.2.3小节的分析为例,程序如下。