SPSS统计分析从入门到精通（第5版）最新章节_杨维忠著

3.3　探索分析

3.3.1　探索分析简介

探索分析主要用于在数据的分布情况未知时，检验数据的特异值或输入错误，并获得数据的基本特征。SPSS的探索分析过程主要包括以下3种功能。

（1）通过绘制箱图和茎叶图等图形，直观地反映数据的分布形式，并识别输入的奇异值、异常值和丢失的数据。

（2）正态性检验：检测观测数据是否服从正态分布。

（3）等方差性检验：利用莱文检验检验不同组数据的方差是否相等。

3.3.2　探索分析的SPSS操作

打开相应的数据文件或者建立一个数据文件后，即可在SPSS Statistics数据编辑器窗口中进行探索分析，其过程如下：

（1）在SPSS Statistics数据编辑器窗口的菜单栏中选择“分析”|“描述统计”|“探索”命令，打开如图3-17所示的“探索”对话框。

（2）选择变量。从源变量列表框中选择需要分析的目标变量，然后单击按钮将选中的变量选入“因变量列表”列表框中；从源变量列表中选择分组变量，然后单击按钮选入“因子列表”列表框中；从源变量列表框中选择标注变量，单击按钮选入“个案标注依据”列表框中。

图3-17　“探索”对话框

因变量列表：该列表框中的变量为探索分析过程中需要分析的目标变量，变量的属性一般为连续型变量或比率变量。

因子列表：该列表框中的变量为“因变量列表”中目标变量的分组变量，就是对所需要分析的目标变量进行分组表示，该变量的属性可以是字符型或数值型，但是一般变异较少。

个案标注依据：一般对输出异常值时，用该变量进行标识，有且只有一个标识变量。

如将图3-17中的源变量分别选入“因变量列表”“因子列表”“个案标注依据”列表框中，如图3-18所示。

（3）进行相应的设置。

1．“统计”设置

单击右侧的“统计”按钮，弹出如图3-19所示的“探索：统计”对话框。该对话框用于设置需要在输出结果中出现的统计量，其中包含4个复选框，具体如下：

图3-18　选入各个变量

图3-19　“探索：统计”对话框

“描述”复选框：选中该复选框，表示输出一些描述性分析中的基本统计量，如均值、标准差、范围等，该复选框还包括一个“平均值的置信区间”文本框，要求设置均值的置信区间的范围，可以选择1%~99%中的任意一个，但系统默认的是95%的置信区间。

“M-估计量”复选框：选中该复选框，表示输出4种均值的稳健极大似然估计量，包括稳健估计量、非降稳健估计量、波估计值、复权重估计量，一般在样本数据非正态分布时，如金融时间序列数据的尖峰厚尾分布，用稳健极大似然估计量计算的均值更有稳健性。

“离群值”复选框：选中该复选框，表示输出变量数据的前5个最大值和后5个最小值。

“百分位数”复选框：选中该复选框，表示输出变量数据的百分位数。

2．“图”设置

单击右侧的“图”按钮，弹出如图3-20所示的“探索：图”对话框。该对话框中包含3个选项组和1个复选框：

图3-20　“探索：图”对话框

“箱图”选项组：该选项组用于对箱图的参数进行设置，包括3个单选按钮：“因子级别并置”表示多个因变量箱图将按照因变量的个数分别显示；“因变量并置”表示多个因变量箱图将不按照因变量的个数分别显示，而是一起显示在一个框图里面；“无”表示将不显示因变量的箱图。

“描述图”选项组：该选项组用于对统计图表进行设置，包括两个复选框：“茎叶图”表示将按照因变量输出相应的茎叶图；“直方图”表示将按照因变量输出相应的直方图。

“含莱文检验的分布-水平图”选项组：该选项组用于对数据转换的散布水平图进行设置，可以显示数据转换后的回归曲线斜率和进行方差齐性的莱文检验，包括4个单选按钮：“无”表示将不输出变量的散布水平图；“幂估算”表示对每一个变量数据产生一个中位数的自然对数和四分位数的自然对数的散点图，还可以对各个变量数据方差转化为同方差所需要幂的估计；“转换后”表示对因变量数据进行相应的转换，具体的转换方法有自然对数变换、1/平方根的变换、倒数变换、平方根变换、平方变换、立方变换；“未转换”表示不对原始数据进行任何变换。

“含检验的正态图”复选框：选中该复选框，可以输出变量数据的正态概率图和离散正态概率图，同时输出变量数据经过Lilliefors显著水平修正的柯尔莫戈洛夫-斯米诺夫统计量和夏皮洛-威尔克统计量。

3．“选项”设置

单击右侧的“选项”按钮，弹出如图3-21所示的“探索：选项”对话框。该对话框用于对缺失值进行设置，设置方法有3种：

图3-21　“探索：选项”对话框

“成列排除个案”表示只要任何一个变量含有缺失值，就要剔除所有因变量或分组变量中有缺失值的观测记录。

“成对排除个案”表示仅仅剔除所用到的变量的缺失值。

“报告值”表示将变量中含有的缺失值单独作为一个类别进行统计并输出。

设置完毕后，单击“继续”按钮，返回“探索”对话框。单击“确定”按钮，就可以在SPSS Statistics查看器窗口得到所选择的变量探索性分析的结果。

3.3.3　实验操作

下面以数据文件“3-3”为例，说明探索分析的具体操作过程。

1．实验数据描述

数据文件“3-3”记录了两个班级学生的数学成绩、语文成绩，以此数据文件为例，利用探索分析该数据文件中的数学和语文成绩的最大值、最小值、众数、平均数等，并检验样本数据的正态性。原始Excel数据文件如图3-22所示。

在SPSS的变量视图中建立变量“id”“Math”“CHINESE”和“SEX”，分别表示学生班级、数学成绩、语文成绩和性别，在“id”变量中将“一班”和“二班”分别赋值为“1”和“2”；在“SEX”变量中将“男”和“女”分别赋值为“1”和“0”，如图3-23所示。

图3-22　数据文件“3-3”的原始数据

在SPSS活动数据文件的数据视图中，把相关数据输入到各个变量中。输入后部分数据如图3-24所示。

图3-23　数据文件“3-3”的变量视图

图3-24　数据文件“3-3”的数据视图

2．实验操作步骤

打开数据文件“3-3”，进入SPSS Statistics数据编辑器窗口，然后在菜单栏中选择“分析”|“描述统计”|“探索”命令，打开“探索”对话框。

将变量“Math”选入“因变量列表”列表框，将“SEX”选入“因子列表”列表框，将“班级”选入“个案标注依据”列表框。

单击“统计”按钮，在弹出的“探索：统计”对话框中选中“描述”复选框；单击“图”按钮，在弹出的“探索：图”对话框中选中“箱图”选项组的“因子级别并置”单选按钮、“描述”选项组的“茎叶图”复选框以及“含检验的正态图”复选框。

在“探索”对话框中选中“输出”选项组的“两者”单选按钮，然后单击“确定”按钮就可以输出探索分析的结果。

3．实验结果及分析

单击“确定”按钮，SPSS Statistics查看器窗口的输出结果如图3-25~图3-31所示。

图3-25给出了探索分析中的变量样本数据的有效个数和百分比、缺失个数和百分比及总计个数和百分比。通过“个案处理摘要”可以看出本实验中无数据缺失。

图3-26给出了数学成绩按照性别分类的一些统计量，如均值、中值、方差、标准差等。通过该图可以看出女生数学成绩均值要比男生大，而女生数学成绩中值却小于男生的中值。

图3-27给出了因变量样本数据按照因子变量分类的正态性检验结果。列中“统计”表示检验统计量的值，“自由度”表示检验的自由度，“显著性”表示检验的显著水平。对本实验而言，正态检验的原假设是：数据服从正态分布。从“正态性检验”中柯尔莫戈洛夫-斯米诺夫统计量、夏皮洛-威尔克统计量可以看出，女生和男生的数学成绩的显著水平都大于5%，接受原假设，即都服从正态分布。