SPSS统计分析与行业应用案例详解（第4版）最新章节_杨维忠著

2.3　实例3——探索分析

2.3.1　探索分析的功能与意义

SPSS的探索分析（Explore）是一种在对资料的性质、分布特点等完全不清楚的时候，对变量进行更加深入研究的描述性统计方法。探索分析除了具备一般的描述性统计指标外，还增加了数据文字与图形描述，从而有助于对数据进行更深入地研究分析。此外，相比数据描述性分析，探索分析还可以根据一定的方式分组进行统计。

2.3.2　相关数据来源

【例2.3】 表2.6给出了天津、济南两座城市2007年各月份的平均气温。试据此对天津平均气温和济南平均气温进行探索性统计分析，研究天津平均气温和济南平均气温的基本特征。

表2.6　天津、济南两座城市2007年各月份的平均气温（单位：摄氏度）

2.3.3　SPSS分析过程

本例中有3个变量，分别是月份、城市和平均气温。我们把城市定义为字符型变量，把月份和平均气温定义为数值型变量，并对变量城市进行值标签操作，用“1”表示“天津”，“2”表示“济南”，然后录入相关数据。录入完成后，数据如图2.11所示。

图2.11　案例2.3

数据保存后，开始展开分析，步骤如下：

进入SPSS 24.0，打开相关数据文件，选择“分析”|“描述统计”|“探索”命令，弹出如图2.12所示的对话框。

选择进行探索分析的变量。在“探索”对话框的左侧列表框中，选择“平均气温”并单击按钮使之进入“因变量列表”列表框，选择“城市”并单击按钮使之进入“因子列表”列表框，选择“月份”并单击按钮使之进入“个案标注依据”列表框。

选择是否输出统计描述或统计图。此处我们选中“两者”单选按钮。

选择输出相关描述统计量。单击“探索”对话框右上角的“统计”按钮，弹出如图2.13所示的对话框，在该对话框中可以设置相关描述统计量。我们选中全部复选框。设置完毕后，单击“继续”按钮返回“探索”对话框。

图2.12　“探索”对话框

图2.13　“探索：统计”对话框

“描述”复选框用于输出基本描述统计量，其中系统默认“平均值的置信区间”为95%。
“M-估计量”复选框用于输出4种权重下的最大似然数，其中Huber的方法比较适合接近于正态分布的数据，其余的方法比较适合数据中有较多极端值的情况。
“离群值”复选框用于输出5个最大值和最小值。
“百分位数”复选框用于输出5%、10%、25%、50%、75%、90%以及95%的百分位数。

设置统计图的输出。单击“探索”对话框中的“图”按钮，弹出如图2.14所示的对话框，可以设置有关的图形输出。在“箱图”选项组中选中“因子级别并置”单选按钮；在“描述图”选项组中选中“茎叶图”“直方图”复选框，然后选择输出带检验的正态图，并且在“含莱文检验的分布-水平图”选项组中选中“无”单选按钮。

选项设置。单击“探索”对话框中的“选项”按钮，弹出如图2.15所示的对话框，可以设置对缺失值的处理方法。选中“成列排除个案”单选按钮，即剔除变量中含缺失值的记录后再进行分析。单击“继续”按钮返回“探索”对话框。

设置完毕后，单击“确定”按钮，等待输出结果。

图2.14　“探索：图”对话框

图2.15　“探索：选项”对话框

2.3.4　结果分析

（1）数据记录统计表

从表2.7中可以读出以下信息：天津气温组共有12个样本，济南气温组也有12个样本，没有缺失值记录。

表2.7　记录统计表

（2）城市分组的各组描述统计量

从表2.8中可以看到各组的描述统计量，包括平均值、标准差、最大值、最小值、偏度等。

表2.8　描述统计量

（3）M估计量

M估计量可以用来判别数据中有无明显异常值。SPSS输出的M估计量有4种，分别是Huber、Tukey、Hampel、Andrews提出来的，其区别是使用的权重不同。从表2.9中可以看到4种不同权重下的最大似然数。容易发现，天津和济南平均气温的4个M估计量离平均数和中位数都很近，这就说明数据中应该没有明显的异常值。

（4）分组后的百分位数

百分位数是一种位置指标，它将一组观察值分为两部分，如百分位数5代表的值就表示理论上有5%的观察值比该值小，有95%的观察值比该值大。从表2.10中可以看到分组后的各个百分位数。

表2.9　M估计量