购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.3 实例3——探索分析

2.3.1 探索分析的功能与意义

SPSS的探索分析(Explore)是一种在对资料的性质、分布特点等完全不清楚的时候,对变量进行更加深入研究的描述性统计方法。探索分析除了具备一般的描述性统计指标外,还增加了数据文字与图形描述,从而有助于对数据进行更深入地研究分析。此外,相比数据描述性分析,探索分析还可以根据一定的方式分组进行统计。

2.3.2 相关数据来源

【例2.3】 表2.6给出了天津、济南两座城市2007年各月份的平均气温。试据此对天津平均气温和济南平均气温进行探索性统计分析,研究天津平均气温和济南平均气温的基本特征。

表2.6 天津、济南两座城市2007年各月份的平均气温(单位:摄氏度)

2.3.3 SPSS分析过程

本例中有3个变量,分别是月份、城市和平均气温。我们把城市定义为字符型变量,把月份和平均气温定义为数值型变量,并对变量城市进行值标签操作,用“1”表示“天津”,“2”表示“济南”,然后录入相关数据。录入完成后,数据如图2.11所示。

图2.11 案例2.3

数据保存后,开始展开分析,步骤如下:

进入SPSS 24.0,打开相关数据文件,选择“分析”|“描述统计”|“探索”命令,弹出如图2.12所示的对话框。

选择进行探索分析的变量。在“探索”对话框的左侧列表框中,选择“平均气温”并单击 按钮使之进入“因变量列表”列表框,选择“城市”并单击 按钮使之进入“因子列表”列表框,选择“月份”并单击 按钮使之进入“个案标注依据”列表框。

选择是否输出统计描述或统计图。此处我们选中“两者”单选按钮。

选择输出相关描述统计量。单击“探索”对话框右上角的“统计”按钮,弹出如图2.13所示的对话框,在该对话框中可以设置相关描述统计量。我们选中全部复选框。设置完毕后,单击“继续”按钮返回“探索”对话框。

图2.12 “探索”对话框

图2.13 “探索:统计”对话框

设置统计图的输出。单击“探索”对话框中的“图”按钮,弹出如图2.14所示的对话框,可以设置有关的图形输出。在“箱图”选项组中选中“因子级别并置”单选按钮;在“描述图”选项组中选中“茎叶图”“直方图”复选框,然后选择输出带检验的正态图,并且在“含莱文检验的分布-水平图”选项组中选中“无”单选按钮。

选项设置。单击“探索”对话框中的“选项”按钮,弹出如图2.15所示的对话框,可以设置对缺失值的处理方法。选中“成列排除个案”单选按钮,即剔除变量中含缺失值的记录后再进行分析。单击“继续”按钮返回“探索”对话框。

设置完毕后,单击“确定”按钮,等待输出结果。

图2.14 “探索:图”对话框

图2.15 “探索:选项”对话框

2.3.4 结果分析

(1)数据记录统计表

从表2.7中可以读出以下信息:天津气温组共有12个样本,济南气温组也有12个样本,没有缺失值记录。

表2.7 记录统计表

(2)城市分组的各组描述统计量

从表2.8中可以看到各组的描述统计量,包括平均值、标准差、最大值、最小值、偏度等。

表2.8 描述统计量

(3)M估计量

M估计量可以用来判别数据中有无明显异常值。SPSS输出的M估计量有4种,分别是Huber、Tukey、Hampel、Andrews提出来的,其区别是使用的权重不同。从表2.9中可以看到4种不同权重下的最大似然数。容易发现,天津和济南平均气温的4个M估计量离平均数和中位数都很近,这就说明数据中应该没有明显的异常值。

(4)分组后的百分位数

百分位数是一种位置指标,它将一组观察值分为两部分,如百分位数5代表的值就表示理论上有5%的观察值比该值小,有95%的观察值比该值大。从表2.10中可以看到分组后的各个百分位数。

表2.9 M估计量

表2.10 百分位数

(5)最大最小值(TOP5)

表2.11给出了分组后的5个最大值和最小值。

表2.11 最大值和最小值

(6)正态分布的检验结果

如表2.12所示,两组的显著性都很低,正态分布特征不明显。

表2.12 正态分布的检验结果

(7)直方图

两座城市平均气温的直方图如图2.16所示,容易发现,两组的各月平均气温都无明显集中趋势。

图2.16 直方图

图2.17 茎叶图

(8)茎叶图

如图2.17所示是两组数据的茎叶图。从左向右分别是频数、茎、叶三部分。其中茎代表数值的整数部分,叶代表数值的小数部分。由每行的茎叶构成的数字再乘以茎宽,则为实际数据的近似值。

(9)正态概率图

图2.18是天津气温的正态概率图,其中的斜线表示正态分布的标准线,点表示实际数据的分布,各点越接近于直线,则数据的分布越接近于正态分布。本例中分布拟合度不是很好,说明正态分布并不明显。

(10)去掉趋势的正态概率图

图2.19是去掉趋势的正态概率图。去掉趋势的正态概率图反映的是按正态分布计算的理论值和实际值之差(也就是残差)的分布情况。如果数据服从正态分布,数据点应该均匀地分布在中间标准线的上下。本例中,数据点的分布不仅不均匀,还存在着一定的波动趋势,所以正态分布特征不明显。

图2.18 正态概率图

图2.19 去掉趋势的正态概率图

(11)箱图

图2.20给出了天津气温和济南气温的箱图。其中箱为四分位间距的范围,所谓四分位距就是百分位数75代表的值减去百分位数25代表的值。中间的粗线表示平均数,上面和下面的细线分别表示最大值和最小值。

图2.20 箱图 VDOs6ShlpdQ0G/LiS7WmmKMbiBk3s3Jb3CiImxm4nW9jgz1qKHVvSRckvID3owHf

点击中间区域
呼出菜单
上一章
目录
下一章
×