探索过程既可以为所有个案也可以分别为个案组生成汇总统计和图形显示,探索性分析主要有以下几个目的。
(1)对数据进行过滤和检查,能识别离群值、极端值、数据中的缺口或其他特性。
(2)验证数据的分布特征,如对数据正态分布和方差齐性进行检验,对不满足的数据提示转换方法。
(3)描述统计量,通过输出直方图、茎叶图、箱图等来描述个案组之间差异的特征。
(1)打开数据文件,选择“分析”→“描述统计”→“探索”,弹出“探索”对话框,如图4-11所示,各项含义如下。
●因变量列表:从左侧的变量列表中选择一个或多个变量进入其中。
●因子列表:从左侧的变量列表中选择一个或多个用于分组的变量进入其中。
●个案标注依据:从左侧的变量列表中选择一个变量进入其中作为标示变量。
●显示:用于选择输出的内容,有如下3个可选项。
两者:表示输出统计量和图,系统默认。
统计:表示只输出统计量。
图:表示只输出图。
(2)单击“统计”按钮,弹出“探索:统计”对话框,如图4-12所示,该对话框是用来选择统计分析量,各项含义如下。
●描述:用于输出基本描述统计量的置信区间,系统默认均值的置信区间为95%,用户也可以可指定其他置信度。
●M-估计量:用于输出4种权重下的最大似然数,分别是休伯M估计量、Tukey双权估计量、汉佩尔M估计量和安德鲁波估计量,是样本平均值和中位数的稳健替代值,用于估计位置。
●离群值:输出5个最大值和5个最小值。
●百分位数:用于输出第5个、第10个、第25个、第50个、第75个、第90个和第95个百分位的值。
图4-11 “探索”对话框
图4-12 “探索:统计”对话框
(3)单击“图”按钮,弹出“探索:图”对话框,如图4-13所示,该对话框是用来设置统计图的输出,各项含义如下。
●箱图
因子级别并置:对每一个分组变量,每一个图只显示一个因变量,系统默认。
因变量并置:对每一个分组变量,每一个图并排显示所有因变量,当不同的变量代表在不同的时间度量的同一个特征时,一般选择此项。
无:不显示箱图。
●描述性
茎叶图:用来描述频数分布,用来表示具体的变量值。
直方图:输出直方图。
●含检验的正态图:对数据进行正态分布检验,显示正态概率分布图和离散正态概率图。
●含莱文检验的分布-水平图
无:不做方差齐性检验,系统默认。
功效估算:用来求得最佳的幂转换值,为下面的幂变换方法做铺垫。
转换后功效:选择此项后,可在后面的选项框中可以选择自然对数、1/平方根、倒数、平方根、平方、立方进行转换。
未转换:不做转换,直接进行方差齐性检验。
(4)单击“选项”按钮,弹出“探索:选项”对话框,如图4-14所示,设置缺失值的处理方式,各项含义如下。
●成列排除个案:对每个观测单位,只要分析中用到的变量有1个缺失值,则将该观测单位剔除,不参与所有的分析,系统默认。
●成对排除个案:只有当前分析用到的变量中含缺失值时,才将该观测单位从当前分析中剔除。
●报告值:因子变量的缺失值被视为单独的类别,被单独分到一组进行分析,并输出相应的结果,被标记为缺失。
图4-13 “探索:图”对话框
图4-14 “探索:选项”对话框
实例三:“data04-03.sav”数据文件是一个公司474名员工一年的薪水资料,如图4-15所示。现要求利用探索分析对这个公司男女员工的薪水进行分析。
图4-15 “data04-03.sav”数据
(1)打开“data04-03.sav”数据文件,选择“分析”→“描述统计”→“探索”,弹出如图4-11所示的“探索”对话框。
(2)在左侧的变量列表中选中“薪水”变量,单击 按钮,将其选入“因变量列表”;选中“性别”变量,单击 按钮,将其选入“因子列表”;选中“编号”变量,单击 按钮,将其选入“个案标注依据”,在输出选项框中勾选“两者”选项。
(3)单击“统计”按钮,弹出如图4-12所示的“探索:统计”对话框,勾选“描述”、“M-估计量”、“离群值”和“百分位数”复选框,“描述”复选框后的均值的置信区间输入框中选择系统默认的95。单击“继续”按钮返回主对话框。
(4)单击“图”按钮,弹出如图4-13所示的“探索:图”对话框,勾选“因子级别并置”选项,“茎叶图”复选框、“直方图”复选框、“含检验的正态图”复选框、含莱文检验的分布-水平图选项框中勾选“未转换”选项。单击“继续”按钮返回主对话框。
(5)单击“选项”按钮,弹出如图4-14所示的“探索:选项”对话框,选择“成列排除个案”选项。单击“继续”按钮返回主对话框。
(6)完成所有设置后,单击“继续”按钮执行命令。
从表4-4可以看出女员工共216个样本,男员工共258个样本,没有缺失值。
表4-4 个案处理摘要
从表4-5可以看出女员工的平均薪水为26031.92,标准误为514.258,平均值的95%置信区间为(25018.29,27045.55),5%截尾平均值是排除掉数据首尾两端5%的变量值后得出的平均值,本例为25248.30,中位数为24300.00,标准差为7558.021,最小值为15750,最大值为58125,范围为42375,四分位距是25%的百分位数与75%的百分位数之间的距离,本例为7013,偏度为1.863,峰度为4.641,男员工的描述统计量同理。
表4-5 描述性
从表4-6可以看出M-估计量中休伯M估计量、Tukey双权估计量、汉佩尔M估计量和安德鲁波估计量,4个估计量的区别就是使用的权重不同,发现女员工和男员工的4个M估计量虽然离中位数较近,但是离平均值较远,说明数据中应该有异常值。
表4-6 M估计量
a..加权常量为1.339。
b.加权常量为4.685。
c.加权常量为1.700、3.400和8.500。
d.加权常量为1.340*pi。
百分位数就是将数值分成两部分,例如百分位数25代表的值就表示有25%的值比该值小,有75%的值比该值大,从表4-7可以得出本例的百分位数。
表4-7 百分位数(P)
从表4-8可以看出分组后女员工和男员工薪水的5个极大值和5个极小值。
表4-8 极值
从表4-9可以看出柯尔莫戈洛夫-斯米诺夫(Kolmogorov-Smirnov)方法和夏皮洛-威尔克(Shapiro-Wilk)方法检验的结果,显著性均小于0.05,说明女员工和男员工的薪水分布均不符合正态分布的假设。其中Shapiro-Wilk方法只有在对样本量小于50时比较精确。
表4-9 正态性检验
a.里利氏显著性修正
从表4-10可以看出男女员工间薪水不具有齐次性,因为显著性均小于0.05。
表4-10 方差齐性的检验
从图4-16可以得出女员工和男员工薪水的分布均呈正偏态。
图4-16 男女员工薪水分布的直方图
图4-17是茎叶图,图中“Frequency”表示的是变量值的频次,“Stem”表示的是变量值的整数部分,“Leaf”表示的是变量值的小数部分。变量值的具体计算方法是变量值=(茎+叶)*茎宽,如女员工薪水茎叶图第一行的变量值为15000=(1+0.5)×10000,第7行叶部分第13个数字为7,则变量值为27000=(2+0.7)×10000,本例茎宽(Stem Width)为10000。
图4-17 男女员工薪水的茎叶图
图4-18中所示的两种正态图,一种是标准的正态概率分布图,一种是离散的正态概率分布图。
标准的正态概率分布图是使用变量的实际观测值作为横坐标,变量的期望值为纵坐标,变量值为落点。图中的斜线表示正态分布的标准线,点表示变量值,变量值越接近于斜线,则变量值的分布越接近正态分布,本例中男女员工的薪水分布不符合正态分布。
离散的正态概率分布图是使用变量的实际观测值作为横坐标,以实际观测值与期望值的差作为纵坐标,如果数据符合正态分布,则图中的点应该分布于图中标准线的附近。在本例中可以男女员工的薪水分布不符合正态分布。
图4-18 男女员工薪水的正态图
图4-18 男女员工薪水的正态图(续)
图4-19所示的为箱图,箱子的上边线表示第75百分位数,下边线表示第25百分位数,中间的线表示中位数,箱子上下的两条细横线表示的是除离群值和极值的最大值和最小值。
离群值是指离箱子的上下边线的距离为箱子高度的1.5倍至3倍的变量值,本图中用“Ο”表示。极值是指离箱子的上下边线的距离为箱子高度的3倍以上的变量值,本图中用“☆”表示。
从图4-19可以看出男女员工的薪水都有一些离群值和极值存在,表明有员工的薪水明显高于普通员工。
图4-19 箱图