购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

3.5 探索性分析

探索性分析可以对变量进行更为深入详尽的统计分析,主要用于对数据的性质、分布特点等完全不了解时,检验数据是否有错误,获得数据的基本特征及对数据规律做初步的观察。

在常用描述性统计指标的基础上,探索性分析(探索)增加了有关数据详细分布特征的文字与图形描述,如茎叶图、箱形图等,更加详细、完整,还可以为以方差齐性为目的的变量交换提供线索,有助于用户制订进一步的分析方案。

3.5.1 主要功能

探索性分析在一般描述性统计指标的基础上,增加了有关数据其他特征的文字与图形描述,更加细致与全面,有助于用户思考对数据进行进一步分析。

该过程可以检查数据是否有错误、考察样本分布特征及对样本分布规律做初步考察。通常情况下,过大或过小的数据可能是奇异值或错误数据,对于这样的数据要找出并剔除,因为奇异值和错误数据往往对分析结果影响很大,导致不能真实掌握数据的总体特征。通过分析其原因,决定是否从数据文件中剔除或进行相关的处理。

样本分布特征对统计分析的重要性毋庸质疑,许多分析方法对数据的分布都有一定要求,如某些分析方法要求样本来自正态总体,对两组数据平均值差异性的分析需要根据其方差是否相同选择计算公式。另外,可以通过初步观察发现内在的一些规律,如两个变量是否有某种相关性。SPSS的探索性分析过程和其他过程(如Compare Means模块和Correlate模块的很多过程)都提供了常用的检验方法供用户选择。

探索性分析过程将提供在分组和不分组的情况下常用的统计量与图形,其结果一般以图形的方式将奇异值、非正常值、丢失的数据及数据自身的特点表示出来;探索性分析过程也可以用于确定奇异值、丢失值和进行假设检验。

探索性分析的因变量必须是定距型变量,分组变量可以是定序型或定类型变量。本节将讨论如何利用探索性分析过程通过各种图形及基本统计量等对数据进行初步的分析。

3.5.2 探索性分析操作步骤

在数据窗口建立或打开一个数据文件后,就可以进行探索性分析了。

按“分析”→“描述统计”→“探索”顺序即可打开“探索”对话框,如图3-16所示。

图3-16 “探索”对话框

打开数据文件后,从“探索”对话框左侧的源变量框中选择一个或多个变量(必须是数值型变量)进入右侧的“因变量列表”框作为因变量,此时单击“确定”按钮可以获得变量的一系列基本统计量和图形。

选择变量后,如果需要分组,则可以选择分组变量,分组变量实际上就是因变量。“因子列表”框中的变量即为分组变量,从左侧的源变量框中进行选择,可以是字符串型变量,对因变量将按该变量的观测值进行分组分析。可以有多个分组变量,这时会按多个变量的交叉组合进行分组。

“个案标注依据”框中的变量作为标识符,在输出异常值时,用该变量进行标识,如果该项缺选,系统会自动寻找“id”变量作为标签变量,一般只允许有一个标识符。

在如图3-16所示的对话框的左下方有“显示”选项组,该组中有3个选项,各个选项的意义如下。选中“两者”选项后,“统计”按钮和“图”按钮都加亮,表示可以同时输出基本统计量和图形;选中“统计”选项,则只有“统计”按钮加亮,表示只输出基本统计量;选中“图”选项,则只有“图”按钮加亮,表示只输出图形。

下面详细介绍“探索”对话框中的“统计”“图”“选项”3个选项。

I“统计”对话框

在“显示”选项组中选择“两者”或“统计”选项时,“统计”按钮被激活,单击该按钮,出现如图3-17所示的“探索:统计”对话框,在该对话框中可以选择要输出的统计量。

图3-17 “探索:统计”对话框

“描述”选项为系统默认选项,要求输出基本的描述性统计量,包括平均值、中位数、5%的调整均值、标准误差、极差、最大值、最小值、范围、四分位数、峰度和偏度及其标准误差等。选择该项时,需要在下方的“平均值的置信区间”参数框中输入1%~99%的任意值,根据该值算出置信区间的上下限,系统默认值为95%。

选中“M-估计量”复选框,表示进行M-估计,可以输出4种稳健极大似然估计量。长尾对称分布或数据有极端异常值时,利用稳健估计量估计总体均值要比样本均值或中位数有更好的稳定性。根据样本值的权重不同,可以得到不同的估计量,主要有4种,包括稳健估计量、非降稳健估计量、波估计量、复权重估计量。

“离群值”复选框,用于输出数据的离群点,将输出5个最大值和5个最小值,并在输出窗口中加以标明。

“百分位数”复选框用于输出百分数,包括5%、10%、25%、30%、75%、90%和95%的百分位数。

II“图”对话框

在“显示”栏中选择输出结果为“两者”或“图”选项时,“图”按钮被激活,单击该按钮,出现如图3-18所示的“探索:图”对话框。

图3-18 “探索:图”对话框

在该对话框中可以设置要输出的统计图形及其参数,包括3个主要选项组。

(1)“箱图”选项组用于设置所显示的箱图的参数。只有在主对话框中指定了不只一个因变量时,“箱图”选项组才有效。其中,“因子级别并置”选项表示不同分组的同一因变量显示在同一个箱图中,用于比较同一变量在分组变量值的不同水平上的分布情况;“因变量并置”选项表示在同一组的不同因变量显示在一个箱图中,用于比较同一分组水平下的不同变量的值的分布;“无”选项表示不显示任何箱图。

(2)“描述图”选项组用于设置图形描述选项,可以指定因变量值的图形,有两个单选项:“茎叶图”是系统默认的选择项,表示生成茎叶图;“直方图”表示生成直方图。

(3)“含检验的正态图”复选框表示输出正态概率和离散正态概率图,同时输出K-S统计量中的Liliefors显著水平检验,如果观测数目不超过20,将用W-S统计量代替K-S统计量。

III“选项”对话框

单击“探索”对话框右侧的“选项”按钮,打开如图3-19所示的“探索:选项”对话框。

图3-19 “探索:选项”对话框

在该对话框中只有“缺失值”一栏,用于设置对缺失值的处置方式。

(1)“成列排除个案”选项是默认选择项,选中该项表示在所有的分析中,剔除因变量或分组变量中带有缺失值的观测量。

(2)“成对排除个案”选项表示在分析过程中剔除当前分析中的缺失值个案。

(3)“报告值”选项表示将分组变量中的缺失值单独分为一组,输出频数时将标出缺失组。

3.5.3 案例二:探索分析身高数据

下面通过一个实例来详细介绍“探索”过程的功能和具体操作步骤,以便读者更直观地掌握探索性分析过程。

以数据文件“height_1.sav”为例,该数据文件包含某地城市和农村12岁儿童的身高数据各60例,下面利用“探索”过程进行数据分析。

I 操作步骤

按“分析”→“描述统计”→“探索”的顺序单击,即可打开如图3-16所示的“探索”主对话框。

选择“height”变量进入“因变量列表”框作为摘要变量,选择“area”变量进入“因子列表”框作为分组变量。

单击“统计”按钮,打开“探索:统计”对话框,选中“描述”“M-估计量”“离群值”“百分位数”复选框。然后单击“继续”按钮,确认选择并返回“探索”主对话框。

单击“图”按钮,打开“探索:图”对话框。选择“箱图”栏中的“因子级别并置”,选择将分组结果显示在同一张图上;选择“描述图”内的“茎叶图”复选框,输出茎叶图,同时选中“含检验的正态图”复选框,进行正态性检验。然后单击“继续”按钮,确认选择并返回“探索”主对话框。

在主对话框中单击“确定”按钮完成设置并执行探索性分析。

II 输出结果及分析

所有操作的语法命令语句如下。

执行上述操作后,生成了很多统计图表,下面按照SPSS的生成顺序逐一讲解其具体含义。

表3-6显示了数据的基本情况。本例中每组有效数据各60例,无缺失数据。

表3-6 观测量摘要表

表3-7输出的是描述性统计量。在本例中,由于利用变量“area”将数据分成两组,所以统计结果也分为两组输出。其中增加了数据的可信区间,以系统默认的95%置信度表示。

表3-7 身高的分组描述性统计量

续表

表3-8输出数据的M均值估计。上文中提到,在SPSS中根据权重系数的不同,提供了4种估计方法。表3-8下方的注释分别给出了4种方法的权重系数。如果由“探索”过程计算出来的均值和M均值有很大的差距,那么用户就应当注意数据中是否有异常值。

表3-8 M-估计量

a.加权常量为1.339

b.加权常量为4.685

c.加权常量为1.700、3.400和8.500

d.加权常量为1.340*pi

表3-9给出了分位点信息。其中Tukey's Hinges表示的是绘制箱图时所用的分位点数据,它的计算方法和一般的百分位数略有不同。

表3-9 分位点表

表3-10给出了两组数据的极值信息,通过该表可以快速查找异常值。

表3-10 极值表

续表

表3-11是正态性检验结果表。这里分别利用K-S检验和S-W检验两种方法来确定变量是否服从正态分布。其中,统计量代表检验统计量的值,df代表自由度,Sig.代表显著水平。一般来说,Sig.>0.05则代表接受原假设。由于表中两种方法的Sig.均大于0.05,因此接受变量服从正态分布的假设。

表3-11 正态性检验表

*.真显著性的下限

a.(里氏)显著性修正

表3-12是方差齐次性检验表,从上至下分别表示基于均值、中位数、中位数调整自由度,以及去掉极值的均值的检验结果。此时由Sig.大于0.05可以确认方差是齐次的。

表3-12 方差齐次性检验表

图3-20所示为地区1的身高茎叶图。茎叶图包括频数(Frequency)、茎(Stem)、叶(Leaf)3部分,茎是整数部分,叶是小数部分。Stem width表示茎宽,每行的茎和叶组成的数字再乘以茎宽,即得到实际数据的近似值,表示实际数据中有频数表示的多个值靠近该近似值。

图3-21、图3-22是地区1身高数据的Q-Q图和Q-Q去势图。从图形看,数据很好地服从了正态分布,这和表3-11得出的结论相吻合。

图3-20 地区1的身高茎叶图

图3-21 地区1身高数据的Q-Q图

图3-22 地区1身高数据的Q-Q去势图

图3-23是两个地区身高的箱图,由于前面在“箱图”中选择的是“因子级别并置”选项,所以两个地区的箱图绘制在同一张图上。各部分的含义为方箱是箱图的主体,上下边为四分位数,中心粗线为中位数,变量的30%的观测值落在这一区域中;方箱上下两条纵向直线是触须线,触须线外的两端线为本体的最大值与最小值,本体指除离群值外的变量值;离群值用“∘”表示,“∘”旁的数据是该离群值的记录号。

图3-23 两个地区身高的箱图 IU0oQTVbWOTXJhNOurKJb8taelKdcCUkvL0aYmb94ws0zqCVKUX52BTwqXpY5ZCc

点击中间区域
呼出菜单
上一章
目录
下一章
×