



下载资源:\video\第2章\2.12
下载资源:\sample\数据2\儿童生长发育指标数据(有缺失值)
在整理数据资料时,经常会发现有的数据有缺失值。造成这种现象的原因可能是在统计数据时没有统计完整,也有可能是在加工数据的过程中出现了数据丢失。需要注意的是,此处所指的缺失值与前面介绍变量属性时提到的缺失值的概念完全不同。变量属性中的缺失值通常指的是出现了错误值或极端异常值,我们通常会对这些数据进行缺失值处理,而不会将这些数据纳入分析范围。此处所讲的缺失值指的是数据本身存在缺失,需要采取相应的技术将缺失值补充完整,以保证数据分析的连续性。SPSS中的缺失值替换功能针对含有缺失值的变量,使用系统提供的替换方法生成一个新的变量序列。操作步骤如下:
以“儿童生长发育指标数据(有缺失值).SAV”为例,首先打开数据文件,然后选择“转换|替换缺失值”命令,弹出“替换缺失值”对话框,如图2.93所示。
图2.93 “替换缺失值”对话框
从源变量列表框中选择含有缺失值且需要替换缺失值的变量,然后将其移至“新变量”列表框。“新变量”列表框中将显示形如“变量名_l=替代的估计方法简名(变量名)”格式的变量转换表达式。其中,“变量名”是所选变量的名称或它的前6个字符。本例中,y6变量存在缺失值,因此我们把y6从源变量列表框移至“新变量”列表框。
在“名称和方法”选项组中,“名称”文本框显示系统默认的变量名。重命名后需要单击“变化量”按钮确认。在“方法”下拉列表中,系统默认选择的是序列均值。如果系统默认的设置符合要求,直接单击“确定”按钮即可执行。系统将按照默认的估计方法计算出缺失值的估计值,并用它替代序列中的缺失值,替代后的时间序列将作为新变量的观测值显示在数据窗口内。如果希望使用其他估计方法来计算缺失值的估计值,可单击“方法”下拉列表,选择以下几种方法:
● 序列平均值:用整个序列有效数值的平均值作为缺失值的估计值。
● 邻近点的平均值:如果选择此方法,那么“邻近点的跨度”栏的两个单选按钮“数值”和“全部”会被激活。若选择“数值”,输入缺失值上下邻近点的数量,系统会将这些邻近点的有效数值的均值作为缺失值的估计值。若邻近点的点数不足,则缺失值保持不变。若选择“全部”,则用全部有效观测值的均值作为缺失值的估计值,效果与选择序列平均值相同。
● 邻近点的中间值:与邻近点的平均值方法相似,不过此方法将用缺失值上下邻近点指定跨度范围内的有效数值或全部有效数值的中位数作为缺失值的估计值。
● 线性插值:对缺失值之前的一个和其后第一个有效值,使用线性插值法计算缺失值的估计值。如果序列的第一个或最后一个观测值缺失,则不能采用这种方法。
● 邻近点的线性趋势:选择此方法时,系统会根据原序列,以序号为自变量,选择的变量作为因变量,进行线性回归分析,求出线性回归方程。然后,系统使用回归方程计算各缺失值处的趋势预测值,并用预测值替代相应的缺失值。在更改替代方法、数值等设置后,需要单击“更改”按钮以确认更改。
本例中,我们采用系统的默认设置。
设置完成后,单击“确定”按钮,提交系统执行。系统将按照默认的估计方法计算出估计值,用它替代序列中的缺失值,并将替代后的时间序列作为新变量的观测值显示在数据窗口内。如图2.94所示,数据视图中增加了y6_1变量,相较于y6变量,其所有的缺失值都得到了补充和完善。
图2.94 y6_1变量