购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第一节
相关样本数据处理与描述

一 相关样本数据处理

本章采用CGSS2003年与CGSS2008年的样本数据。调查数据中难免出现缺失值,但是如果所需数据的缺失值比例较高时,则需要对其进行合理补充,如果采用直接删除观测记录的方法不仅会丢失大量的信息,还可能导致错误的结论。因此,在正式运用模型估算我国教育收益率前,首先需要检查整理CGSS2003年与CGSS2008年的数据,并对其进行缺失值分析。

(一)相关样本数据缺失值分析与补充

个人收入是估算教育收益率的关键变量。由于个人收入涉及受访者的隐私,对这一项数据的调查有时会存在缺失值。通过初步观察,我们发现在CGSS2003年与CGSS2008年的数据中该变量均存在一定比例的缺失值。

数据的缺失方式可分为完全随机缺失(missing completely at random,MCAR)、随机缺失(missing at random,MAR)、非随机缺失(missing at non-random,MANR)三种。完全随机缺失(MCAR)是指缺失现象完全是随机发生的,和自身与其他变量的缺失无关。这种情况下可以采取直接将缺失值删除的方式,不需要担心估计的偏差,这样做的缺点只是会损失一些数据信息,当然也可以采用均值替换等方法处理缺失值。数据的缺失是否为完全随机缺失,不仅可以通过观察数据缺失与未缺失样本的其他信息的分布来判断,也可以使用单变量t检验或Little’s MCAR多变量检验方法来规范评估。随机缺失(MAR)的情况要严重些,也更加常见,变量缺失情况的发生与其他无缺失变量的取值有关。这时,缺失值不仅会引起信息缺失,还可能导致分析结果的不可信。非随机缺失(MANR)是指数据的缺失不仅和其他变量的取值有关,还与自身有关。这种情况不普遍,在现实调查中很难遇到,然而一旦发生,则没有适合的缺失值处理方法可以应用(杜强,2009)。

SPSS提供的缺失值处理方法有成列删除(listwise)、成对删除(pairwise)、回归估计(regression estimation)与最大期望算法(expectation-maximization,EM)。成列删除方法只使用数据完整的记录进行分析,即分析变量时有任何一个缺失值,该记录均不进入分析;成对删除方法只有在具体计算过程中用到变量含缺失值时,该记录才不进入当前分析;回归估计即使用多元线性回归算法估计缺失值;最大期望算法是运用迭代方法估计缺失值,包含E步骤与M步骤两步(杜强,2009)。

成列删除、成对删除和回归估计缺失值处理方法均假定数据的缺失方式为MCAR,即如果数据的缺失方式为MCAR,成列删除、成对删除、回归估计与EM都可以对缺失值做出一致与无偏的估计,但是EM的估算结果最优。如果数据的缺失方式不是MCAR,则只能选用EM法,否则会导致有偏的估计。EM法假定数据缺失的方式仅仅与观测到的数据有关,即MAR缺失方式。

1.CGSS2003年样本数据缺失值分析与补充

CGSS2003年数据样本共计5894个,全部为城市样本。CGSS2003年数据中反映“个人收入”的变量有两项,分别是“个人去年全年总收入”与“上月收入”。由于“上月收入”不一定能完全客观反映出受访者每个月的平均收入,比如可能不包含年终奖、分红、津贴等收入项目,因此选用“个人去年全年总收入”数值作为模型中的“Y”值更为准确。初步观察发现样本数据中“个人去年全年总收入”变量存在一定比例的缺失值,为避免估计的偏差,需要对其进行分析处理。首先检查整理“个人去年全年总收入”数据存在缺失值的记录,如果某一受访者的“个人去年全年总收入”数据缺失而“上月收入”数据存在的话,则暂时用“上月收入×12”来对该受访者的“个人去年全年总收入”值进行补充。

检查整理完毕后再进一步对“个人去年全年总收入”数据进行缺失值分析。

影响“个人去年全年总收入”的关键定量变量为“受教育总年限”与“工作年限”。将“个人去年全年总收入”、“受教育总年限”与“工作年限”三项数据的缺失值进行简单统计分析得到的结果如表4-1所示。从表4-1缺失值分析结果可以看出,Y(“个人去年全年总收入”)的缺失值在用“上月收入×12”补充后还存在缺失值554个,占到了样本总量的9.4%。

表4-1 Y总体缺失比例(CGSS2003年)单变量统计

CGSS2003年数据将“最高受教育程度”主要细分为11类,分别是:0=“未受过正式教育”,1=“小学”,2=“初中”,3=“高中”,4=“职高、技校”,5=“中专”,6=“大专(非全日制)”,7=“大专(全日制)”,8=“本科(非全日制)”,9=“本科(全日制)”,10=“研究生及以上”。首先从不同受教育程度样本中Y缺失值所占的比例来初步看Y的缺失方式(见表4-2)。

表4-2 不同受教育程度样本Y缺失比例(Edu,CGSS2003年)

从表4-2对不同受教育程度样本中Y缺失值比例的描述统计分析结果可以看出,不同受教育程度受访者的“个人去年全年总收入”数据中缺失值所占的比例差异较大,最高受教育程度为“中专”的样本中Y缺失值所占比例最低,为4.0%,“研究生及以上”受访者的Y缺失值所占比例最高,达到23.3%。

其次对不同性别之间的Y缺失值进行描述统计分析,结果如表4-3所示。从表4-3的统计分析结果可以看出,不同性别样本中Y缺失值所占的比例之间也不平衡,其中男性样本中的缺失值比例为6.8%,女性样本中的缺失值比例为11.8%,相差了5个百分点。从不同受教育程度之间与不同性别之间的“个人去年全年总收入”缺失值所占比例的显著差异可以初步推测“个人去年全年总收入”数据的缺失方式不是完全随机缺失。

再次进一步用EM法对Y缺失值进行分析。 选择总体的分布形式为正态分布,最大迭代次数指定为“25”。EM法分析结果如表4-4、表4-5和表4-6所示。

表4-3 不同性别样本Y缺失比例(sex,CGSS2003年)

表4-4 EM均值 a (CGSS2003年)

表4-5 EM协方差 a (CGSS2003年)

表4-6 EM相关性 a (CGSS2003年)

表4-4、表4-5和表4-6下面的说明反映了数据缺失方式是否为MCAR方式的假设检验结果。零假设是数据的缺失方式为完全随机缺失,卡方检验结果显示显著性水平值(Sig值)低于0.01,在1%水平上表现出显著,拒绝零假设。因此可以判断出CGSS2003年数据中Y的缺失方式不是完全随机缺失。在这种情况下如果运用成列删除、成对删除和回归估计的方法处理缺失值都将会引起偏差,因此选择EM法对Y的缺失值进行补充,并将缺失值补充结果存入原数据表中。

2.CGSS2008年样本数据缺失值分析与补充

CGSS2008年数据样本量共计6000个,其中包含城市样本与农村样本。CGSS2008年数据中有关“个人收入”的变量有两项,分别是“个人去年全年职业收入”与“个人去年全年职业外收入”,在这两个变量中均存在一定比例的缺失数据。首先将“个人去年全年职业收入”与“个人去年全年职业外收入”进行累计得出“个人去年全年总收入”,然后再进一步对累计得出的“个人去年全年总收入”进行缺失值分析与补充。

影响“个人去年全年总收入”的关键定量变量为“受教育总年限”与“工作年限”。将“个人去年全年总收入”、“受教育总年限”与“工作年限”三项数据的缺失值进行简单统计分析得到的结果如表4-7所示。可以看出Y(“个人去年全年总收入”)数据中的缺失值个数为786个,占到了样本总量的13.1%。

CGSS2008年数据将“最高受教育程度”主要细分为14类,分别是:1=“没有受过任何教育”,2=“私塾”,3=“小学”,4=“初中”,5=“职业高中”,6=“普通高中”,7=“中专”,8=“技校”,9=“大学专科(成人高等教育)”,10=“大学专科(正规高等教育)”,11=“大学本科(成人高等教育)”,12=“大学本科(正规高等教育)”,13=“研究生及以上”,14=“其他”。首先从不同受教育程度样本中Y缺失值所占的比例初步看Y的缺失方式,具体统计结果如表4-8所示。

表4-7 Y总体缺失比例(CGSS2008年)单变量统计

表4-8 不同受教育程度样本Y缺失比例(CGSS2008年)

从表4-8对不同受教育程度样本中Y缺失值比例的描述统计分析结果可以看出,不同受教育程度受访者的“个人去年全年总收入”数据中缺失值所占的比例差异较大,受教育程度为“技校”样本的Y缺失比例最低,为5.1%,受教育程度为“大学本科(正规高等教育)”样本的Y缺失比例最高,达到了19.1%。

其次对不同样本类型与不同性别之间的Y缺失值进行描述统计分析的结果分别如表4-9与表4-10所示。

表4-9 不同样本类型Y缺失比例(V3,CGSS2008年)

表4-10 不同性别样本Y缺失比例(A1,CGSS2008年)

从表4-9和表4-10的结果可以看出,城市样本与农村样本之间、男性样本与女性样本之间的Y缺失值所占比例也不平衡。城市样本中Y缺失值所占的比例为15.6%,农村样本中Y缺失值所占的比例为8.2%,相差7.4个百分点;男性样本中Y缺失值所占的比例为8.3%,女性样本中Y缺失值所占的比例为17.5%,相差9.2个百分点。从各类群体中Y缺失值所占比例的明显差异可以初步判断出Y数据的缺失方式不是完全随机缺失。

再次进一步运用EM法对Y缺失值进行分析。依然选择总体的分布形式为正态分布,最大迭代次数指定为“25”。EM法分析结果为表4-11、表4-12与表4-13所示。

表4-11 EM均值 a (CGSS2008)

表4-12 EM协方差 a (CGSS2008)

表4-13 EM相关性 a (CGSS2008)

表4-11、4-12与4-13下面的说明反映了数据缺失方式是否为MCAR方式的假设检验结果。零假设依然是数据的缺失方式为完全随机缺失,卡方检验结果显示Sig值低于0.01,在1%水平上表现出显著,拒绝零假设,因此CGSS2008数据中Y的缺失方式也不是完全随机缺失。在这种情况下运用成列删除、成对删除和回归估计的方法处理缺失值都将会引起偏差,故也采用EM法对Y的缺失值进行补充,并将缺失值补充结果保存进原数据表中。 dDp3VQQLWrJ89xlnSJHmm7A9/0DfEItK5D+XcxXT74cU7VvZrJMB6Uaj+Wxy1MOQ

点击中间区域
呼出菜单
上一章
目录
下一章
×