高等工程教育人力资本投资收益研究最新章节_范静波著

第一节
相关样本数据处理与描述

一相关样本数据处理

本章采用CGSS2003年与CGSS2008年的样本数据。调查数据中难免出现缺失值，但是如果所需数据的缺失值比例较高时，则需要对其进行合理补充，如果采用直接删除观测记录的方法不仅会丢失大量的信息，还可能导致错误的结论。因此，在正式运用模型估算我国教育收益率前，首先需要检查整理CGSS2003年与CGSS2008年的数据，并对其进行缺失值分析。

（一）相关样本数据缺失值分析与补充

个人收入是估算教育收益率的关键变量。由于个人收入涉及受访者的隐私，对这一项数据的调查有时会存在缺失值。通过初步观察，我们发现在CGSS2003年与CGSS2008年的数据中该变量均存在一定比例的缺失值。

数据的缺失方式可分为完全随机缺失（missing completely at random，MCAR）、随机缺失（missing at random，MAR）、非随机缺失（missing at non-random，MANR）三种。完全随机缺失（MCAR）是指缺失现象完全是随机发生的，和自身与其他变量的缺失无关。这种情况下可以采取直接将缺失值删除的方式，不需要担心估计的偏差，这样做的缺点只是会损失一些数据信息，当然也可以采用均值替换等方法处理缺失值。数据的缺失是否为完全随机缺失，不仅可以通过观察数据缺失与未缺失样本的其他信息的分布来判断，也可以使用单变量t检验或Little’s MCAR多变量检验方法来规范评估。随机缺失（MAR）的情况要严重些，也更加常见，变量缺失情况的发生与其他无缺失变量的取值有关。这时，缺失值不仅会引起信息缺失，还可能导致分析结果的不可信。非随机缺失（MANR）是指数据的缺失不仅和其他变量的取值有关，还与自身有关。这种情况不普遍，在现实调查中很难遇到，然而一旦发生，则没有适合的缺失值处理方法可以应用（杜强，2009）。

SPSS提供的缺失值处理方法有成列删除（listwise）、成对删除（pairwise）、回归估计（regression estimation）与最大期望算法（expectation-maximization，EM）。成列删除方法只使用数据完整的记录进行分析，即分析变量时有任何一个缺失值，该记录均不进入分析；成对删除方法只有在具体计算过程中用到变量含缺失值时，该记录才不进入当前分析；回归估计即使用多元线性回归算法估计缺失值；最大期望算法是运用迭代方法估计缺失值，包含E步骤与M步骤两步（杜强，2009）。

成列删除、成对删除和回归估计缺失值处理方法均假定数据的缺失方式为MCAR，即如果数据的缺失方式为MCAR，成列删除、成对删除、回归估计与EM都可以对缺失值做出一致与无偏的估计，但是EM的估算结果最优。如果数据的缺失方式不是MCAR，则只能选用EM法，否则会导致有偏的估计。EM法假定数据缺失的方式仅仅与观测到的数据有关，即MAR缺失方式。

1.CGSS2003年样本数据缺失值分析与补充

CGSS2003年数据样本共计5894个，全部为城市样本。CGSS2003年数据中反映“个人收入”的变量有两项，分别是“个人去年全年总收入”与“上月收入”。由于“上月收入”不一定能完全客观反映出受访者每个月的平均收入，比如可能不包含年终奖、分红、津贴等收入项目，因此选用“个人去年全年总收入”数值作为模型中的“Y”值更为准确。初步观察发现样本数据中“个人去年全年总收入”变量存在一定比例的缺失值，为避免估计的偏差，需要对其进行分析处理。首先检查整理“个人去年全年总收入”数据存在缺失值的记录，如果某一受访者的“个人去年全年总收入”数据缺失而“上月收入”数据存在的话，则暂时用“上月收入×12”来对该受访者的“个人去年全年总收入”值进行补充。

检查整理完毕后再进一步对“个人去年全年总收入”数据进行缺失值分析。

影响“个人去年全年总收入”的关键定量变量为“受教育总年限”与“工作年限”。将“个人去年全年总收入”、“受教育总年限”与“工作年限”三项数据的缺失值进行简单统计分析得到的结果如表4-1所示。从表4-1缺失值分析结果可以看出，Y（“个人去年全年总收入”）的缺失值在用“上月收入×12”补充后还存在缺失值554个，占到了样本总量的9.4%。

表4-1 Y总体缺失比例（CGSS2003年）单变量统计

CGSS2003年数据将“最高受教育程度”主要细分为11类，分别是：0=“未受过正式教育”，1=“小学”，2=“初中”，3=“高中”，4=“职高、技校”，5=“中专”，6=“大专（非全日制）”，7=“大专（全日制）”，8=“本科（非全日制）”，9=“本科（全日制）”，10=“研究生及以上”。首先从不同受教育程度样本中Y缺失值所占的比例来初步看Y的缺失方式（见表4-2）。

表4-2 不同受教育程度样本Y缺失比例（Edu，CGSS2003年）

从表4-2对不同受教育程度样本中Y缺失值比例的描述统计分析结果可以看出，不同受教育程度受访者的“个人去年全年总收入”数据中缺失值所占的比例差异较大，最高受教育程度为“中专”的样本中Y缺失值所占比例最低，为4.0%，“研究生及以上”受访者的Y缺失值所占比例最高，达到23.3%。

其次对不同性别之间的Y缺失值进行描述统计分析，结果如表4-3所示。从表4-3的统计分析结果可以看出，不同性别样本中Y缺失值所占的比例之间也不平衡，其中男性样本中的缺失值比例为6.8%，女性样本中的缺失值比例为11.8%，相差了5个百分点。从不同受教育程度之间与不同性别之间的“个人去年全年总收入”缺失值所占比例的显著差异可以初步推测“个人去年全年总收入”数据的缺失方式不是完全随机缺失。

再次进一步用EM法对Y缺失值进行分析。选择总体的分布形式为正态分布，最大迭代次数指定为“25”。EM法分析结果如表4-4、表4-5和表4-6所示。

表4-3 不同性别样本Y缺失比例（sex，CGSS2003年）

表4-4 EM均值 ^a （CGSS2003年）

表4-5 EM协方差 ^a （CGSS2003年）

表4-6 EM相关性 ^a （CGSS2003年）

表4-4、表4-5和表4-6下面的说明反映了数据缺失方式是否为MCAR方式的假设检验结果。零假设是数据的缺失方式为完全随机缺失，卡方检验结果显示显著性水平值（Sig值）低于0.01，在1%水平上表现出显著，拒绝零假设。因此可以判断出CGSS2003年数据中Y的缺失方式不是完全随机缺失。在这种情况下如果运用成列删除、成对删除和回归估计的方法处理缺失值都将会引起偏差，因此选择EM法对Y的缺失值进行补充，并将缺失值补充结果存入原数据表中。

2.CGSS2008年样本数据缺失值分析与补充

CGSS2008年数据样本量共计6000个，其中包含城市样本与农村样本。CGSS2008年数据中有关“个人收入”的变量有两项，分别是“个人去年全年职业收入”与“个人去年全年职业外收入”，在这两个变量中均存在一定比例的缺失数据。首先将“个人去年全年职业收入”与“个人去年全年职业外收入”进行累计得出“个人去年全年总收入”，然后再进一步对累计得出的“个人去年全年总收入”进行缺失值分析与补充。

影响“个人去年全年总收入”的关键定量变量为“受教育总年限”与“工作年限”。将“个人去年全年总收入”、“受教育总年限”与“工作年限”三项数据的缺失值进行简单统计分析得到的结果如表4-7所示。可以看出Y（“个人去年全年总收入”）数据中的缺失值个数为786个，占到了样本总量的13.1%。

CGSS2008年数据将“最高受教育程度”主要细分为14类，分别是：1=“没有受过任何教育”，2=“私塾”，3=“小学”，4=“初中”，5=“职业高中”，6=“普通高中”，7=“中专”，8=“技校”，9=“大学专科（成人高等教育）”，10=“大学专科（正规高等教育）”，11=“大学本科（成人高等教育）”，12=“大学本科（正规高等教育）”，13=“研究生及以上”，14=“其他”。首先从不同受教育程度样本中Y缺失值所占的比例初步看Y的缺失方式，具体统计结果如表4-8所示。

表4-7 Y总体缺失比例（CGSS2008年）单变量统计

表4-8 不同受教育程度样本Y缺失比例（CGSS2008年）

从表4-8对不同受教育程度样本中Y缺失值比例的描述统计分析结果可以看出，不同受教育程度受访者的“个人去年全年总收入”数据中缺失值所占的比例差异较大，受教育程度为“技校”样本的Y缺失比例最低，为5.1%，受教育程度为“大学本科（正规高等教育）”样本的Y缺失比例最高，达到了19.1%。

其次对不同样本类型与不同性别之间的Y缺失值进行描述统计分析的结果分别如表4-9与表4-10所示。

表4-9 不同样本类型Y缺失比例（V3，CGSS2008年）

表4-10 不同性别样本Y缺失比例（A1，CGSS2008年）

从表4-9和表4-10的结果可以看出，城市样本与农村样本之间、男性样本与女性样本之间的Y缺失值所占比例也不平衡。城市样本中Y缺失值所占的比例为15.6%，农村样本中Y缺失值所占的比例为8.2%，相差7.4个百分点；男性样本中Y缺失值所占的比例为8.3%，女性样本中Y缺失值所占的比例为17.5%，相差9.2个百分点。从各类群体中Y缺失值所占比例的明显差异可以初步判断出Y数据的缺失方式不是完全随机缺失。

再次进一步运用EM法对Y缺失值进行分析。依然选择总体的分布形式为正态分布，最大迭代次数指定为“25”。EM法分析结果为表4-11、表4-12与表4-13所示。

表4-11 EM均值 ^a （CGSS2008）

表4-12 EM协方差 ^a （CGSS2008）

表4-13 EM相关性 ^a （CGSS2008）

表4-11、4-12与4-13下面的说明反映了数据缺失方式是否为MCAR方式的假设检验结果。零假设依然是数据的缺失方式为完全随机缺失，卡方检验结果显示Sig值低于0.01，在1%水平上表现出显著，拒绝零假设，因此CGSS2008数据中Y的缺失方式也不是完全随机缺失。在这种情况下运用成列删除、成对删除和回归估计的方法处理缺失值都将会引起偏差，故也采用EM法对Y的缺失值进行补充，并将缺失值补充结果保存进原数据表中。

第一节 相关样本数据处理与描述

一 相关样本数据处理

（一）相关样本数据缺失值分析与补充

1.CGSS2003年样本数据缺失值分析与补充

2.CGSS2008年样本数据缺失值分析与补充

第一节
相关样本数据处理与描述

一相关样本数据处理