在实证分析中,我们利用计量经济学模型和具有全国代表性的入户调查数据分别估计上述理论模型(基准模型和扩展模型)所预测的代际收入弹性,并比较两者的大小。为此,我们构建代际收入传递的基本回归模型和联立方程模型,分别代表忽略及考虑人力资本代际传递条件下的收入传递等式。其中,基本回归模型的表达式为:
(3-23)式是国外文献中估计代际收入传递弹性的常见回归形式(So-lon,2002;Jäntti et al., 2006)。 [1] 其中,y c 和 y p 分别代表子女与父亲的永久收入(permanent income),以各样本年的平均收入来衡量。edu c 和health c 分别代表子女的受教育水平(受正规教育的年限)和健康水准[分别使用身高、自评健康水平(self-reported health status)、是否肥胖(根据BMI计算)、是否有慢性病等指标来衡量]。根据经典的人力资本理论(Becker,1993),教育和健康是衡量个体人力资本积累最常用的可观测指标,因此edu c 和health c 综合代表了子女个体的人力资本水平。在以上回归中,y p 对 y c 的影响(即收入的代际传递)是基于理论模型(3-13)式得出的,而edu c 和health c 对y c 的影响(即人力资本对收入的内在影响)则对应理论模型(3-2)式所假定的子女收入决定机制。向量X代表个人及地区层面的控制变量,包含子女和父亲的各自年龄及其平方,子女的性别、婚姻状况、工作性质以及家庭所处的地区类别(城市/农村,沿海/内地),等等。由于以上基本回归模型未考虑人力资本的直接代际传递,因此(3-1)式可以由普通线性回归(OLS)得出。
在联立方程模型中,我们引入人力资本(健康和教育)的代际传递,并考察其对子女收入的影响。根据上节中扩展模型的理论推导,我们可以用以下联立回归方程表示收入、教育和健康在父辈与子辈之间的传递过程:
其中,(3-25)式和(3-26)式与扩展理论模型中(3-17)式所反映的人力资本传导机制相对应,分别刻画了父亲的教育对子女教育的影响以及父亲的健康对子女健康的影响,因此由(3-24)式至(3-26)式组成的联立方程同时反映了人力资本的直接传递效应和收入的代际流动性。考虑到社会经济变量的交互影响机制,尤其是被大量文献所证实的“收入—教育—健康”的交互作用(income-education-health gradient;Smith,2004),我们在教育和健康的回归方程中分别控制了其他重要的影响因素:在(3-25)式里,子女教育变量 edu c 不仅受到父亲受教育程度的影响,还与父亲的收入和自身健康水平相关,这是因为父亲的收入决定了其对子女的教育投资能力,从而间接影响子女的人力资本积累——这与扩展理论模型中的(3-17)式相吻合,同时也被 Taubman(1989)、Plug and Vijverberg(2005)等研究证实,很多文献也同样证明了个人健康水平与自身受教育程度有着紧密的联系(Behrman,1996; Glewwe et al., 2001);同样,在(3-26)式中,子女健康变量 health c 同时受到父亲健康(体现健康人力资本的直接代际传递)、父亲收入(体现父辈对子辈健康人力资本的投资能力)和自身教育(体现“教育—健康”交互性)的影响。最后,(3-24)式至(3-26)式还控制了基本人口特征和地区差异的影响(用向量X表示)。
在该联立方程系统中,子女的教育和健康实际上具有双向因果关系,造成(3-25)式和(3-26)式出现内生性,即在(3-25)式中,E[ health
c
·v
t
]≠0,(3-26)式中,E[edu
c
·μ
t
]≠0。为了避免内生性带来的回归偏误,我们根据联立方程模型的特性,利用工具变量方法对以上两式进行识别。相应的估计策略如下所示:用(3-26)式中的 health
p
作为教育传递方程(3-25)式中health
c
的工具变量;用(3-25)式中的 edu
p
作为健康传递方程(3-26)式中edu
c
的工具变量;最后,将子女的教育和健康水平的估计值
代入(3-24)式,进而识别收入传递方程中 edu
c
、health
c
及其((他变量的系数[间接最小二乘(indirect least squares)估计]。值得注意的是,以上识别策略的有效性取决于工具变量的强度(power)和效度(valid-ity),前者表示工具变量(health
p
、edu
p
)与其对应的内生自变量(health
c
、edu
c
)的相关性,后者表示工具变量与内生自变量所在方程回归残差的非相关性。其中,代际健康指标和代际教育水平的相关性在文献中已被广泛印证(详见本章第一部分),同时我们也将利用工具变量一阶段回归中的F统计量检验该相关性是否成立。另外,工具变量的有效性则要求health
p
和edu
p
满足排除限制(exclusion restriction)条件,即在以上联立方程里不存在人力资本的交叉代际传递(即父亲的教育并不直接影响子女的健康,父亲的健康也不对子女的教育水平产生直接影响)。这一假设在文献中也有相应的证据:例如 McCrary and Royer(2011)用美国两个州的数据考察母亲受教育程度和婴儿出生时体重的关系,结果并未发现前者对后者存在显著影响;Lindeboom et al.(2009)用英国数据针对儿童体重、BMI、慢性病、急性病等多个健康指标进行了分析,均未发现交叉传导的证据。同时,我们还将在稳健性检验中对这一假定的合理性进行直接验证。
研究中所使用的数据来自中国健康与营养调查(CHNS)。CHNS 数据库是美国北卡罗来纳大学和中国预防科学医学院联合调查与创建的,涵盖我国9个省份(辽宁、黑龙江、江苏、山东、河南、湖北、湖南、广西和贵州)的追踪入户调查数据。该数据综合反映了城乡家庭的人口特征、教育与经济收入、健康与医疗保健等方面的信息。由于9个省份在地理位置、经济与社会发展水平以及人口特征等方面差别很大,因此数据具备较好的全国代表性。截至2010年 CHNS已进行了8次调查,分别是1989年、1991年、1993年、1997年、2000年、2004年、2006年和2009年。在每次调查中,CHNS采用分层次随机抽样的方法,依据加权采样模式对9个省份中的县市和家庭进行抽样。其中,家庭和个人问卷收集了受访者的人口学特征、社会经济地位、健康状况、营养摄入、医疗服务利用和支出等详细信息;社区问卷提供了当地(村或社区)的基础设施、医疗资源及保险覆盖等情况。
本研究使用上述数据1989—2009年中的成年人样本,基于问卷中有关家庭成员关系的信息,对所有家庭中的每一对父母子女关系进行匹配。样本时间跨度较长,因此能够全面反映改革开放后较长一段时期我国家庭代际关系的特征。由于接受高等教育的个体往往在25岁之后才会完成其全部正规教育并获得稳定收入,因此我们选择子女在25周岁及以上的样本。根据CHNS的亲属关系识别码进行父亲与子女关系匹配,同时剔除父亲或子女未取得收入以及收入数据缺失的观测值(考虑到农村地区较多妇女不参加工作,没有稳定收入,因此本章的代际收入弹性计算主要基于父亲与子女配对)。在此基础上剔除健康和教育等人力资本变量缺失的样本,并进一步剔除控制变量缺失的样本,最终得到1 364组观测值。其中,来自城镇的观测值占41.7%,子女为男性(儿子)的观测值占79.5%。表3-2集中汇报了样本的描述统计结果,主要变量的定义及样本特征详述如下。
表3-2 主要变量的样本描述统计
(续表)
注:(1)BMI=体重(kg)/身高(m) 2 ;(2)自评健康1—4分别代表差、一般、好和非常好;(3)慢性病包含高血压、中风、糖尿病、哮喘(医生诊断或自查)、心脏病等;(4)超重是指 BMI大于25;(5)子女实际收入以CHNS自带的平减指数折算至2009年;(6)农村和儿子两栏中的 * 分别代表在10%的水平上,该变量均值在农村—城镇组和儿子—女儿组中具有显著区别。
第一,收入。CHNS记录了家庭和个人的年度收入,其中个人收入包括商业、农业、渔业、牧业、林业、未退休工资、退休工资七个来源的净收入,不包括以家庭为单位的无法分配到个人的补贴,如生育补贴、健康补贴等。如果个人拥有某种来源的收入,但是其他种类收入数据缺失,CHNS会根据前后调查年度数据进行差值增补。考虑到样本量的问题,本章认可CHNS的官方差值增补,未删去这部分数据。另外,个人收入中某一部分可能有负数,这主要是农业净收入受到天气、农作物价格波动等因素的影响而可能出现负值,但考虑到个人的总收入很难出现负值,本章将总收入为负的个体作为异常值去除。同时,所有数据均以 CHNS 自带的平减指数折算为2009年价值,并取对数。另外值得注意的是,代际流动性理论所指的收入通常是两代人的永久收入,而无法观测的随机冲击将使个体在各年的收入与永久收入发生偏离,导致度量误差。为降低该度量误差产生的影响,我们参考经典文献(Solon,1992;Mazumder,2005)的做法,将父亲在各年中的收入观测值取平均数,从而平滑不同年份收入所受冲击的影响,并以此作为父亲永久收入的近似衡量指标。因为样本观测时段的限制,我们无法对子女收入做同样的处理,而是采用单次调查所得的年度收入。由于样本年龄段的子女已经完成学校教育,并且回归方程控制了年龄,因此可以认为收入的生命周期问题(即不同年龄段收入的波动性)得到了一定程度的控制;同时,子女收入作为回归的因变量,其度量误差并不会引发“经典变量误差”(classic error in variable)问题,因此不会造成回归系数的系统性偏误。如表3-2所示,样本中父亲收入的均值为9 062.4元,子女收入均值为8 943.3元。同时,无论是父亲收入还是子女收入,城镇居民均明显高于农村居民,这反映了城乡收入水平的显著差异。
第二,教育。CHNS询问了受访者的最高学历和相应学历完成所用的时间(正规教育年限)。该年限细化到小学以下、小学年级(1—6)、初中年级(1—3)、高中年级(1—3)、中专年级(1—3)及高等教育(大学、研究生)年级(1—6)。我们据此生成反映子女及父亲总体教育年限的变量cedu和fedu(二者均为连续变量)。从表3-2描述统计可知,样本子女的平均正规教育年限为9.949年,且城镇高于农村,两者分别是10.789年和9.347年,女儿略高于儿子,两者分别是10.136和9.900年,这反映了教育水平的城乡差异和性别差异。受到“文化大革命”等历史因素的影响,样本中父亲的平均教育年限仅为8.354年,远低于其后代的人力资本储备。同时,从描述性统计来看,父亲受教育程度的城乡差异比子女更高,分别为9.425年和7.587年。
第三,健康。CHNS对健康指标的记录较为全面,根据已有文献和数据质量,我们采用如下几个健康指标:①身高。身高作为营养和健康状况的衡量指标,已被卫生经济学和发展经济学研究者广泛采用,并较多应用于针对发展中国家人口健康状况的研究中(Strauss and Thomas,1998)。在我们的样本里,子女身高的均值为166.7厘米,比父亲平均高1.6厘米,反映了样本期间中国居民营养和健康状况的改善。②自评健康。CHNS在1997年、2000年、2004年、2006年、2009年
这五次调查中记录了受访者自评健康指数(与周围人群相比),该指数分为非常好、好、一般、差四个等级。
样本中子女的平均自评健康为2.912,略高于父亲(2.665);同时,认为自己身体差或非常好的子女的比例均小于父亲,而认为自己身体好或一般的子女比例大于父亲,反映了子辈健康状况改善并且分布更为集中的趋势。③是否超重。我们首先根据受访者的体测数据计算个人的身体质量指数(body mass index,BMI);BMI 作为衡量成年人的健康程度和超重情况的指标在全球被广泛应用。根据世界卫生组织(WHO)推荐的标准,BMI 大于25表示个体超重(包括肥胖)。如表3-2所示,样本中约有27.9%的子女和38.0%的父亲超重;同时,城镇居民的超重比例显著高于农村,这反映了我国城市人口日趋严重的肥胖问题和健康隐患。④是否有慢性病。对于慢性病指标的构建,我们参考解垩(2011),即如果被调查者曾患有高血压、中风、糖尿病、哮喘(医生诊断或自查),或者在过去四周中患有哮喘、心脏病、心口痛以及其他慢性病的,则被归为慢性病样本。表3-2显示,这类疾病的患病率在子女中为2.13 %,在父亲中则为21.2 %,并且在城镇地区中的患病率较高。在以上健康指标中,我们用身高作为衡量健康人力资本的主要变量,使用其他健康指标对结果进行稳健性检验。
第四,其他个人和地区层面变量:包括子女年龄、性别、婚姻状况、工作部门及所处地区等。表3-2的样本统计显示,子女的平均年龄为31.90岁(城乡样本年龄差别不大),符合 Haider and Solon(2006)及Bohlmark and Lindquist(2006)等文献所建议的近似计算子女永久收入的最佳年龄取值。在国有部门工作的父亲(包括政府和国有企业)占样本的42.4 %,城镇地区的比例高于农村地区,两者分别为45.3 % 和40.3 %。此外,回归控制了父亲的年龄(整个样本均值为60.41)、城镇居住情况(均值为41.7 %)以及是否生活在沿海地区(均值为41.0 %)。
[1] 国外很多对代际流动性的估计方程中不包含变量edu c 、health c 或X,为便于比较,我们在基本回归模型中尝试了不同控制变量的组合,具体结果见表3-2。