本节主要讨论内生性问题,包括有关概念、后果、检验方法及处理方法等。
对于模型
Y = Xβ + u
强外生性意味着
E [ u |X ] = 0,
或者
E [ u i | x 1 , x 2 ,…, x n ]= 0 i = 1,2,…, n ;
其中 x i 是矩阵 X' 的第 i 列,即所有解释变量的第 i 个观测值。
一般来说,条件均值 E ( u i | x 1 , x 2 ,…, x n )是x的函数。强外生性表明这个函数是取值为零的常数,即扰动项的变化与解释变量是独立的。另一方面,如果这个条件均值是常数但不为零,即 E ( u i | x 1 , x 2 ,…, x n )= μ ≠0,此时只需对模型扰动项稍做变动,新的扰动项仍然满足强外生性。这种情况只是影响了模型的截距项,对模型其他方面没有影响,外生性仍然成立。
根据期望迭代定理 E [ E ( u | X )]= E ( u ) ,由强外生性容易推出扰动项的无条件均值为零, E ( u i )= 0。更重要的是能推出各解释变量与扰动项不相关(或称为正交),即 E ( x j u i )= 0 ( i , j = 1,2,…, n ) ,或cov( x j , u i ) =0( i , j = 1,2,…, n ) 。这是因为
E ( x j u i )= E [ E ( x j u i | X )]= E [ x j E ( u i | X )]= 0
cov ( x j , u i )= E ( x j u i ) - E ( x j ) E ( u i )= 0
上述两式由强外生性推出,称为弱外生性,也就是通常说的外生性。它表明解释变量与扰动项不相关,这是获得一致估计量的重要前提。
如果外生性假定被违背,即 E ( x j u i )≠ 0,解释变量与扰动项相关,那么模型存在内生性问题。与扰动项相关的解释变量称为内生解释变量。此时最小二乘估计量是不一致的估计量。
如果模型中某个解释变量不满足外生性条件,则该变量为内生解释变量。此时模型具有内生性(Endogeneity)。检验某个解释变量是否是内生变量,称为内生性检验( Testing for Endogeneity),常用的检验是豪斯曼检验( Hausman)。
Hausman(1978)检验的基本思想是比较两种不同估计方法估计结果的差异大小,比如解释变量系数的OLS估计和两阶段最小二乘法(2SLS)估计量大小。如果待检验的变量确实是外生的,则解释变量系数的OLS和 2SLS估计量差值仅取决于抽样误差,差异不会太大;如果两类估计量差值过大,则拒绝外生性,认为存在内生性问题。这是因为如果存在内生性, OLS是不一致的估计,而 2SLS估计量是一致估计(后证)。
Hausman检验的原始表述是基于不同估计方法结果差异的比较,对于不同的模型或问题有各自的计算公式。一种简单易行又常用的方法是基于线性模型回归结果完成此检验,且该种做法与原始Hausman检验是渐进等价的。这种做法也适用于非线性模型。
在此我们介绍基于线性回归结果的Hausman内生性检验。先假设模型中有一个可能的内生解释变量,然后可以扩展到多个内生解释变量检验问题。
设
y 是因变量; x 是可能的内生解释变量,即 E ( xu ) ≠0; z 1 是 1 × L 1 的解释变量(包含截距项),是外生的; u 是扰动项; β 和 α 1 是系数(向量)。假设与模型问题有关的所有可能的外生变量为 z (1 × L ), z 1 是 z 的一个子集。模型满足假定
E ( z'u ) = 0
我们要检验的原假设是 x 是外生变量,备择假设是 x 是内生变量。思路步骤如下:
将 x 对z线性投影(辅助回归)
因为 u 与z不相关,那么如果 x 是内生的,即 x 与 u 相关,则有 E ( uν )≠0,从而内生性检验转化为两个扰动项是否相关。
u对ν的线性投影为
其中 ρ = E ( uν ) / E ( ν 2 ), E ( eν )= 0, E ( z'e ) = 0。因此,如果 x 是外生的,必有 ρ = 0。将式(3.15)带入式(3.13)得
用OLS估计(3.16),使用标准的t检验来检验H 0 : ρ = 0。但由于 ν 不可观测,所以实际操作中,使用式(3.14)的残差项作为 ν 的估计。如果同方差假定满足,即 E ( u 2 | z 1 , x ) = σ 2 ,则 的OLS估计结果的t检验在H 0 成立条件下是有效的。如果是异方差,则需要使用异方差稳健t统计量检验(如White异方差一致估计)。
具体检验步骤如下:
第一, x 对所有外生变量z回归,生成残差序列,得到 ν 的估计 。
第二,将 加入原模型结构方程,估计该结构方程。
y = z 1 α 1 + βx + + e
第三,检验H 0 : ρ = 0:如果相应的t值很小,则接受原假设,表明 x 是外生的;如果t值较大,则拒绝原假设,表明 x 是内生的。
下面通过一个例子来说明具体的应用过程。
【例 3.2】检验女性工资方程中教育变量的内生性
log(wage) = δ 0 + δ 1 exper + δ 2 exper 2 + λ educ + u
exper和exper 2 是外生的,现怀疑educ有内生性。 educ的工具变量是父亲教育年限fatheduc、母亲教育年限motheduc和丈夫教育年限huseduc。
第一步, educ对所有外生变量:常数项 1、 exper、 exper 2 、 motheduc、 fatheduc、 huseduc回归,得到残差E;
第二步,将残差E作为一个解释变量加入结构方程中,
log(wage) = δ 0 + δ 1 exper + δ 2 exper 2 + λ educ + ρE + u
Stata操作及估计结果如图 3.4、图 3.5 和图 3.6 所示
图3.4 操作过程
图3.5 输出结果一
图3.6 输出结果二
输出结果二可看出, 的 t 统计量值为 1.83,在 10%显著性水平下,拒绝原假设,表明educ具有内生性,从而用OLS估计原模型存在问题。
如果模型存在内生性问题,我们应寻求适当的方法加以处理。
解决内生解释变量的基本做法是采用工具变量方法估计模型,基本思想是利用工具变量替代内生解释变量,然后用OLS估计模型。这一过程通常使用了两次OLS,因此称之为两阶段最小二乘法(2SLS)。
为了表述工具变量的概念,我们假设有如下模型:
y = β 1 + β 2 x 2 + …+ β k x k + u
x k 与扰动项 u 可能相关,而其他解释变量都是外生的。
采用工具变量方法,需要找到可观测的工具变量 z ,且工具变量需要满足两个条件:
① z 与误差项 u 不相关, cov ( z , u ) = 0;
② z 与 x k 高度相关。或者说 z 与 x k 存在偏相关(即扣除其他外生变量的影响后仍然是相关),也就是 x k 对包含所有外生变量的映射中,
x k = α 1 + α 2 x 2 + …+ α k- 1 x k- 1 + δz + ε
有 δ ≠ 0。
此即工具变量的定义。工具变量可以有多个,基本要求和做法与此类似。
下面继续通过上述的例子,说明工具变量及两阶段最小二乘法(2SLS)处理内生性的过程。
【例 3.3】(例 3.2 续)采用工具变量方法解决教育变量的内生性问题。
经过检验发现educ具有内生性,上例使用了父亲教育年限fatheduc、母亲教育年限motheduc和丈夫教育年限huseduc作为educ的工具变量。首先,这三个变量满足工具变量定义的第一个条件,即与原模型的扰动项不相关;接下来,考察第二个条件,即与内生解释变量的相关性(即工具变量检验)。为此需要估计及检验以下模型。
(1)估计模型educ = α 0 + α 1 exper + α 2 exper 2 + δ 1 motheduc + δ 2 fatheduc + δ 3 huseduc + ε 。
Stata操作及估计结果如图 3.7、图 3.8 所示。
图3.7 第 1 步操作过程
图3.8 第 1 步输出结果
(2)估计受约束模型educ = α 0 + α 1 exper + α 2 exper 2 + ε 。
Stata操作及估计结果如图 3.9 和图 3.10 所示。
图3.9 第 2 步操作过程
图3.10 第 2 步输出结果
(3)根据工具变量的第二个条件,要求 δ 1 、 δ 2 、 δ 3 至少一个不为零,即要检验原假设为H 0 : δ 1 = δ 2 = δ 3 = 0,采用线性约束F检验,
F = ~ F ( q , n - k )
Stata操作及结果如图 3.11 和图 3.12 所示。
图3.11 第 3 步操作过程
图3.12 第 3 步输出结果
拒绝原假设,表明第二个条件成立,即父亲教育年限fatheduc、母亲教育年限motheduc及丈夫教育年限huseduc是educ的(有效)工具变量。
于是进一步地,我们使用两阶段最小二乘法 2SLS处理内生性问题:
①生成educ的替代变量,即educ对所有外生变量回归,用educ的估计量 作为替代变量 z ;
②用 z ( )替代educ估计工资方程,
log(wage) = δ 0 + δ 1 exper + δ 2 exper 2 + δ 3 z + u
此即两阶段最小二乘法 2SLS的运用过程。
本例中, Stata操作及估计结果如图 3.13 和图 3.14 所示。
图3.13 使用 2SLS法操作过程
图3.14 输出结果
本例中,如果不采用 2SLS,而是直接用OLS估计该模型,则Stata操作及结果如图 3.15 和图 3.16 所示。
图3.15 使用OLS法操作过程
图3.16 输出结果
对 2SLS法与OLS法的估计结果进行比较,教育对工资影响的 2SLS估计的系数为 0.080,而OLS估计的系数为 0.107。虽均为显著,但相差较大(相差约 30%)。这从另一角度也说明模型存在内生性,此时更应认可 2SLS的估计结果,因为它是一致估计。
1.简单工具变量
考虑线性回归方程: y = β 1 + β 2 x 2 + …+ β k x k + ε
现在假设 x k 是内生的,也就是说, x k 与扰动项 ε 相关。在这样的情况下,OLS得到的参数估计量是有偏且不一致的。需要说明的是,此时参数估计的偏差不仅仅存在于参数 β k 上,而是所有的参数估计值都会受到影响。
矩阵形式的回归方程:
y = β 1 + β 2 x 2 + …+ β k x k + ε = Xβ + ε
仍然假设 x k 是内生的,如果可以找到一个工具变量 z 1 ,满足如下两条假定: E ( z 1 x k ) ≠ 0 以及 E ( z 1 ε )= 0,那么,可以定义 Z = ( x 1 , x 2 ,…, x k- 1 , z 1 ),其中 x 1= (1,1,…,1)'。方程两边左乘 Z' ,同取期望,有 β = [ E ( Z'X )] -1 E ( Z'Y )
以此得到参数估计量
称为工具变量估计量(IV)。它是一致估计量。这是因为:
= β + = β
但是,这样简单使用工具变量得到的估计量并不是无偏的(特殊的能得到无偏估计的情况是: x k 与其他外生变量无关,只和 z 1 相关)。而正确的做法是,将内生变量 x k 对所有的外生变量进行投影(回归),也就是按照如下公式计算:
x k = α 0 + α 1 x 1 + …+ α k- 1 x k- 1 + θz 1 + r k
只要系数 θ ≠ 0,该工具变量就是有效的。也就是说,必须保证 z 1 与 x k 是在扣除了其他外生变量的影响下,仍然是相关的。这样,根据回归得到了 x k 的估计值:
=
用估计出的 代替原来的 x k ,进行OLS估计,就可以得到产生的无偏估计。这实际上是将内生变量分成了内生部分和外生部分,通过投影得到外生的部分,然后进入回归方程。
2.多工具变量和两阶段最小二乘法(2SLS)
多工具变量是简单工具变量的一个扩展。当我们可以找到的工具变量不止一个的时候,我们可以提高对内生变量的拟合,得到一个更好的估计。另外,如果一个多元回归方程中含有的内生变量个数不止一个,那么我们就必须分别找到它们各自的工具变量。一般来说,工具变量的个数大于方程中内生变量的个数。每一个内生变量,都须对所有的外生变量(包括工具变量)进行投影,这样得到的参数估计才是一致的。
下面用一个具体的例子来说明。为了方便,我们仍然假设回归方程中只含有一个内生变量 x k :
y = β 1 + β 2 x 2 + …+ β k x k + ε = Xβ + ε
现在假设我们可以找到一组工具变量( z 1 , z 2 ,…, z L ),具体的做法是:
(1)将 x k 对所有外生变量(包括工具变量)进行回归:
x k = α 0 + α 1 x 1 + …+ α k- 1 x k- 1 + θz 1 + …+ θz L + r k += Zα + r k
其中 Z = ( x 1 ,…, x k- 1 , z 1 ,…, z L )
于是可以得到: = Z [( Z'Z )] -1 ( Z'x k )
同时,对每一个外生的 x i ( i ≠ k )也可进行如下的回归:
x i = α 0 + α 1 x 1 + …+ α k- 1 x k- 1 + θz 1 + …+ θz L + r i = Zα + r i ,
此时可以得到如下的结果: = Z [( Z'Z )] -1 ( Z'x i ) = x i ( i ≠ k )
(2)定义 =
有:
= Z ( Z'Z ) -1 Z'X
于是有两阶段最小二乘估计量的公式:
= =[( X'Z ( Z'Z ) -1 Z' )( Z ( Z'Z ) -1 Z'X )] -1 [ X'Z ( Z'Z ) -1 Z'Y ]
= [( X'Z ( Z'Z ) -1 Z'X )] -1 [ X'Z ( Z'Z ) -1 Z'Y ]
3.两阶段最小二乘法的性质
假设:
① 是一个有限、可逆的 L × L 维正定矩阵。
② 是一个有限的 L × K 的矩阵,并且该矩阵的秩是K。
③ 。
两阶段最小二乘 2SLS估计具有一致性。证明如下:
= [( X'Z ( Z'Z ) -1 Z'X )] -1 [ X'Z ( Z'Z ) -1 Z'Y ]
= β + [( X'Z ( Z'Z ) -1 Z'X )] -1 [ X'Z ( Z'Z ) -1 Z'ε ]
而 p lim [( X'Z ( Z'Z ) -1 Z'X )] -1 [ X'Z ( Z'Z ) -1 Z'ε ]
=
= =0
所以,
两阶段最小二乘法(2SLS)是一致估计,它是处理内生性问题重要而常用的方法。另一种常用的处理内生性问题的方法是广义矩估计(GMM),我们后续简要介绍。