模型设定是计量经济研究的重要环节。所设定的模型要正确地描述被解释变量与解释变量之间的真实关系。在第二章提出线性回归模型的基本假定时,除了对随机扰动项 u i 的假定以外,还强调假定模型对变量和函数形式的设定是正确的。但是在建模实践中,对模型的设定不一定能够完全满足这样的要求,从而会出现模型设定误差。本节主要讨论模型设定误差的类型、变量设定误差的后果、设定误差检验及变量选择,以及案例分析。
计量经济模型是研究者对经济变量间因果依存关系的设想,实际是对总体回归函数的某种设定。所设定的模型如果是个“正确”的模型,就能够比较好地表现被解释变量的基本特征和变化规律。反之如果模型设定是错误的,对被解释变量的基本特征和变化规律的刻画就会出现偏误。这种由模型设定而导致的偏误,在计量经济学中被统称为设定误差。从误差来源看,设定误差主要包括:①变量的选择设定误差,包括相关重要变量的遗漏(欠拟合)、无关变量的误选(过拟合);②模型函数形式的设定误差;③变量数据的测量误差;④随机扰动项设定误差。
若所设定的回归模型是“正确”的,主要任务是对所设模型参数的估计和假设检验。若检验统计量 R 2 、 t 、 F 和DW等在统计意义上是显著的,则模型的建模过程结束。反之,若这些统计量中的一个或多个不显著,我们就要寻找其他的估计方法进行参数估计和检验。例如,在加权和广义差分的基础上用最小二乘法解决异方差性或自相关性问题。但是如果对计量模型的各种诊断或检验仍不能令人满意,这时就应把注意力集中到模型的设定方面,考虑所建模型是否遗漏了重要的变量,是否包含了多余的变量,所选模型的函数形式是否正确,随机扰动项的设定是否合理,关于被解释变量和解释变量的数据收集是否有误差,等等。
出现设定误差的原因是多方面的。首先,数据来源渠道可能不畅。在建模过程中,尽管某个变量有着重要的经济意义和计量经济学解释作用,但这个变量的数据很难取得,而被迫将该变量排斥在模型之外,例如消费行为分析中消费者财富的变量就是例证。其次,虽然知道模型中应当包含哪些变量,但却不知道这些变量应当以什么确切的函数形式出现在回归模型中。也就是说,经济管理的基本理论并没有提示模型中变量的准确函数形式。例如,经济学理论不会肯定消费水平与有关变量的关系是线性的还是对数线性的,或者非线性的,或者某种混合形式的。最后,更为重要的是,事实上我们事先并不知道所研究的实证数据中所隐含的真实模型究竟是什么。正是上述这些原因,设定误差在建模中是比较容易出现的。设定误差的存在可能会对模型形成不良的后果。
变量设定误差主要有两类:一类是相关重要变量的遗漏,也称为模型“欠拟合”;另一类是无关变量的误选,也称为模型“过拟合”。从实质上看,变量设定误差的主要后果,是一个或多个解释变量与随机扰动项之间存在着相关性,从而影响参数估计的统计特性。
1.遗漏相关变量(欠拟合)的偏误
采用遗漏了重要解释变量的模型进行估计而带来的偏误,称为遗漏相关变量偏误。
比如,如果正确的模型应当为
其离差形式为 y i = β 2 x 2 i + β 3 x 3 i + u i
但是由于某种原因,设定模型时将变量 X 3 i 遗漏了,实际采用的回归模型为
假定其他有关线性模型的古典假设都成立,则式(3.19)中 α 2 的OLS估计量为
将正确模型(3.18)的离差形式代入上式,得
两边取条件期望,有
在小样本情况下,上式中的第二项求期望不会为零,表明OLS估计量 在小样本下有偏。为分析当样本容量无限增大时 的概率极限性质,对式(3.20)两边取概率极限(详细过程略),得
由此可以看出, X 3 的遗漏将产生以下后果:
(1)如果遗漏的 X 3 与 X 2 相关,则参数估计量 将是有偏且不一致性的,即
≠ β 2 , ≠ β 2 。
这是因为在(3.19)式中 v i = β 3 X 3 i + u i ,所以
Cov( v i , X 2 i | X 2 )= Cov ( β 3 X 3 i + u i , X 2 i | X 2 )
= Cov ( β 3 X 3 i , X 2 i | X 2 )+ Cov ( u i , X 2 i | X 2 )
上式中,虽然Cov ( u i , X 2 i | X 2 )=0,但Cov ( β 3 X 3 i , X 2 i | X 2 )= β 3 Cov( X 3 i , X 2 i | X 2 )≠ 0。OLS估计量 不仅在小样本下有偏,在大样本下式(3.20)第二项中的 也不会随着样本的增大而趋于零,表明OLS估计量 在大样本下也是不一致的,即有 。
同样可以证明,参数估计量 也是有偏且不一致性的,即 , 。
(2)若 X 3 与 X 2 不相关,即 , 满足无偏性和一致性,但可以证明这时截距项的估计 却是有偏的(证明略)。
(3) 的方差是 方差的有偏估计。对于式(3.19),已知
而对于式(3.18),有
如前所述, 是 β 2 方差的无偏估计,而如果漏掉的 X 3 与 X 2 相关, ≠ 0, ,故 是有偏的。
(4)遗漏 X 3 的式(3.19)中的随机扰动项 v i 的方差估计量 = RSS v / ( n - 2)将是有偏的,即 ;与方差相关的假设检验,包括区间估计等,都会导出错误的结论。
对从模型中遗漏变量时参数估计性质的认识,还有两点需要注意:
(1 )若 X 3 与 X 2 相关, ,显然 ,似乎有 。但实际情形并不完全如此。可以注意到,依据式(3.18)和式(3.19)分别计算的残差平方和 RSS ,由于自由度不同,估计结果是不等的。即RSS v / ( n - 2)≠RSS u / ( n - 3),或 。因此,有可能从式(3.19)估计得到的RSS v / ( n - 2)大于从式(3.18)估计得到的RSS u / ( n - 3)。
(2)若 X 3 与 X 2 不相关,有 = 0 和 = 0,似乎分别有 , 。若这两个等式成立,意味着尽管变量 X 3 在理论上分析是有关的变量,但从所选模型中略去似乎也不会导致什么危害。这种认识实际也不正确。因为 = = ,与 = = 不相等,即使 X 3 与 X 2 不相关,也有 ,致使假设检验的结果有可能是可疑的。况且,在大多数的实证经济研究中, X 3 与 X 2 通常都是相关的,更可能会产生上述后果。因此必须清楚,一旦根据相关理论把模型建立起来,再从中删除变量需要充分谨慎。
2.包含无关变量(过拟合)的偏误
模型中包括了不重要的解释变量,即误选了无关解释变量的模型进行估计而带来的偏误,称为包含无关变量偏误。
为讨论方程中包含了无关变量的情形,假设正确的模型是
而回归模型加入了无关变量 X 3 ,被设定为
可将式(3.21)视为式(3.22)的以 α 3 = 0 为约束的特殊形式。采用OLS法对式(3.22)进行参数估计,有
将式(3.21)的离差形式 y i = β 2 x 2 i + u i 代入式(3.23),并整理,得
对上式求条件期望,得
= β 2
其方差为
=
由以上可知,无关变量的设定误差的后果有以下四种:
(1)可以证明,式(3.22)参数的OLS估计量是无偏的,且为一致性估计量。即 , 。同理,可证明 , = 0; 和 = 0。(证明过程略)
(2) 不是有效估计量。因为 2 的方差为 ,那么,
=
虽然变量 X 3 对被解释变量 Y 是无关的,但解释变量 X 3 与 X 2 之间很可能一定程度相关,即 0 ≤ ≤1,则 。这表明,无关变量 X 3 的误选,会使得 的方差增大,导致 的估计精度下降,且偏离程度随着解释变量间相关程度的增加而增大。此结论对 也成立。
(3) ,即随机误差项的方差的估计仍为无偏估计。
(4)通常的区间估计和假设检验程序依然有效,但 的方差增大,接受错误假设的概率会较高。
比较遗漏相关变量和误选无关变量两类设定误差可以看出,如果遗漏了重要的相关变量,将导致参数估计量有偏,且不一致;如果误选了无关变量,虽然参数估计量具有无偏性、一致性,又会损失参数估计量的有效性。由于事先并不可能清楚地知道隐含在数据中的真实数量关系,建模过程中将面临如何选择更为恰当的两难境地。若是主要注重估计量的无偏性、一致性,那么可能会宁愿误选无关变量也不愿遗漏相关变量;若是主要注重估计量的有效性,有时可能宁愿删除相关变量。通常误选无关变量不如遗漏相关变量的后果严重。因此,一定程度上模型的设定实际是对偏误与有效进行权衡,偏爱哪一方取决于模型的研究目的。若建模目的只是为了进行预测,最小均方误差则可能是兼顾有效性和无偏性的良好准则。
均方误差(简记为MSE)是参数估计量 与参数真实值 β 离差平方的期望
=
容易证明,均方误差与方差有如下关系:
= +
均方误差 是方差 与偏倚的平方 之和,包含了两个方面的因素。当在较小偏倚(或无偏性)和较小方差(或最小方差性)“二者不可得兼”,需要进行“权衡与折中”时,可用均方误差准则。
相关变量的遗漏和无关变量的误选,在不同程度上给模型的设定形成了不良影响,有必要对变量设定误差进行检验。当然,这种假设检验必须在经济理论指导下进行,不可抛弃经济理论而进行假设检验。对于是否误选无关变量的检验,只要针对无关变量系数是否为零进行假设,用 t 检验或 F 检验,对无关变量做显著性检验即可得知。对于遗漏变量设定误差的检验有多种方法,例如DW检验、拉格朗日乘数检验(Lagrange Multiplier, LM)、一般性检验(regression error specification, RESET)以及一般性的 F 检验等。这里讨论的只是设定误差及模型选择的一些最常用的基本方法。这些方法也可以用于某些函数形式设定误差的检验。
1.DW检验
用DW检验去检验是否遗漏相关变量,其基本思想是认为遗漏的相关变量应包含在随机扰动项中,那么回归所得的残差序列就会呈现单侧的自相关性,因此可从自相关性的角度检验相关变量的遗漏。
从遗漏变量的模型看,可以认为遗漏变量模型是无遗漏变量模型的一个特例:被遗漏变量的系数为 0。例如,当式(3.18)中变量 X 3 i 的系数为 0 时,则为式(3.19)。我们称式(3.18)为无约束回归模型,而式(3.19)为受约束回归模型。
DW检验的具体步骤如下:
(1)对设定的回归模型运用OLS法得残差序列 e i 。
(2)设定H 0 :受约束回归模型(即约束条件成立,无遗漏变量);H 1 :无约束回归模型(即约束条件不成立,有遗漏变量)。按(可能)遗漏的解释变量的递增次序对残差序列 e i 进行排序,对排序后的残差序列 e i 计算 d 统计量,得
d =
(3)查Durbin-Watson表,若 d 统计量显示存在正自相关,则拒绝原假设,受约束回归模型不成立,存在模型设定误差,否则接受原假设,受约束回归模型成立,模型无设定误差。
例如,设定总生产成本函数,准备使用如下的三个备选模型。
模型 1:
模型 2:
模型 3:
用DW法检验模型设定误差。
首先,解释变量按递增次序排列,对上述三个模型分别代入数据回归,得
= 141.767+63.478 X i - +
t = (22.23)(13.28)(-13.15)(15.86)
R 2 = 0.998 3 R 2 = 0.997 5 DW= 1.706
= 222.383-8.025 0 X i +
t = (9.468) (-0.818) (2.925)
R 2 = 0.928 4 = 0.907 9 DW= 1.308
= 166.467+19.933 X i
t = (8.752)(6.502)
R 2 = 0.840 9 = 0.821 0 DW= 0.716
遗漏变量按递增次序排列,此时的DW值等于 d 值。对上述模型的DW统计量查表情况分析如下:
(1)对于模型 1, DW= 1.706,当 n = 30, k' = 3、 α = 5%时, d L = 1.214, d u = 1.650,不能表明存在显著的正相关关系,接受H 0 ,表示没有遗漏的变量。
(2)对于模型 3, DW= 0.716,当 n = 30, k' = 1、 α = 5%时, d L = 1.352, d U = 1.489,显然存在正的自相关,拒绝H 0 ,表明存在遗漏变量;
(3)对于模型 2, DW= 1.308,当 n = 30, k' = 2, α = 5%时, d L = 1.284, d U = 1.567,显然 1.284<1.308<1.567,属于无法确定的区域。这时,可采用修正的DW检验法进行检验,即扩大拒绝区域,依据DW = 1.308 < d U = 1.641,宁可判别残差中存在正的自相关,认为也存在遗漏变量。
2.拉格朗日乘数检验
拉格朗日乘数检验的基本思想,是认为模型中遗漏的相关变量包含在随机扰动项中,因此随机扰动项或回归所得的残差序列应与遗漏的相关变量呈现出某种依存关系,因此可以进行残差序列与相关变量的回归,在一定显著水平下若相关变量对残差序列的影响具有统计显著性,则认为存在遗漏变量形成的设定偏误,若相关变量的影响不具有统计显著性,则认为没有遗漏变量形成的设定误差。
拉格朗日乘数检验的具体步骤如下:
(1)对可能存在遗漏变量设定偏误的模型(受约束回归模型)进行回归,得到残差序列 e i 。
(2)用残差序列 e i 对全部的解释变量(包括可能遗漏的变量)进行回归(无约束回归模型),得可决系数 R 2 。
(3)设定H 0 为受约束回归模型, H 1 为无约束回归模型。构造检验统计量 nR 2 ,在大样本情况下,恩格尔(Engle)证明
其中, asy (asymptotically)表示渐近地;约束个数是H 0 中设定的受约束个数。
(4)进行显著性检验的判断:若 (约束个数),则拒绝H 0 ,认为受约束模型不成立,存在遗漏变量;否则,若 (约束个数),则接受H 0 ,认为受约束模型成立,进而无遗漏变量。
3.一般性检验
一般性检验是拉姆齐(Ramsey)于 1969 年提出的一种检验方法。其检验的基本思想为:如果事先知道遗漏了哪个变量,只需将此变量引入模型,估计并检验其参数是否显著不为零即可,可是问题是并不知道遗漏了哪个变量,这时可寻找一个替代变量 Z 来进行上述检验。 RESET检验中,替代变量 Z 通常选用所设定模型被解释变量拟合值 若干次幂的线性组合。若模型估计所得的残差包含着遗漏的相关变量,那么这个残差可用被解释变量拟合值 的线性组合近似表示;若这个线性组合的影响是显著的,则认为原模型的设定有误。由于可引入若干个替代变量去判断是否有多个变量被遗漏,所以该方法被称为一般性设定偏误检验。
RESET检验的基本步骤有三步:
第一步,对模型进行回归,用OLS法估计
Y i = β 1 + β 2 X 2 i + …+ β k X ki + u i
分别得到 Y i 的拟合值 和残差 e i 。若残差 e i 与拟合值 之间存在某种函数关系,则可用拟合值 若干次幂的线性组合充当变量。
第二步,用被解释变量 Y i 的拟合值 的线性组合,测度残差中是否包含着遗漏的相关变量。具体做法为,在第 1 步的模型中增加一个包含拟合值 的函数。这个函数通常选择为拟合值 的平方、三次方、四次方,或它们的线性组合。例如:
并对上述模型进行估计。
第三步,构造原假设: H 0 : δ j = 0, j = 1,2,3。然后用F统计量进行检验。F检验统计量为
即
其中, RSS U 和 分别为对式(3.25)进行回归得到的残差平方和与拟合优度, RSS R 和 分别为当原假设H 0 : δ j = 0, j = 1,2,3 成立时,对式(3.25)进行回归得到的残差平方和与拟合优度, J 为约束条件的个数。
若 F 统计值大于 F 临界值,则拒绝原假设,表明存在某种形式的设定误差问题。事实上,这一检验是嵌套模型一般性 F 检验的应用。
4.嵌套模型选择的 F 检验
所谓嵌套模型是指对于同一个被解释变量,一个模型的解释变量完全包含另一个模型的解释变量。例如考虑下列模型。
模型A: Y i = β 1 + β 2 X 2 i + β 3 X 3 i + β 4 X4 i + β 5 X 5 i + β 6 X 6 i + u i
模型B: Y i = β 1 + β 2 X 2 i + β 3 X 3 i + β 5 X 5 i + u i
模型A嵌套模型B (或者说模型B嵌套在模型A中),那么实际应用时是选择模型A还是模型B呢?这即是检验 H 0 : β 4 = β 6 = 0
一般性的 F 检验统计量是
F = ~ F ( q , n - k )
其中, RSS R 是受约束模型(本例的模型B)的残差平方和; RSS U 是无约束模型(本例的模型A)的残差平方和; q 是约束个数, k 是无约束模型参数个数, n 是样本容量。(本例中 q = 2, k = 6)。如果 F 统计量的值大于临界值,则拒绝原假设,选择模型A;否则接受原假设,选择模型B。
一般性的F检验对于嵌套模型的变量选择非常有用。
5.模型函数形式设定的检验
在计量经济分析中,能否建立一个令人满意的计量经济模型至关重要,一个好的模型除了变量的确定外,还必须选择模型的函数形式。所谓模型函数形式的选择实际是指对被解释变量条件期望函数的设定,是根据关于变量间依存关系的理论分析,正确选择 E ( Y | X i )= f ( X i )中 f (·)的具体函数形式。当选取了错误的模型函数形式并对其进行估计时,可能会带来偏误,这称为错误函数形式偏误。
模型错误的函数形式往往会引起随机扰动项的自相关。当模型存在自相关时,为了发现模型是否有错误的函数形式,比较简便的方法之一是用回归的残差 e i 对解释变量的较高次幂回归,然后检验新的残差项是否还有自相关,如果残差 e i 对解释变量的较高次幂回归所得到的新残差不再有自相关,则很可能原模型采用了错误的函数形式。
此外,对遗漏变量设定误差的一些检验方式,有时也可检验模型函数形式是否正确。例如,总生产成本 Y 与产出 X 关系的模型,有可能分别设定为
Y i = β 1 + β 2 X i + u i
Y i =
Y i =
可以运用DW检验、 LM检验和RESET检验等方法,检验上述模型中的 X i 2 和 X i 3 是否为被遗漏的变量,也就检验了其中哪种函数形式更加符合实际。
对模型其他函数形式设定误差的检验,还可以采用对非嵌套模型设定的假设检验,如戴维森-麦金农的 J -检验,非嵌套 F 检验等。在此不做具体介绍。
【例 3.4】分析不同解释变量的设定对于解释粮食产量的适用性。
有人分析农业发展状况,模型设定为
式中, Y t 是国内粮食总产量; X 2 t 是全国化肥施用总量
也有人认为,国内的粮食产量不止取决于化肥施用量,还有一些其他的因素会可能影响到粮食产量,应当考虑添加其他的解释变量,主张考虑将“粮食播种面积”和“农业劳动力人口”的影响也纳入模型中,将模型设定为
式中, X 3 t 是国内粮食播种总面积; X 4 t 是代表农业劳动力人口的变量,这里用可以获取的“中国乡村人口总数”作为农业劳动力人口的代理变量。
为了分析第一个回归模型(3.26)是否有变量的设定误差,需要对其进行变量设定误差检验。如果设定的回归模型(3.26)遗漏了变量,那么 X 3 和 X 4 是不是被遗漏的重要变量呢?从CEIC经济数据库中可以获得 1983—2018 年国内粮食总产量、全国化肥施用总量、国内粮食播种总面积等数据(见表 3.2)。
表3.2 粮食总产量、化肥施用总量、粮食播种总面积、乡村人口总数
表3.2(续)
表3.2(续)
数据来源: CEIC经济数据库。
1.是否有遗漏变量的检验
依据表 3.2 中 1983—2018 年的数据,将所有变量的数据进行对数化处理,做式(3.26)的回归, Stata操作及结果如图 3.17 和图 3.18 所示。
图3.17 操作过程
图3.18 回归结果
图 3.19 显示可能存在自相关,建模时遗漏了重要的相关变量可能是其原因。
图3.19 残差图
(1) DW检验
对式(3.26)的模型估计结果的DW统计量为 0.385 7,根据 n = 36 和 k `= 1, α = 0.05的DW统计量的临界值为 d L = 1.393, d U = 1.514,由于 DW = 0.385 7 < d L = 1.393,表明存在正的自相关,式(3.26)的模型存在遗漏变量。
(2) LM检验
LM检验的Stata操作及回归结果如图 3.20 和图 3.21 所示。
图3.20 LM检验操作过程
图3.21 回归结果
图 3.21 中显示LM统计量的值为 32.896 145,大于自由度为 2 的卡方分布临界值 5.991 464 5,拒绝原假设,表明式(3.26)不适合,可能存在遗漏变量。
(3)一般性检验(RESET)
进行RESET检验, Stata操作及结果如图 3.22 和图 3.23 所示。
图3.22 一般性检验操作过程
图3.23 输出结果
图 3.23 显示的 F 统计量的值为 16.64,其 p 值为 0.000 0,因而拒绝原假设,认为模型存在遗漏变量。
2.对模型设定的调整
为纠正遗漏变量的设定误差,在解释变量中补充ln X 3 t 和ln X 4 t ,得
估计模型的Stata操作及回归结果如图 3.24 和图 3.25 所示。残差图如图3.26 所示。
图3.24 估计模型操作过程
图3.25 回归结果
图3.26 残差图 2
(1) DW检验
对式(3.27)的模型估计结果的DW统计量为 1.808 4,根据DW统计量的临界值为 d L = 1.271, d U = 1.652,由于 d U = 1.652 < DW = 1.808 4 < 4 - d U =2.348,表明不存在自相关,模型(3.27)不存在显著的遗漏变量。
(2) B-G LM序列相关检验
由于题中无其他变量可用,无法使用类似于图 3.20 中的LM检验,因此,可以考虑对式(3.27)进行一阶的B-G LM序列相关检验,当然也可以进行高阶的B-G LM序列相关检验, Stata操作及结果如图 3.27 和图 3.28 所示。
图3.27 操作过程
图3.28 输出结果
图 3.28 中显示的 p 值为 0.518 9,接受原假设,无序列相关,认为不存在显著的遗漏变量。
(3)一般性检验(RESET)
对式(3.27)进行RESET检验, Stata操作及结果如图 3.29 和图 3.30 所示。
图3.29 操作过程
图3.30 输出结果
图 3.30 中显示 F 统计量的 p 值为 0.193 8,不拒绝原假设,认为不存在显著的遗漏变量。
综上,经过变量设定检验说明,本案例分析中,相对更合理的模型是经过三种方法检验无遗漏变量的式(3.27)。
需要指出的是,在上述建模过程中,主要是从教学目的出发进行遗漏变量的讨论,并没有考虑时序数据的特殊问题。而在实证分析中,还应该对这类问题进行讨论。