购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第3章
多元回归分析:估计

3.1 复习笔记

考点一:使用多元回归的动因 ★

在多元回归分析中,可以在其他解释变量不变的情况下,解释某一解释变量对被解释变量的影响;但是,在一元回归中,必须得假定解释变量与误差项不相关,而这个假定一般很难满足。在多元回归中引入与被解释变量相关的其他因素,会减少OLS估计的偏误。此外,多元回归分析对推广变量之间的函数关系也有帮助。

在一元回归的基础上,当在模型中引入其他可观测的因素,那么对y的解释力就会更强。因此利用多元回归分析可建立更好的因变量预测模型。

多元性回归模型的一般形式为:y=β 0 +β 1 x 1 +β 2 x 2 +β 3 x 3 +…+β k x k +u。其中,有k个自变量和一个截距项,涉及k+1个未知参数,一般将不同于截距的参数称为斜率参数。

考点二:普通最小二乘法的操作和解释 ★★★★★

1 如何得到OLS估计值

考虑包含k个自变量的样本回归函数(又称OLS回归线): y ( ) β ( ) 0 β ( ) 1 x 1 β ( ) 2 x 2 β ( ) 3 x 3 +…+ β ( ) k x k 。普通最小二乘法的思路就是选择k+1个OLS估计值,从而使残差平方和最小化,即:

上述最小化问题可使用多元微积分求解,可得k+1个线性方程:

……

上述方程组就是OLS一阶条件。需要注意的是:必须假定上式中的方程只能得到 β ( ) j 的唯一解。

2 对OLS回归方程系数的解释

包含k个自变量的OLS回归线形式为: y ( ) β ( ) 0 β ( ) 1 x 1 β ( ) 2 x 2 +…+ β ( ) k x k 。用变化量则可以表示为:Δ y ( ) β ( ) 1 Δx 1 β ( ) 2 Δx 2 +…+ β ( ) k Δx k β ( ) 0 表示当所有的变量都取0时因变量的取值;但在大多数情况下,它没有什么经济含义。x i 的系数表示在所有其他条件不变时,x i 每变化一单位导致的因变量的变化幅度,有Δ y ( ) β ( ) i Δx i

3 OLS的拟合值和残差

(1)拟合值和残差的定义

进行OLS估计后,对每次观测i都可以得到一个拟合值或预测值,即 y ( ) i β ( ) 0 β ( ) 1 x i1 β ( ) 2 x i2 +…+ β ( ) k x ik 。第i个观测的残差为: u ( ) i =y i y ( ) i 。若 u ( ) i >0,则y i 被预测得过低。若 u ( ) i <0,则y i 被预测得过高。

(2)OLS拟合值和残差的重要性质

残差的样本平均值为零。

每个自变量和OLS残差之间的样本协方差为零。因此,OLS拟合值和OLS残差之间的样本协方差值为零。

点( x ( _ ) 1 x ( _ ) 2 ,…, x ( _ ) k y ( _ ) )始终在OLS回归线上,满足: y ( _ ) β ( ) 0 β ( ) 1 x ( _ ) 1 β ( ) 2 x ( _ ) 2 +…+ β ( ) k x ( _ ) k

4 对多元回归“排除其他变量影响”的解释

当k=2时, y ( ) β ( ) 0 β ( ) 1 x 1 β ( ) 2 x 2 。一种表示 β ( ) 1 的方式为:

其中, r ( ) i1 是将x 1 对x 2 进行简单回归后得到的第i个OLS残差 r ( ) 1 ,再将y对 r ( ) 1 进行简单回归就能得到 β ( ) 1 ,因此 β ( ) 1 表示x 1 对y的净影响,即偏效应。

当模型中包含k个解释变量时,残差 r ( ) i1 来源于x 1 对x 2 ,x 3 ,…,x k 的回归。 β ( ) 1 衡量在排除其他变量的影响后,x 1 对y的影响。

5 简单回归和多元回归估计值的比较

通常情况下,简单回归估计值与多元回归估计值并不相同。将y对x 1 进行简单回归得到的估计值记为 ,将y对x 1 和x 2 进行OLS回归得到的x 1 的偏回归估计值记为 β ( ) 1 ,两者的关系为:

其中, 是x 2 对x 1 进行简单回归得到的斜率系数。两者相等的情况包括: x 2 对y的偏效应为零,即 β ( ) 2 =0; x 1 和x 2 不相关。

以此类推,在含有k个自变量的模型中,两者相等的特殊情况为: x 1 关于其他变量的回归中,从x 2 到x k 所有的OLS系数都为零; x 1 与x 2 ,x 3 ,…,x k 都不相关。但在实际中,这两个条件都不太可能成立。当从x 2 到x k 的所有OLS系数都很小,或者x 1 与其他自变量的相关系数较小时,x 1 影响y的多元回归估计值就会接近于简单回归估计值。

6 拟合优度

总平方和(SST)、解释平方和(SSE)和残差平方和(SSR)的计算公式为:

可以证明: SST=SSE+SSR。将方程两边同时除以SST得到:SSR/SST+SSE/SST=1。

拟合优度R 2 是指因变量的样本变异中被OLS回归线所解释的部分,该值介于0和1之间,计算公式为:R 2 ≡SSE/SST=1-SSR/SST。R 2 等于实际值y i 与拟合值 y ( ) i 相关系数的平方。即:

在模型中增加回归元时,会增加解释平方和,因此R 2 必定会增大。因此,不应该用R 2 判断是否应该在模型加入某个解释变量,而应该依据该变量对y的偏效应是否非零来判断。

拓展: 可决系数与调整的可决系数(见表3-1)

表3-1 可决系数与调整的可决系数

需要强调,根据样本回归线计算得到的可决系数R 2 和调整的可决系数 R ( _ ) 2 ,是随着抽样结果而变化的随机变量,这样衡量的拟合优度的显著性,还需要进行统计检验等。

7 过原点回归

(1)定义

过原点回归的具体方程如下:

在上述方程中,当x 1 =0,x 2 =0,…,x k =0时,预测值也为零。在这种情况下,斜率系数就是过原点回归得到的OLS估计值。

(2)特点

OLS残差的样本平均值不为零。

因为R 2 =1-SSR/SST,而SSR为:

此时SSR可能大于SST,导致R 2 为负。这意味着 y ( _ ) 比解释变量更多地“解释”了y i 的变异。在这种情况下,应该在回归中包含一个截距项,或者断定解释变量对y的解释很差。

若总体模型中的β 0 不为零,则斜率参数过原点回归得到的OLS估计量将有偏误;在特殊情况下,偏误会很严重。当β 0 为零时,对带截距项的方程进行估计会导致OLS斜率估计量的方差变大。

考点三:OLS估计量的期望值 ★★★★

1 基本假定(见表3-2)

表3-2 基本假定

2 定理3.1:OLS的无偏性

在假设MLR.1~MLR.4下,对总体参数β j 的任意值有:E( β ( ) j )=β j ,j=0,1,…,k,即OLS估计量是总体参数的无偏估计量。

3 在回归模型中包含了无关变量(过度设定)

在这种情况下,OLS估计量仍具有无偏性。因为无偏性需要的条件是解释变量与误差项不存在相关性,因此,包含无关变量并不影响这一性质。但是无关变量的加入会使得残差方差发生变化,因此包含无关变量对OLS估计量的方差会有不利影响。

4 遗漏变量的偏误:简单情形

(1)遗漏变量偏误

假设真实模型为:y=β 0 +β 1 x 1 +β 2 x 2 +u。而实际估计的模型为:y=β 0 +β 1 x 1 +u。

β ( ) 1 β ( ) 2 是模型满足假设MLR.1~MLR.4时的无偏估计量。因此:

因此, 中的偏误为:

可以发现,偏误与遗漏的解释变量x 2 有关,方程右边的项被称为遗漏变量偏误。

(2) 偏误的各种情况(见表3-3)

表3-3 偏误的各种情况

(3)与偏误有关的术语

当存在遗漏变量时,若 ,则 有向上的偏误;若 ,则 有向下的偏误。

向零的偏误是指 比β 1 更接近零的情况。当β 1 为正时, 向零的偏误对应向下的偏误;当β 1 为负时, 向零的偏误对应向上的偏误。

5 遗漏变量的偏误:更一般的情形

假设总体模型为:y=β 0 +β 1 x 1 +β 2 x 2 +β 3 x 3 +u,满足假设MLR.1~MLR.4。若遗漏了变量x 3 并得到估计结果:

假设x 2 和x 3 无关,但x 1 和x 3 相关,则 通常是有偏的。可见,一个解释变量与误差之间存在相关性,一般会导致所有OLS估计量都产生偏误。

在x 1 和x 2 不相关时,很难得到 偏误的方向,因为x 1 ,x 2 和x 3 可能是两两相关的。在实践中,经常采用这样一种近似方法。假定x 1 和x 2 无关,存在:

考点四:OLS估计量的方差 ★★★

1 同方差性与OLS斜率估计量的抽样方差

(1)假设MLR.5(同方差性)

给定任意解释变量值,误差项u都具有相同的方差,即Var(u|x 1 ,…,x k )=σ 2 。若该假设不成立,则称模型具有异方差。假设MLR.1~MLR.5被称为(横截面回归的)高斯-马尔科夫假设。

(2)定理3.2:OLS斜率估计量的抽样方差

在假设MLR.1~MLR.5下,以自变量的样本值为条件,对所有的j=1,2,…,k,有:Var( β ( ) j )=σ 2 /[SST j (1-R j 2 )]。其中:

这是x j 的总样本波动,而R j 2 则是将x j 对所有其他自变量(包含截距项)进行回归所得到的R 2 。在这个公式的推导过程中,用到了所有高斯-马尔科夫假设。

2 OLS方差的成分:多重共线性

(1)影响系数方差的因素(见表3-4)

表3-4 影响系数方差的因素

(2)多重共线性的界定和解决方法(见表3-5)

表3-5 多重共线性的界定和解决方法

3 误设模型中的方差

满足高斯-马尔科夫假设的真实总体模型为:y=β 0 +β 1 x 1 +β 2 x 2 +u。样本回归函数形式则为: y ( ) β ( ) 0 β ( ) 1 x 1 β ( ) 2 x 2 ;遗漏变量x 2 的简单回归模型为: 。当决定一个回归模型中是否包含一个特定变量时,可以通过分析偏误和方差之间的替换关系而做出。当β 2 ≠0时,如果x 1 和x 2 相关, 不具有无偏性,但 β ( ) 1 具有无偏性。故只以偏误为准则,那么 β ( ) 1 好。两模型的方差分别为:Var( β ( ) 1 )=σ 2 /[SST 1 (1-R 1 2 )]与 。当x 1 和x 2 不相关时,有:

(1)当β 2 ≠0时, 是有偏的, β ( ) 1 是无偏的,且 。按传统,将因漏掉x 2 而导致偏误的可能性大小与方差的降低相比较,以决定是否应该包括x 2 。随着样本容量n的扩大, 中的偏误不会缩减;但 与Var( β ( ) 1 )都会逐渐缩小至零。这意味着,随着n的逐渐变大,因增加x 2 所导致的多重共线性变得不再重要。因此,在大样本下更偏好 β ( ) 1

(2)当β 2 =0时, β ( ) 1 都是无偏的,且 。可见,估计的 更好。

4 估计σ 2 :OLS估计量的标准误

(1)残差和自由度

OLS回归得到的残差为: u ( ) i =y i β ( ) 0 β ( ) 1 x i1 β ( ) 2 x i2 -…- β ( ) k x ik 。在简单回归情形中,用 u ( ) i 取代u i 来估计σ 2 将得到一个有偏估计量。在一般多元回归情形中,σ 2 的无偏估计量是:

n-k-1表示含有n个观测和k个自变量的OLS回归模型的自由度,即df=n-(k+1)=观测次数-估计参数的个数。

(2)定理3.3:σ 2 的无偏估计

在高斯-马尔科夫假设MLR.1~MLR.5下,E( σ ( ) 2 )=σ 2

σ ( ) 2 的正平方根 σ ( ) 就是回归标准误或SER,即误差项的标准差的估计量。在给定的样本下,在方程中增加自变量时, σ ( ) 可能增加或减小。这取决于SSR与自由度下降的相对大小。

(3) β ( ) j 的标准差

在构造置信区间并进行检验时,需要估计 β ( ) j 的标准差。由于σ未知,所以用其估计量 σ ( ) 来取代,则:se( β ( ) j )= σ ( ) /[SST j (1-R j 2 )] 1/2 。如果误差项不具有同方差性质,则标准误公式就不是se( β ( ) j )的一个可靠估计量,从而标准误无效。

考点五:OLS的有效性——高斯-马尔科夫定理 ★★

1 最优线性无偏估计量的性质(见表3-6)

表3-6 最优线性无偏估计量的性质

2 定理3.4:高斯-马尔科夫定理

(1)主要内容

在高斯-马尔科夫假设(假设MLR.1~MLR.5)下, β ( ) 0 β ( ) 1 ,…, β ( ) k 分别是β 0 ,β 1 ,…,β k 的最优线性无偏估计量。

(2)重要性

当这个标准假定集成立时,没有其他任何估计量比OLS估计量更好。当高斯-马尔科夫假设中的某个假定不满足时,该定理不成立。零条件均值的假定(假设MLR.4)不成立会导致OLS产生偏误;异方差的存在(假设MLR.5不成立)会影响系数的标准误,使估计量不具有有效性。 Vtp2nGy8rmsqL74JODM20V9hACbjvnoTmg3fEjbVU87OZi3GnIxl+J9UUcvNn1IM

点击中间区域
呼出菜单
上一章
目录
下一章
×