购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第4章
多元回归分析:推断

4.1 复习笔记

考点一:OLS估计量的抽样分布 ★★★

1 假设MLR.6(正态性)

假定总体误差项u独立于所有解释变量,且服从均值为零和方差为σ 2 的正态分布,即:u~Normal(0,σ 2 )。

对于横截面回归中的应用来说,假设MLR.1~MLR.6被称为经典线性模型假设。假设下对应的模型称为经典线性模型(CLM)。

2 用中心极限定理(CLT)

在样本量较大时,u近似服从于正态分布。正态分布的近似效果取决于u中包含多少因素以及因素分布的差异。

但是CLT的前提假定是所有不可观测的因素都以独立可加的方式影响Y。当u是关于不可观测因素的一个复杂函数时,CLT论证可能并不适用。

3 OLS估计量的正态抽样分布

定理4.1(正态抽样分布):在CLM假设MLR.1~MLR.6下,以自变量的样本值为条件,有: β ( ) j ~Normal(β j ,Var( β ( ) j ))。将正态分布函数标准化可得:( β ( ) j -β j )/sd( β ( ) j )~Normal(0,1)。

注: β ( ) 1 β ( ) 2 ,…, β ( ) k 的任何线性组合也都符合正态分布,且 β ( ) j 的任何一个子集也都具有一个联合正态分布。

拓展: 多元回归中的假设检验的多种形式

(1)检验个别偏回归系数的假设。

(2)检验估计的多元回归模型的总体显著性,即判别全部偏斜率系数是否同时为零。

(3)检验两个或多个系数是否相等。

(4)检验偏回归系数是否满足某种约束条件。

(5)检验所估计的回归模型在时间上或在不同横截面单元上的稳定性。

(6)检验回归模型的函数形式是否正确。

考点二:单个总体参数检验:t检验 ★★★★

1 总体回归函数

总体模型的形式为:y=β 0 +β 1 x 1 +…+β k x k +u。假定该模型满足CLM假设,β j 的OLS量是无偏的。

2 定理4.2:标准化估计量的t分布

在CLM假设MLR.1~MLR.6下,( β ( ) j -β j )/se( β ( ) j )~t n k 1 =t df ,式中,k+1是总体模型中未知参数的个数(即k个斜率参数和截距β 0 ),n-k-1是自由度(df)。

t统计量服从t分布而不是标准正态分布的原因是se( β ( ) j )中的常数σ已经被随机变量 σ ( ) 所取代。t统计量的计算公式可写成标准正态随机变量( β ( ) j -β j )/sd( β ( ) j )与 σ ( ) 2 2 的平方根之比,可以证明二者是独立的;而且(n-k-1) σ ( ) 2 2 ~χ 2 n k 1 。于是根据t随机变量的定义,便得到此结论。

3 单个参数的检验(见表4-1)

表4-1 单个参数的检验

注意:

(1)当检验β j 是否等于某个非零常数时,则H 0 :β j =α j 。相应的t统计量为:t=( β ( ) j -α j )/se( β ( ) j )。

(2)p值是根据t值在t分布上计算出的概率,就是能拒绝虚拟假设的最小显著性水平。用α表示检验的显著性水平,当p<α时,就应拒绝虚拟假设;否则,就不能拒绝H 0

(3)当不能拒绝原假设时,应回答“不能拒绝原假设”,而不能说“接受原假设”。

4 经济或实际显著性与统计显著性

(1)变量x j 的统计显著性完全由 的大小决定,而经济显著性或实际显著性则与 β ( ) j 的大小(及符号)相关。

(2)在实践中,区分导致t统计量统计显著的原因很重要。当一个变量的估计效应不太大时,认为该变量在解释y时很“重要”会导致错误的结论。

(3)一般而言,样本越大,变量往往会越显著,因此进行t检验时应使用更小的显著性水平。

5 检验变量在多元回归模型中的经济和统计显著性的准则

(1)检查统计显著性。当变量通过显著性检验时,可再讨论系数的大小;当变量没有通过检验时,若根据理论或实践经验认为该变量对于模型很重要,则应适当放松显著性(尤其是小样本)。

(2)一般来说,t统计量很小的变量都具有“错误”的符号。

考点三:置信区间 ★★★

在经典线性模型假设下,为总体参数β j 构造一个置信区间(CI)是很容易的。置信区间又称区间估计,它为总体参数的可能取值提供了一个范围,而不只是一个点估计值。它的含义是:对每次获得的随机样本都计算 β ( ) j 并构造一个样本区间,那么总体值β j 将以1-α的概率出现在样本区间中。

在t检验中有 ,则可以得到在(1-α)的置信度下β j 的置信区间:

t α/2 表示在t分布表中,自由度为(n-k-1)、显著性水平为α的临界值。

置信度越高、置信区间越小,那么参数的估计结果就越好。但是置信度与置信区间存在一个反向变动的关系:其他条件不变时,置信度越高,t检验的临界值越大,置信区间也就越大;若在其他条件不变时,要使得置信区间缩小,那么需要降低置信度。

缩小置信区间的方法:

(1)增加样本的容量;

(2)为了减小残差平方和,则要提高回归模型的拟合优度;

(3)提高样本观测点的分散程度。

考点四:关于参数的一个线性组合的假设检验 ★★★

检验假设H 0 :β 1 =β 2 与H 1 :β 1 <β 2 。将假设改写为H 0 :β 1 -β 2 =0与H 1 :β 1 -β 2 <0。构造新的t统计量,即:t=( β ( ) 1 β ( ) 2 )/se( β ( ) 1 β ( ) 2 )。

因为Var( β ( ) 1 β ( ) 2 )=Var( β ( ) 1 )+Var( β ( ) 2 )-2Cov( β ( ) 1 β ( ) 2 ),所以se( β ( ) 1 β ( ) 2 )={[se( β ( ) 1 )] 2 +[se( β ( ) 2 )] 2 -2s 12 } 1/2 ,其中s 12 为Cov( β ( ) 1 β ( ) 2 )的一个估计值。因此,se( β ( ) 1 β ( ) 2 )的计算较为困难,而且在回归结果中也并没有报告( β ( ) 1 β ( ) 2 )的标准误。

在实际操作中,可将β 1 与β 2 之差定义为一个新参数,即θ 1 =β 1 -β 2 。因此原虚拟假设和备择假设转变为H 0 :θ 1 =0与H 1 :θ 1 <0。将β 1 写为β 1 =θ 1 +β 2 ,代入模型中去,通过构造新的变量便可以估计出 θ ( ) 的标准误,这样就可以直接进行t检验。

考点五:对多重线性约束的检验:F检验 ★★★★★

1 对排除性约束的检验

对排除性约束的检验是指检验一组自变量是否对因变量都没有影响,该检验不适用于不同因变量的检验。F统计量通常对检验一组变量的排除有用处,特别是当变量高度相关的时候。

含有k个自变量的不受约束模型为:y=β 0 +β 1 x 1 +…+β k x k +u,其中参数有k+1个。假设有q个排除性约束要检验,且这q个变量是自变量中的最后q个:x k q 1 ,…,x k ,则受约束模型为:y=β 0 +β 1 x 1 +…+β k q x k q +u。

虚拟假设为H 0 :β k q 1 =0,…,β k =0,对立假设是列出的参数至少有一个不为零。定义F统计量为F=[(SSR r -SSR ur )/q]/[SSR ur /(n-k-1)]。其中,SSR r 是受约束模型的残差平方和,SSR ur 是不受约束模型的残差平方和。由于SSR r 不可能比SSR ur 小,所以F统计量总是非负的。q=df r -df ur ,即q是受约束模型与不受约束模型的自由度之差,也是约束条件的个数。n-k-1=分母自由度=df ur ,且F的分母恰好就是不受约束模型中σ 2 =Var(u)的一个无偏估计量。

假设CLM假设成立,在H 0 下F统计量服从自由度为(q,n-k-1)的F分布,即F~F q n k 1 。如果F值大于显著性水平下的临界值,则拒绝H 0 而支持H 1 。当拒绝H 0 时,就说,x k q 1 ,…,x k 在适当的显著性水平上是联合统计显著的(或联合显著)。

2 F统计量和t统计量之间的关系

(1)当检验单个变量的显著性时,F统计量等于对应t统计量的平方。因为t n k 1 2 具有F 1 n k 1 分布,所以在双侧对立假设下,这两种方法得到完全一样的结果。但t统计量可用来检验单侧备择假设,对于检验单个参数假设更灵活;且t统计量比F统计量更容易获得。因此一般用t统计量对单个参数假设进行检验。

(2)两(或多)个t检验不显著的变量,合起来可能十分显著。此外还可能,在一组解释变量中,一个变量t检验显著;但在常用的显著性水平上,这组变量却不是联合显著的。(t检验与F检验之间的这种可能冲突,给出了为什么不应该“接受”原假设的一个例子。)

(3)当一个变量十分显著时,对它与其他变量进行联合检验,结果是联合显著的。在这种情况下,同时拒绝这两个虚拟假设并不存在逻辑上的不一致。

3 F统计量的R 2

(1)F统计量的R 2 型的公式

计算公式为:F=[(R ur 2 -R r 2 )/q]/[(1-R ur 2 )/(n-k-1)]=[(R ur 2 -R r 2 )/q]/[(1-R ur 2 )/df ur ]。因为R ur 2 >R r 2 ,所以再次表明F总是正的。

(2)F统计量的R 2 型的优点

R 2 必定介于0和1之间;而SSR在很大程度上依赖度量单位,计算较繁冗。

R 2 在几乎所有的回归中都会报告,使用R 2 来检验变量的排除较为容易。

4 回归整体显著性的F统计量

在含有k个自变量的模型中,对于整体显著性检验的虚拟假设为所有的斜率参数都是零,即H 0 :β 1 =β 2 =…=β k =0,对应的受约束模型为y=β 0 +u。受约束模型的R 2 为零,因为y中的变异一点都没有得到解释。

F统计量的计算公式为:F=(R 2 /k)/[(1-R 2 )/(n-k-1)]。其中,R 2 是y对x 1 ,x 2 ,…,x k 回归的通常R 2 。上述F统计量的公式只有在检验所有自变量的联合排除时才有效。

5 检验一般的线性约束

在y=β 0 +β 1 x 1 +β 2 x 2 +β 3 x 3 +β 4 x 4 +u中,检验的原假设为H 0 :β 1 =1,β 2 =0,β 3 =0,β 4 =0。其中,除β 1 =1外都是排除性约束。

首先估计不受约束模型,得到SSR ur ;然后施加约束,得到受约束模型y=β 0 +x 1 +u,变换为y-x 1 =β 0 +u,估计该式子得到SSR r 。F统计量就是[(SSR r -SSR ur )/SSR ur ][(n-5)/4],将得到的F值与临界值比较即可决定是否拒绝原假设。

拓展: F检验与拟合优度检验的联系与区别(见表4-2)

表4-2 F检验与拟合优度检验的联系与区别 fBLX6fRb6MBcHSfDccw8yRLo4Gyy/muqkh26OFN/UEbw0EMpXI5ZxFLvSUmH+5As

点击中间区域
呼出菜单
上一章
目录
下一章
×