1 假设MLR.6(正态性)
假定总体误差项u独立于所有解释变量,且服从均值为零和方差为σ 2 的正态分布,即:u~Normal(0,σ 2 )。
对于横截面回归中的应用来说,假设MLR.1~MLR.6被称为经典线性模型假设。假设下对应的模型称为经典线性模型(CLM)。
2 用中心极限定理(CLT)
在样本量较大时,u近似服从于正态分布。正态分布的近似效果取决于u中包含多少因素以及因素分布的差异。
但是CLT的前提假定是所有不可观测的因素都以独立可加的方式影响Y。当u是关于不可观测因素的一个复杂函数时,CLT论证可能并不适用。
3 OLS估计量的正态抽样分布
定理4.1(正态抽样分布):在CLM假设MLR.1~MLR.6下,以自变量的样本值为条件,有: β j ~Normal(β j ,Var( β j ))。将正态分布函数标准化可得:( β j -β j )/sd( β j )~Normal(0,1)。
注: β 1 , β 2 ,…, β k 的任何线性组合也都符合正态分布,且 β j 的任何一个子集也都具有一个联合正态分布。
拓展: 多元回归中的假设检验的多种形式
(1)检验个别偏回归系数的假设。
(2)检验估计的多元回归模型的总体显著性,即判别全部偏斜率系数是否同时为零。
(3)检验两个或多个系数是否相等。
(4)检验偏回归系数是否满足某种约束条件。
(5)检验所估计的回归模型在时间上或在不同横截面单元上的稳定性。
(6)检验回归模型的函数形式是否正确。
1 总体回归函数
总体模型的形式为:y=β 0 +β 1 x 1 +…+β k x k +u。假定该模型满足CLM假设,β j 的OLS量是无偏的。
2 定理4.2:标准化估计量的t分布
在CLM假设MLR.1~MLR.6下,( β j -β j )/se( β j )~t n - k - 1 =t df ,式中,k+1是总体模型中未知参数的个数(即k个斜率参数和截距β 0 ),n-k-1是自由度(df)。
t统计量服从t分布而不是标准正态分布的原因是se( β j )中的常数σ已经被随机变量 σ 所取代。t统计量的计算公式可写成标准正态随机变量( β j -β j )/sd( β j )与 σ 2 /σ 2 的平方根之比,可以证明二者是独立的;而且(n-k-1) σ 2 /σ 2 ~χ 2 n - k - 1 。于是根据t随机变量的定义,便得到此结论。
3 单个参数的检验(见表4-1)
表4-1 单个参数的检验
注意:
(1)当检验β j 是否等于某个非零常数时,则H 0 :β j =α j 。相应的t统计量为:t=( β j -α j )/se( β j )。
(2)p值是根据t值在t分布上计算出的概率,就是能拒绝虚拟假设的最小显著性水平。用α表示检验的显著性水平,当p<α时,就应拒绝虚拟假设;否则,就不能拒绝H 0 。
(3)当不能拒绝原假设时,应回答“不能拒绝原假设”,而不能说“接受原假设”。
4 经济或实际显著性与统计显著性
(1)变量x
j
的统计显著性完全由
的大小决定,而经济显著性或实际显著性则与
β
j
的大小(及符号)相关。
(2)在实践中,区分导致t统计量统计显著的原因很重要。当一个变量的估计效应不太大时,认为该变量在解释y时很“重要”会导致错误的结论。
(3)一般而言,样本越大,变量往往会越显著,因此进行t检验时应使用更小的显著性水平。
5 检验变量在多元回归模型中的经济和统计显著性的准则
(1)检查统计显著性。当变量通过显著性检验时,可再讨论系数的大小;当变量没有通过检验时,若根据理论或实践经验认为该变量对于模型很重要,则应适当放松显著性(尤其是小样本)。
(2)一般来说,t统计量很小的变量都具有“错误”的符号。
在经典线性模型假设下,为总体参数β j 构造一个置信区间(CI)是很容易的。置信区间又称区间估计,它为总体参数的可能取值提供了一个范围,而不只是一个点估计值。它的含义是:对每次获得的随机样本都计算 β j 并构造一个样本区间,那么总体值β j 将以1-α的概率出现在样本区间中。
在t检验中有
,则可以得到在(1-α)的置信度下β
j
的置信区间:
t α/2 表示在t分布表中,自由度为(n-k-1)、显著性水平为α的临界值。
置信度越高、置信区间越小,那么参数的估计结果就越好。但是置信度与置信区间存在一个反向变动的关系:其他条件不变时,置信度越高,t检验的临界值越大,置信区间也就越大;若在其他条件不变时,要使得置信区间缩小,那么需要降低置信度。
缩小置信区间的方法:
(1)增加样本的容量;
(2)为了减小残差平方和,则要提高回归模型的拟合优度;
(3)提高样本观测点的分散程度。
检验假设H 0 :β 1 =β 2 与H 1 :β 1 <β 2 。将假设改写为H 0 :β 1 -β 2 =0与H 1 :β 1 -β 2 <0。构造新的t统计量,即:t=( β 1 - β 2 )/se( β 1 - β 2 )。
因为Var( β 1 - β 2 )=Var( β 1 )+Var( β 2 )-2Cov( β 1 , β 2 ),所以se( β 1 - β 2 )={[se( β 1 )] 2 +[se( β 2 )] 2 -2s 12 } 1/2 ,其中s 12 为Cov( β 1 , β 2 )的一个估计值。因此,se( β 1 - β 2 )的计算较为困难,而且在回归结果中也并没有报告( β 1 - β 2 )的标准误。
在实际操作中,可将β 1 与β 2 之差定义为一个新参数,即θ 1 =β 1 -β 2 。因此原虚拟假设和备择假设转变为H 0 :θ 1 =0与H 1 :θ 1 <0。将β 1 写为β 1 =θ 1 +β 2 ,代入模型中去,通过构造新的变量便可以估计出 θ 的标准误,这样就可以直接进行t检验。
1 对排除性约束的检验
对排除性约束的检验是指检验一组自变量是否对因变量都没有影响,该检验不适用于不同因变量的检验。F统计量通常对检验一组变量的排除有用处,特别是当变量高度相关的时候。
含有k个自变量的不受约束模型为:y=β 0 +β 1 x 1 +…+β k x k +u,其中参数有k+1个。假设有q个排除性约束要检验,且这q个变量是自变量中的最后q个:x k - q + 1 ,…,x k ,则受约束模型为:y=β 0 +β 1 x 1 +…+β k - q x k - q +u。
虚拟假设为H 0 :β k - q + 1 =0,…,β k =0,对立假设是列出的参数至少有一个不为零。定义F统计量为F=[(SSR r -SSR ur )/q]/[SSR ur /(n-k-1)]。其中,SSR r 是受约束模型的残差平方和,SSR ur 是不受约束模型的残差平方和。由于SSR r 不可能比SSR ur 小,所以F统计量总是非负的。q=df r -df ur ,即q是受约束模型与不受约束模型的自由度之差,也是约束条件的个数。n-k-1=分母自由度=df ur ,且F的分母恰好就是不受约束模型中σ 2 =Var(u)的一个无偏估计量。
假设CLM假设成立,在H 0 下F统计量服从自由度为(q,n-k-1)的F分布,即F~F q , n - k - 1 。如果F值大于显著性水平下的临界值,则拒绝H 0 而支持H 1 。当拒绝H 0 时,就说,x k - q + 1 ,…,x k 在适当的显著性水平上是联合统计显著的(或联合显著)。
2 F统计量和t统计量之间的关系
(1)当检验单个变量的显著性时,F统计量等于对应t统计量的平方。因为t n - k - 1 2 具有F 1 , n - k - 1 分布,所以在双侧对立假设下,这两种方法得到完全一样的结果。但t统计量可用来检验单侧备择假设,对于检验单个参数假设更灵活;且t统计量比F统计量更容易获得。因此一般用t统计量对单个参数假设进行检验。
(2)两(或多)个t检验不显著的变量,合起来可能十分显著。此外还可能,在一组解释变量中,一个变量t检验显著;但在常用的显著性水平上,这组变量却不是联合显著的。(t检验与F检验之间的这种可能冲突,给出了为什么不应该“接受”原假设的一个例子。)
(3)当一个变量十分显著时,对它与其他变量进行联合检验,结果是联合显著的。在这种情况下,同时拒绝这两个虚拟假设并不存在逻辑上的不一致。
3 F统计量的R 2 型
(1)F统计量的R 2 型的公式
计算公式为:F=[(R ur 2 -R r 2 )/q]/[(1-R ur 2 )/(n-k-1)]=[(R ur 2 -R r 2 )/q]/[(1-R ur 2 )/df ur ]。因为R ur 2 >R r 2 ,所以再次表明F总是正的。
(2)F统计量的R 2 型的优点
① R 2 必定介于0和1之间;而SSR在很大程度上依赖度量单位,计算较繁冗。
② R 2 在几乎所有的回归中都会报告,使用R 2 来检验变量的排除较为容易。
4 回归整体显著性的F统计量
在含有k个自变量的模型中,对于整体显著性检验的虚拟假设为所有的斜率参数都是零,即H 0 :β 1 =β 2 =…=β k =0,对应的受约束模型为y=β 0 +u。受约束模型的R 2 为零,因为y中的变异一点都没有得到解释。
F统计量的计算公式为:F=(R 2 /k)/[(1-R 2 )/(n-k-1)]。其中,R 2 是y对x 1 ,x 2 ,…,x k 回归的通常R 2 。上述F统计量的公式只有在检验所有自变量的联合排除时才有效。
5 检验一般的线性约束
在y=β 0 +β 1 x 1 +β 2 x 2 +β 3 x 3 +β 4 x 4 +u中,检验的原假设为H 0 :β 1 =1,β 2 =0,β 3 =0,β 4 =0。其中,除β 1 =1外都是排除性约束。
首先估计不受约束模型,得到SSR ur ;然后施加约束,得到受约束模型y=β 0 +x 1 +u,变换为y-x 1 =β 0 +u,估计该式子得到SSR r 。F统计量就是[(SSR r -SSR ur )/SSR ur ][(n-5)/4],将得到的F值与临界值比较即可决定是否拒绝原假设。
拓展: F检验与拟合优度检验的联系与区别(见表4-2)
表4-2 F检验与拟合优度检验的联系与区别