1 简单线性回归模型
假定方程为:y=β 0 +β 1 x+u,若该方程在总体中成立,则它便定义了一个简单线性回归模型。模型将变量x和y联系起来,u是误差项或干扰项,表示除x之外的影响y的因素。β 0 和β 1 为待估参数,分别表示截距项和变量x的斜率。
拓展: 引入随机干扰项的原因及随机干扰项的性质(见图2-1)
图2-1 引入随机干扰项的原因及随机干扰项的性质
2 零条件均值假定
(1)零条件均值
u的平均值与x值无关且为0,即u的均值独立于x。满足:E(u|x)=E(u)=E(xu)=Cov(x,u)=0。
(2)零条件均值假定的意义
① 使β 1 有了另一种非常有用的解释。以x为条件取y的期望值,可得:E(y|x)=β 0 +β 1 x。方程表明,总体回归函数(PRF)E(y|x)是x的线性函数,β 1 是斜率参数。对任何给定的x值,y的分布都以E(y|x)为中心。
② 在给定该假定后,把方程中的y看成两个部分是比较有用的。一部分是y的系统部分,即β 0 +β 1 x,这是由x解释的部分;另一个部分是非系统部分u,即不能由x解释的那一部分。
1 最小二乘估计值
令{(x i ,y i ):i=1,…,n}表示从总体中抽取的一个容量为n的随机样本,满足:y i =β 0 +β 1 x i +u i 。第i次的残差是y i 与预期拟合值之差,即: u i =y i - y i =y i - β 0 - β 1 x i 。OLS估计的方法就是要使残差平方和最小,即:
对上式关于 β 0 和 β 1 分别求偏导,得到:
可简写为:∑ u i =0和∑x i u i =0。通过求解两个方程即可得到 β 0 和 β 1 为:
一旦确定了截距和斜率的OLS估计值,就可以建立OLS回归线: y = β 0 + β 1 x,这被称为样本回归函数(SRF),因为它是总体回归函数的一个样本估计。总体回归函数是固定且未知的,而样本回归函数则是从一组给定的数据样本中得出的,不同的样本会使方程产生不同的斜率和截距。
拓展: 考察参数估计量优劣性的主要准则(见表2-1)
表2-1 考察参数估计量优劣性的主要准则
2 简单回归的相关概念(见表2-2)
表2-2 简单回归的相关概念
1 改变度量单位对OLS统计量的影响
(1)当改变因变量的度量单位时,截距和斜率估计值的变化可以很容易计算出来。若因变量乘以一个常数c,则截距和斜率的OLS估计值都将扩大为原来的c倍。
(2)若将自变量除以或乘以一个非零常数c,则OLS斜率系数也应分别被乘以或除以c。
(3)一般地,如果只改变自变量的度量单位,截距估计值是不会变化的。
(4)模型的拟合优度值与变量的度量单位无关。
2 在简单回归中加入非线性因素
百分比影响(近似)为常数的模型形式为:logy=β 0 +β 1 x+u。特别地,若Δu=0,有:%Δy≈(100·β 1 )Δx。
常弹性模型是自然对数的另一个应用,形式为:logy=β 0 +β 1 logx+u。若令y=logy,x=logx,则这个模型就变为了简单回归模型。斜率参数β 1 表示x关于y的弹性。
3 含对数的函数的几种形式(见表2-3)
表2-3 含对数的函数的几种形式
4 “线性”回归的含义
“线性”的含义是指相对于参数而言模型是线性的,即方程中的参数β 0 和β 1 是线性形式的,而被解释变量和解释变量的形式可以是线性也可以是非线性的。
1 OLS的无偏性
(1)相关假定(见表2-4)
表2-4 相关假定
(2) β 1 与β 1 的差异
已知斜率估计量为:
将y i =β 0 +β 1 x i +u i 代入上式的分子中,分子变为:
又因为:
故斜率估计量可变为:
其中:d i =x i - x 。上式说明, β 1 等于β 1 加上误差的一个线性组合。由于误差一般都不为零,所以 β 1 与β 1 存在差异。
(3)OLS的无偏性
利用假设SLR.1~SLR.4,对于任意的β 0 和β 1 ,有E( β 0 )=β 0 与E( β 1 )=β 1 成立,即 β 0 与 β 1 具有无偏性。
证明如下:
此外,对于 β 0 ,有: β 0 = y - β 1 x =β 0 +β 1 x + u - β 1 x =β 0 +(β 1 - β 1 ) x + u 。因为E( u )=0,故以x i 的值为条件,有:E( β 0 )=β 0 +E[(β 1 - β 1 ) x ]+E( u )=β 0 +E[(β 1 - β 1 ) x ]。又因为E( β 1 )=β 1 ,所以E( β 0 )=β 0 。
2 OLS估计量的方差
(1)相关假定
假设SLR.5(同方差性):在给定解释变量时,误差的方差都相同,即Var(u|x)=σ 2 。
(2)OLS估计量的抽样方差
在假设SLR.1~SLR.5下,以样本值{x 1 ,x 2 ,…,x n }为条件,有:
3 误差方差的估计
(1)误差与残差的区分
利用随机样本观测将总体模型写为:y i =β 0 +β 1 x i +u i 。还可以将y i 用其拟合值和残差表示出来:y i = β 0 + β 1 x i + u i 。比较这两个方程可以发现,误差出现在包含总体参数β 0 和β 1 的方程中,残差则出现在包含估计值 β 0 和 β 1 的估计方程中。由于总体参数未知,所以误差无法观测;但残差是可以根据数据计算得到的。
因为: u i =y i - β 0 - β 1 x i =(β 0 +β 1 x i +u i )- β 0 - β 1 x i =u i -( β 0 -β 0 )-( β 1 -β 1 )x i ,且 β 0 与 β 1 具有无偏性,所以 u i 与u i 之差的期望值为零。
(2)σ 2 的无偏估计量
对自由度进行调整,就可以得到σ 2 的无偏估计量为:
(3)σ 2 的无偏估计
在假设SLR.1~SLR.5下,有:E( σ 2 )=σ 2 。
证明: 将 u i =u i -( β 0 -β 0 )-( β 1 -β 1 )x i 关于所有i进行平均,可以得到:0= u -( β 0 -β 0 )-( β 1 -β 1 ) x 。两式相减可得: u i =(u i - u )-( β 1 -β 1 )(x i - x )。因此有: u i 2 =(u i - u ) 2 +( β 1 -β 1 ) 2 (x i - x ) 2 -2(u i - u )( β 1 -β 1 )(x i - x )。对所有i求和,又得到:
对上式取期望值,有:
因此:E[SSR/(n-2)]=σ 2 。σ的自然估计量为:
上式也称为回归标准误差(SER)。尽管 σ 不具有无偏性,但具有一致性。 β 1 的标准误差为:
1 过原点回归
设过原点的模型为:
使用普通最小二乘法,此时最小化的残差平方和为:
求一阶偏导数,可得:
从而解出估计值为:
当且仅当 x =0时,这个估计值与带截距项的OLS估计量是相同的。
过原点回归的R 2 在计算SST时不消除y i 的样本均值,公式为:
其中,分子部分作为残差平方和是有意义的,而分母部分在已知y的总体均值为零时成立。如果用常规方法来计算R 2 ,结果有可能出现负值,因此一般不采用。
2 对常数回归
对于常数进行回归是指设定斜率为0并只估计截距项。OLS回归的结果表明:截距项一定是y i 样本均值。
表2-5 对二值解释变量的回归