购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第2章
简单回归模型

2.1 复习笔记

考点一:简单回归模型的定义 ★★

1 简单线性回归模型

假定方程为:y=β 0 +β 1 x+u,若该方程在总体中成立,则它便定义了一个简单线性回归模型。模型将变量x和y联系起来,u是误差项或干扰项,表示除x之外的影响y的因素。β 0 和β 1 为待估参数,分别表示截距项和变量x的斜率。

拓展: 引入随机干扰项的原因及随机干扰项的性质(见图2-1)

图2-1 引入随机干扰项的原因及随机干扰项的性质

2 零条件均值假定

(1)零条件均值

u的平均值与x值无关且为0,即u的均值独立于x。满足:E(u|x)=E(u)=E(xu)=Cov(x,u)=0。

(2)零条件均值假定的意义

使β 1 有了另一种非常有用的解释。以x为条件取y的期望值,可得:E(y|x)=β 0 +β 1 x。方程表明,总体回归函数(PRF)E(y|x)是x的线性函数,β 1 是斜率参数。对任何给定的x值,y的分布都以E(y|x)为中心。

在给定该假定后,把方程中的y看成两个部分是比较有用的。一部分是y的系统部分,即β 0 +β 1 x,这是由x解释的部分;另一个部分是非系统部分u,即不能由x解释的那一部分。

考点二:普通最小二乘法 ★★★★★

1 最小二乘估计值

令{(x i ,y i ):i=1,…,n}表示从总体中抽取的一个容量为n的随机样本,满足:y i =β 0 +β 1 x i +u i 。第i次的残差是y i 与预期拟合值之差,即: u ( ) i =y i y ( ) i =y i β ( ) 0 β ( ) 1 x i 。OLS估计的方法就是要使残差平方和最小,即:

对上式关于 β ( ) 0 β ( ) 1 分别求偏导,得到:

可简写为:∑ u ( ) i =0和∑x i u ( ) i =0。通过求解两个方程即可得到 β ( ) 0 β ( ) 1 为:

一旦确定了截距和斜率的OLS估计值,就可以建立OLS回归线: y ( ) β ( ) 0 β ( ) 1 x,这被称为样本回归函数(SRF),因为它是总体回归函数的一个样本估计。总体回归函数是固定且未知的,而样本回归函数则是从一组给定的数据样本中得出的,不同的样本会使方程产生不同的斜率和截距。

拓展: 考察参数估计量优劣性的主要准则(见表2-1)

表2-1 考察参数估计量优劣性的主要准则

2 简单回归的相关概念(见表2-2)

表2-2 简单回归的相关概念

考点三:度量单位和函数形式 ★★★★

1 改变度量单位对OLS统计量的影响

(1)当改变因变量的度量单位时,截距和斜率估计值的变化可以很容易计算出来。若因变量乘以一个常数c,则截距和斜率的OLS估计值都将扩大为原来的c倍。

(2)若将自变量除以或乘以一个非零常数c,则OLS斜率系数也应分别被乘以或除以c。

(3)一般地,如果只改变自变量的度量单位,截距估计值是不会变化的。

(4)模型的拟合优度值与变量的度量单位无关。

2 在简单回归中加入非线性因素

百分比影响(近似)为常数的模型形式为:logy=β 0 +β 1 x+u。特别地,若Δu=0,有:%Δy≈(100·β 1 )Δx。

常弹性模型是自然对数的另一个应用,形式为:logy=β 0 +β 1 logx+u。若令y=logy,x=logx,则这个模型就变为了简单回归模型。斜率参数β 1 表示x关于y的弹性。

3 含对数的函数的几种形式(见表2-3)

表2-3 含对数的函数的几种形式

4 “线性”回归的含义

“线性”的含义是指相对于参数而言模型是线性的,即方程中的参数β 0 和β 1 是线性形式的,而被解释变量和解释变量的形式可以是线性也可以是非线性的。

考点四:OLS估计量的期望值和方差 ★★★★★

1 OLS的无偏性

(1)相关假定(见表2-4)

表2-4 相关假定

(2) β ( ) 1 与β 1 的差异

已知斜率估计量为:

将y i =β 0 +β 1 x i +u i 代入上式的分子中,分子变为:

又因为:

故斜率估计量可变为:

其中:d i =x i x ( _ ) 。上式说明, β ( ) 1 等于β 1 加上误差的一个线性组合。由于误差一般都不为零,所以 β ( ) 1 与β 1 存在差异。

(3)OLS的无偏性

利用假设SLR.1~SLR.4,对于任意的β 0 和β 1 ,有E( β ( ) 0 )=β 0 与E( β ( ) 1 )=β 1 成立,即 β ( ) 0 β ( ) 1 具有无偏性。

证明如下:

此外,对于 β ( ) 0 ,有: β ( ) 0 y ( _ ) β ( ) 1 x ( _ ) =β 0 +β 1 x ( _ ) u ( _ ) β ( ) 1 x ( _ ) =β 0 +(β 1 β ( ) 1 x ( _ ) u ( _ ) 。因为E( u ( _ ) )=0,故以x i 的值为条件,有:E( β ( ) 0 )=β 0 +E[(β 1 β ( ) 1 x ( _ ) ]+E( u ( _ ) )=β 0 +E[(β 1 β ( ) 1 x ( _ ) ]。又因为E( β ( ) 1 )=β 1 ,所以E( β ( ) 0 )=β 0

2 OLS估计量的方差

(1)相关假定

假设SLR.5(同方差性):在给定解释变量时,误差的方差都相同,即Var(u|x)=σ 2

(2)OLS估计量的抽样方差

在假设SLR.1~SLR.5下,以样本值{x 1 ,x 2 ,…,x n }为条件,有:

3 误差方差的估计

(1)误差与残差的区分

利用随机样本观测将总体模型写为:y i =β 0 +β 1 x i +u i 。还可以将y i 用其拟合值和残差表示出来:y i β ( ) 0 β ( ) 1 x i u ( ) i 。比较这两个方程可以发现,误差出现在包含总体参数β 0 和β 1 的方程中,残差则出现在包含估计值 β ( ) 0 β ( ) 1 的估计方程中。由于总体参数未知,所以误差无法观测;但残差是可以根据数据计算得到的。

因为: u ( ) i =y i β ( ) 0 β ( ) 1 x i =(β 0 +β 1 x i +u i )- β ( ) 0 β ( ) 1 x i =u i -( β ( ) 0 -β 0 )-( β ( ) 1 -β 1 )x i ,且 β ( ) 0 β ( ) 1 具有无偏性,所以 u ( ) i 与u i 之差的期望值为零。

(2)σ 2 的无偏估计量

对自由度进行调整,就可以得到σ 2 的无偏估计量为:

(3)σ 2 的无偏估计

在假设SLR.1~SLR.5下,有:E( σ ( ) 2 )=σ 2

证明: u ( ) i =u i -( β ( ) 0 -β 0 )-( β ( ) 1 -β 1 )x i 关于所有i进行平均,可以得到:0= u ( _ ) -( β ( ) 0 -β 0 )-( β ( ) 1 -β 1 x ( _ ) 。两式相减可得: u ( ) i =(u i u ( _ ) )-( β ( ) 1 -β 1 )(x i x ( _ ) )。因此有: u ( ) i 2 =(u i u ( _ ) 2 +( β ( ) 1 -β 1 2 (x i x ( _ ) 2 -2(u i u ( _ ) )( β ( ) 1 -β 1 )(x i x ( _ ) )。对所有i求和,又得到:

对上式取期望值,有:

因此:E[SSR/(n-2)]=σ 2 。σ的自然估计量为:

上式也称为回归标准误差(SER)。尽管 σ ( ) 不具有无偏性,但具有一致性。 β ( ) 1 的标准误差为:

考点五:过原点回归及对常数回归 ★★★

1 过原点回归

设过原点的模型为:

使用普通最小二乘法,此时最小化的残差平方和为:

求一阶偏导数,可得:

从而解出估计值为:

当且仅当 x ( _ ) =0时,这个估计值与带截距项的OLS估计量是相同的。

过原点回归的R 2 在计算SST时不消除y i 的样本均值,公式为:

其中,分子部分作为残差平方和是有意义的,而分母部分在已知y的总体均值为零时成立。如果用常规方法来计算R 2 ,结果有可能出现负值,因此一般不采用。

2 对常数回归

对于常数进行回归是指设定斜率为0并只估计截距项。OLS回归的结果表明:截距项一定是y i 样本均值。

考点六:对二值解释变量的回归(见表2-5) ★★★★

表2-5 对二值解释变量的回归 dM9stRXMGJUPX+nl6zR6GoU4Mlym1eVRTGo5mMUOx7SY8yP1zGgv1MBFD0RKgL53

点击中间区域
呼出菜单
上一章
目录
下一章
×