1 令kids表示一名妇女生过几个孩子,educ表示该妇女的受教育年数。生育率对受教育年数的简单回归模型为kids=β 0 +β 1 educ+u。式中,u为无法预测到的误差。
(i)u中包含什么样的因素?它们可能与受教育程度相关吗?
(ii)简单回归分析能够揭示当其他条件不变时,教育对生育率的影响吗?请解释。
答: (i)收入、年龄和家庭背景(如兄弟姐妹的数量)都可能包含在误差项中。它们可能与受教育程度相关:收入与受教育程度是呈正相关的;年龄与受教育程度是呈负相关的;兄弟姐妹的数量与受教育程度是负相关的。
(ii)假定(i)中所列举的因素固定不变,即以误差项的形式呈现在回归方程中,如果误差项与解释变量是相关的,即:E(u|educ)≠0。经典假定被推翻,则简单回归分析不能揭示当其他条件不变时,教育对生育率的影响。
2 在简单线性回归模型y=β 0 +β 1 x+u中,假定E(u)≠0。令α 0 =E(u),证明:这个模型总是可以改写为另一种形式:斜率与原来相同,但截距和误差有所不同,并且新的误差期望值为零。
证明: 在方程右边加上α 0 =E(u),则y=α 0 +β 0 +β 1 x+u-α 0 。
令新的误差项为:e=u-α 0 。
因此E(e)=0。
新的截距项为α 0 +β 0 ,斜率不变为β 1 。
3 下表包含了8个学生的ACT分数和GPA(平均成绩)。平均成绩以四分制计算,且保留一位小数。
(i)利用OLS估计GPA和ACT的关系;也就是说,求出如下方程中的截距和斜率估计值:
评价这个关系中系数的正负。这里的截距有没有一个有用的解释?请说明。如果ACT分数提高5分,预计GPA会提高多少?
(ii)计算每次观测的拟合值和残差,并验证残差和(近似)为零。
(iii)当ACT=20时,GPA的预测值为多少?
(iv)对这8个学生来说,GPA的波动有多少能由ACT解释?试说明。
答: (i)变量的均值为:
根据OLS估计量的公式可得: β 1 =5.8125/56.875=0.1022。
所以: β 0 =3.2125-0.1022×25.875=0.5681。
因此:
此处截距没有一个很好的解释,因为对样本而言,ACT并不接近0。如果ACT分数提高5分,预期GPA会提高0.1022×5=0.511。
(ii)每次观测的拟合值和残差表如表2-6所示:
表2-6
根据表可知,残差和为-0.0002,忽略固有的舍入误差,残差和近似为零。
(iii)当ACT=20,则:
(iv)残差平方和为:
而:
则判定系数为:R 2 =1-SSR/SST=1-0.4347/1.0288≈0.577。
GPA的变异中,有57.7%能由ACT解释。
4 数据集BWGHT包含了美国妇女生育方面的数据。我们关心的两个变量是因变量[婴儿出生体重的盎司数(bwght)]和解释变量[母亲在怀孕期间平均每天抽烟的根数(cigs)]。下面这个简单回归是用n=1388个出生数据进行估计的:
(i)当cigs=0时,预计婴儿的出生体重为多少?当cigs=20(每天一包)时呢?评价其区别。
(ii)这个简单回归能够得到婴儿出生体重和母亲抽烟习惯之间的因果关系吗?请解释。
(iii)要预测出生体重125盎司,cigs应该为多少?
(iv)样本中在怀孕期间不抽烟的妇女比例约为0.85。这有助于解释第(iii)部分的结论吗?
答: (i)当cigs=0时,预计婴儿的出生体重为119.77盎司;当cigs=20时,预计婴儿的出生体重为109.49盎司,比前者下降8.6%。
(ii)不能。因为还有其他因素影响婴儿的出生体重,如母亲的整体健康状况和产前护理的质量。这些因素可能与怀孕期间吸烟量是相关的。另外,咖啡因的摄入也会影响到婴儿的出生体重,这也与吸烟量相关。
(iii)要预测出生体重为125盎司,那么cigs=(125-119.77)/(-0.514)≈-10.18。
这是无意义的,它表明在一个解释变量的情况下预测出生体重会发生的后果。尽管有约700名婴儿的出生体重大于119.77盎司,但最大的预测出生体重不能超过119.77盎司。
(iv)1388名女性中有1176位在怀孕期间不吸烟,不吸烟比率达到了84.7%,因为模型仅仅使用吸烟量来解释出生体重,因此仅有一个预测出生体重的结果:即cigs=0时的出生体重。cigs=0时的预测结果必然大致位于样本数据的中间位置,因此可以预测高出生体重。
5
在线性消费函数
中,收入的(估计)边际消费倾向(MPC)就是斜率
β
1
,而平均消费倾向(APC)为
利用对100个家庭的年收入和消费的观测(均以美元计),便得到如下方程:
(i)解释这个方程中的截距,并评价它的符号和大小。
(ii)当家庭收入为30000美元时,预计消费为多少?
(iii)以inc为x轴,画出估计的MPC和APC图。
答: (i)截距表示当inc=0,cons预计将为-124.84美元。但这与事实不符,反映出消费函数在预测方面(尤其是收入处于较低的水平上时)是薄弱的。从年同比角度而言,-124.84美元与0美元的差距不大。
(ii)将30000美元代入方程:预计消费=-124.84+0.853×30000=25465.16(美元)。
(iii)MPC和APC如图2-2所示。即使截距是负的,样本中最小的APC是正的。图中从年均收入水平1000美元开始。
图2-2
6 利用基尔和麦克莱恩(Kiel and McClain,1995)有关1988年马萨诸塞州安德沃市的房屋出售数据,如下方程给出了房屋价格(price)和距离一个新修垃圾焚化炉的距离(dist)之间的关系:
(i)解释log(dist)的系数。它的符号是你所预期的吗?
(ii)你认为简单回归是否给出了在其他条件不变下,price对dist弹性的无偏估计量?(考虑一个城市决定放置焚化炉的地点的决策。)
(iii)还有哪些其他因素影响房屋售价?这些因素会与距离焚化炉的远近相关吗?
答: (i)符号为正,与预期相符。log(dist)的系数表示距离焚化炉的距离越远,价格就越高,价格的距离弹性是0.312,即距离远1%,价格上升0.312%。
(ii)城市通常决定将焚化炉放置在远离较贵的居民区的地方,这可能是log(dist)与房价正相关的原因。这将使得误差项的均值与解释变量取值相关,违背SLR.4,导致OLS估计有偏。
(iii)房屋的面积、洗手间的数量、占地面积大小、房龄、社区质量(包括学校质量)都会影响房屋的售价。这些与距离焚化炉的远近是相关的。
7 考虑储蓄函数
sav=β 0 +β 1 inc+u
式中,e为一个随机变量,且有E(e)=0和Var(e)=σ e 2 ,假设e独立于inc。
(i)证明:若E(u|inc)=0,则满足零条件均值这个关键假设(假设SLR.4)。[提示:若e独立于inc,则E(e|inc)=E(e)。]
(ii)证明:若Var(u|inc)=σ e 2 inc,则不满足同方差假设SLR.5。特别地,sav的方差随着inc而增加。[提示:若e和inc独立,则Var(e|inc)=Var(e)。]
(iii)讨论支持储蓄方差随着家庭收入而递增的证据。
证明:
(i)计算inc的条件期望值时,
变为一个常数,因此:
(ii)u的方差为:
因为sav的方差即为u的方差,所以可以看出sav的方差随着inc的增加而增加。
(iii)低收入家庭支出的灵活性较低,因为低收入家庭必须首先支付衣食住行等必需品。而高收入家庭具有较高的灵活性,部分家庭选择更多的消费,另一部分家庭选择更多的储蓄。这种较高的灵活性暗示高收入家庭中储蓄的变动幅度更大。
8
在高斯-马尔科夫假设SLR.1至SLR.5之下,考虑标准的简单回归模型y=β
0
+β
1
x+u。通常的OLS估计量
β
0
和
β
1
都是各自总体参数的无偏估计量。令
表示通过假定截距为零而得到的β
1
的估计量(见2.6节)。
(i)用x
i
、β
0
和β
1
表示
。证明:当总体截距(β
0
)为零时,
是β
1
的无偏估计量。有没有其他的情况使得
也是无偏的?
(ii)求
的方差。(提示:方差不依赖于β
0
。)
(iii)证明
[提示:对任何数据样本,
,除非
x
=0,否则该式严格不等。]
(iv)当我们要从
β
1
和
中做出选择时,评论偏误和方差的权衡关系。
答: (i)从过原点回归的估计量公式可知:
将y i =β 0 +β 1 x i +u i 代入可得:
分子化简后可写为:
因此:
对于所有的i而言E(u i )=0,则:
上式中右边的第一项表示
的偏差。当β
0
=0、
x
=0或
时,
是无偏的。
(ii)根据第(i)部分中所表示的
,可得方差为:
(iii)
对任何数据样本有:
除非 x =0。因此:
(iv)当β
0
不为0时,
是有偏估计量而
β
1
无偏,从偏误的角度看
β
1
优于
;当β
0
为0时,
与
β
1
均无偏,但
x
不为零时:
因此
优于
β
1
;此外,对于给定的样本而言,当
x
增加,
的有偏程度增加,但是当
x
增加时,Var(
β
1
)也同时增加。当β
0
较小时,
的偏差也很小。因此β
0
、
x
以及样本大小n(
的规模)决定了在均方误差上
和
β
1
的优劣。
9
(i)令
β
0
和
β
1
为y
i
对x
i
进行回归的截距和斜率(有n次观测);c
1
和c
2
为常数且c
2
≠0;
和
为c
1
y
i
对c
2
x
i
进行回归的截距和斜率。证明
且
,从而验证了2.4节中关于度量单位的命题。[提示:为得到
,把改变了度量单位的x和y代入(2.19)式。然后用(2.17)式求
,确定代入的是进行度量单位变换后的x和y以及正确的斜率。]
(ii)现在令
和
得自(c
1
+y
i
)对(c
2
+x
i
)的回归(对c
1
和c
2
不加任何限制)。
证明:
且
。
(iii)令
β
0
和
β
1
为log(y
i
)对x
i
回归的OLS估计值,其中我们必须假定对所有i,都有y
i
>0。对c
1
>0,令
和
为log(c
1
y
i
)对x
i
回归的截距和斜率。证明:
且
。
(iv)现在假定对所有i,都有x
i
>0。令
和
为y
i
对log(c
2
x
i
)回归的截距和斜率。
和
与y
i
对log(x
i
)回归的截距和斜率相比如何?
答:
(i)因为
,
,当为c
1
y
i
对c
2
x
i
进行回归时,可以通过方程(2.19)得到方程的斜率:
根据教材方程(2.17)可得截距项为:
(ii)使用与(i)相同的方法,可得
,
。因此
在(c
1
+y
i
)对(c
2
+x
i
)的回归中,c
1
和c
2
被完全排除在斜率公式以外,因此
。
截距为:
(iii)因为log(c 1 y i )=log(c 1 )+log(y i ),令c 1 代替log(c 1 ),y i 代替log(y i ),且c 2 =0,然后采用与(ii)相同的方法即可得
(iv)采用与(ii)相同的方法,设c
1
=0,c
2
替代log(c
2
),x
i
替代log(x
i
),如果
β
0
和
β
1
是原截距和斜率,那么此时的截距和斜率为:
和
。
10 令 β 0 和 β 1 分别为OLS截距和斜率估计量,并令 u 为误差(不是残差)的样本均值。
(i)证明: β 1 可写成
其中w i =d i /SST x ,d i =x i - x 。
(ii)利用第(i)部分及
,证明:
β
1
和
u
无关。[提示:要求你证明E[(
β
1
-β
1
)·
u
]=0。]
(iii)证明 β 0 可写成 β 0 =β 0 + u -( β 1 -β 1 ) x 。
(iv)利用第(ii)部分和第(iii)部分证明:Var( β 0 )=σ 2 /n+σ 2 ( x ) 2 /SST x 。
(v)第(iv)部分中的表达式能简化成方程(2.58)吗?[提示:
。]
证明: (i)因为
把y i =β 0 +β 1 x i +u i 代入分子部分并展开得
又
故
所以
(ii)因为cov( β 1 , u )=E[( β 1 -β 1 ) u ],需证明公式右边等于0。从(i)可知
因为误差项两两互不相关,则
E(u i u h )=0,i≠h
E(u i u )=E(u i 2 /n)=σ 2 /n
因此
(iii)最小二乘估计的截距公式为:
β 0 = y - β 1 x
代入
y =β 0 +β 1 x + u
则
β 0 =(β 0 +β 1 x + u )- β 1 x =β 0 + u -( β 1 -β 1 ) x
(iv)因为 β 1 和 u 是不相关的,则有:Var( β 0 )=Var( u )+Var( β 1 ) x 2 =σ 2 /n+(σ 2 /SST x ) x 2 =σ 2 /n+σ 2 x 2 /SST x 。
(v)能。
根据
则:
11 假设你对估计学生花在学习SAT预备课程上的小时数(hours)对SAT最终成绩(sat)的影响感兴趣。样本整体是某一年即将上大学的高三学生。
(i)假设你被允许进行一个对照试验。解释你将如何设计实验从而估计hours对sat的因果效应。
(ii)考虑一个更加实际的情形,即由学生选择在学习预备课程上花多少时间,而你只能随机地从总体中抽出sat和hours两个变量。将总体模型写作如下形式:
sat=β 0 +β 1 hours+u
式中,与通常带截距的模型一样,我们可以假设E(u)=0。列举出至少两个u中包含的因素。这些因素是否与hours正相关或负相关?
(iii)如果上一问等式中的预备课程有效果,那么在第(ii)部分的方程中,β 1 的符号应该是正还是负?
(iv)在第(ii)部分的方程中,β 0 应该如何解释?
答: (i)随机抽取学生花费在预备课程上的小时数,这样就能够保证hours与其他影响SAT的因素不相关。然后搜集与hours相对应的sat。在数据搜集过程中,尽可能多地收集数据。通过比较hours的变化与sat变化的关系,就可以验证两个变量之间的因果效应。
(ii)u中包含的因素有学生的能力、家庭收入、学生的健康水平等。学生的能力与hours呈负相关,家庭收入与hours呈正相关,健康水平与hours不相关。
(iii)预备课程有效,则β 1 的符号为正。
(iv)β 0 表示当hours=0时学生的平均SAT成绩。
12 考虑2.6节中描述的问题:进行一次回归并只估计截距。
(i)给定样本{y
i
:i=1,2,…,n},定义
β
0
是
的解。证明
,即样本均值使得残差平方和最小。(提示:你可以使用一元微积分,或者你可以通过在残差平方项中加上再减去
y
,并利用代数变换直接证明结果。)
(ii)定义残差
。证明这些残差的和总是等于0。
答: (i)证明:对方程中的b 0 求导数,得到:
所以当b
0
=∑y
i
/n=
y
时,
的值最小。
(ii)证明如下:
13 令y是一个响应变量,x是一个二值解释变量。令{(x i ,y i ):i=1,…,n}是一个容量为n的样本。令n 0 是x i =0的观测的个数,n 1 是x i =1的观测的个数。令 y 0 是x i =0的y i 的均值, y 1 是x i =1的y i 的均值。
(i)解释为什么我们能写出
,
证明 x =n 1 /n且1- x =n 0 /n。你如何解释 x ?
(ii)讨论
,
(iii)证明整个样本中y i 的均值 y 可以写成一个加权平均值
y =(1- x ) y 0 + x y 1
[提示:y i =(1-x i )y i +x i y i 。]
(iv)证明当x i 是二值变量时,
(提示:当x i 是二值变量时,x i 2 =x i 。)
(v)证明
(vi)利用(iv)和(v)得到(2.74)式。
(vii)推导方程(2.73)。
答:
(i)x
i
是二值解释变量,则x
i
=0或x
i
=1。当x
i
=0时,
;当x
i
=1时,
。所以,
。类似地,
。
因为
,而
,所以
x
=n
1
/n。
因为n 0 +n 1 =n,所以1- x =1-n 1 /n=(n-n 1 )/n=n 0 /n。
x 说明了观测值中x i =1的比例。
(ii)当x
i
=0时,
。如果x
i
=0,则(1-x
i
)y
i
=y
i
,否则为0。因此
如果x i =1,则x i y i =y i ,否则为0。因此
(iii)y i 的均值 y 可以写成
由第(i)部分知, x =n 1 /n且1- x =n 0 /n。所以, y =(1- x ) y 0 + x y 1 。
(iv)如果x i 是二值变量,则x i 2 =x i 。所以
(v)只考虑当x
i
=1时的情况,
。由第(i)部分
x
=n
1
/n可得:
。因此
(vi)教材(2.74)式为 β 1 = y 1 - y 0 。这与通常的OLS的推导方式相同:通过最小化残差平方和来获得估计值
将第(iv)部分和第(v)部分得到的结论代入上式中,得:
(vii)将第(iii)部分的结论 y =(1- x ) y 0 + x y 1 和第(vi)部分的结论 β 1 = y 1 - y 0 代入 β 0 = y - β 1 x 中得: β 0 =(1- x ) y 0 + x y 1 -( y 1 - y 0 ) x = y 0 - x y 0 + x y 1 - x y 1 + x y 0 = y 0 。得证。
14 在习题2.13的条件下,假设y i 也是二值变量。具体来说,y i 表示第i个工人在参加职业培训项目后是否被雇佣,y i =1表示得到了一份工作,y i =0表示没有得到工作。这里x i 表示职业培训项目的参加情况。证明 β 1 是参加项目和没有参加项目的人的雇佣率之差。
答:
当变量x
i
为二值变量时,
。这里,
y
1
代表参加职业培训项目工人的y
i
(就业状况)平均值,而
y
0
则是没有参加职业培训项目工人的y
i
平均值。由于y
i
本身也是一个二值变量,表示的是工人是否就业,那么y
i
的这些平均值实际上反映了每组(参加培训与未参加培训)中就业工人的比例。因此,
β
1
估计的就是参加项目和没有参加项目的人的雇佣率之差。
15 考虑2.7a节中潜在结果的框架,y i (0)和y i (1)是每种处理状态下的潜在结果。
(i)证明:如果我们对所有i都能观测到y i (0)和y i (1),那么τ ate 的无偏估计量就是
这有时被称为样本平均处理效应。
(ii)用y i (0)和y i (1)分别写出 y 0 和 y 1 ,并解释为什么观测到的样本均值 y 0 和 y 1 与 y (0)和 y (1)不同。
答: (i)平均处理效应(ATE)τ ate 表示为τ ate =E[y(1)-y(0)]。如果能够观察到每个观测值i在两种状态下的结果y i (0)和y i (1),那么
是E[y(1)]的无偏估计量。同理,
是E[y(0)]的无偏估计量。因此
(ii)可以写成y i =(1-x i )y i (0)+x i y i (1)。对于计算 y 0 所使用的所有观测值,x i =0,所以
同理,对于计算 y 1 所使用的所有观测值,x i =1,所以
因此, y 0 和 y 1 都是利用样本的子集来计算的。相比之下, y (0)和 y (1)则会使用整个样本进行计算,即在世界两种状态下的每个观测结果都被纳入计算中。
16 在潜在结果的框架中,假定项目资格被随机分配,但是不能强制参加。从形式上描述这种情况就是:对每个人i,z i 代表资格,x i 代表参与情况,随机分配资格意味着z i 与[y i (0),y i (1)]相独立,但是x i 可能不满足独立性假设。
(i)解释为什么估计量的均值之差不再是无偏的。
(ii)在职业培训项目中,什么样的个人行为会导致有偏?
答: (i)在本实验中,真正重要的是个体是否参与了项目,而非其资格状态。因此,关注的处理变量是x i ,而非z i 。差分均值估计量体现在回归方程y i =α 0 +τ ate x i +u i 中,其中误差项u i =u i (0)+[u i (1)-u i (0)]x i 。随机分配假设是指x i 与u i (0)及u i (1)都相互独立。由于x i 可能不独立于误差项,无法再得出结论说 τ ate 是平均处理效应的无偏估计。
(ii)存在多种原因导致x i 可能不独立于误差项。例如,如果努力水平相对较高的人更倾向于参与该项目,那么处理组中将有不成比例的高努力水平个体,而对照组中则会有更多低努力水平的个体(他们要么不符合条件,要么选择不参与)。有许多混杂变量可能同时影响参与度和收入,从而违反随机分配假设。
17 在不同(非恒定)处理效应的潜在结果框架中,误差可以写成
u i =(1-x i )u i (0)+x i u i (1)
令σ 0 2 =Var[u i (0)]且σ 1 2 =Var[u i (1)]。假定随机分配。
(i)找到Var(u i ∣x i )。
(ii)Var(u i ∣x i )在什么情况下是常数?
答: (i)Var(u i ∣x i )=Var[(1-x i )u i (0)+x i u i (1)]=(1-x i ) 2 σ 0 2 +x i 2 σ 1 2 。可以将x i 视为确定性变量,且由于x i 是二元变量,则Var(u i ∣x i )=(1-x i )σ 0 2 +x i σ 1 2 。
(ii)在以下三种情况下Var(u i ∣x i )是常数:
① 对所有i,x i =0;
② 对所有i,x i =1;
③ σ 0 2 =σ 1 2 。
前两种情形意味着在处理组或对照组中没有任何观测值,因而实验毫无用处。最后一种情况表明,未处理状态的结果与处理状态的结果具有完全相同的变异性。
18 令x是一个二值变量,假设P(x=1)=ρ,0<ρ<1。
(i)如果你抽取了一个容量为n的随机样本,找出概率γ n ,使得假设SLR.3不成立。(提示:找到所有观测x i 都是0或者都是1的概率。)证明当n→∞时,γ n →0。
(ii)如果ρ=0.5,计算n=10和n=100时(i)中的概率。
(iii)ρ=0.9时,进行(ii)中的计算。你的答案和(ii)相比有什么不同?
答: (i)观察到任意单个观测值x i =1的概率是P(x i =1)=ρ。假设观测是独立且同分布的,那么观察到n个观测值均为x i =1的概率将是P(x 1 =1)×P(x 2 =1)×…×P(x n =1)=ρ n 。观察到所有观测值x i =0的概率则为(1-ρ) n 。显然,只要0<ρ<1,当n→∞时,γ n →0。
(ii)P(x 1 =x 2 =…=x 10 =1)=0.5 10 =0.000977,P(x 1 =x 2 =…=x 100 =1)=0.5 100 =7.89×10 -31 。
(iii)P(x 1 =x 2 =…=x 10 =1)=0.9 10 =0.348678,P(x 1 =x 2 =…=x 100 =1)=0.9 100 =0.000027。
即便在对照组的较高概率下,也不需要非常大的样本量就能使违反SLR.3假设的概率基本上降至零。
C1.401K中的数据是帕普克(Papke,1995)所分析数据的一个子集,帕普克是为了研究401(k)养老金计划的参与率和该计划的慷慨程度之间的关系。变量prate是有资格参与该计划的工人中拥有活动账户的百分比,也是我们要解释的变量。慷慨程度指标是计划的匹配率mrate。这个变量给出了工人每向这个账户存1美元,公司为该工人匹配的金额。例如,若mrate=0.50,则工人每投入1美元,公司就匹配50美分。
(i)求出该计划的样本中的平均参与率和平均匹配率。
(ii)现在估计下面这个简单回归方程:
报告你的结果以及样本容量和R 2 。
(iii)解释你的方程中的截距。解释mrate的系数。
(iv)当mrate=3.5时,求出prate的预测值。这是一个合理的预测吗?解释这里出现的情况。
(v)prate的波动中,有多少是由mrate解释的?你认为这是一个足够大的量吗?
答: (i)平均参与率是87.63%,平均匹配率是0.732。
(ii)回归方程为:
(iii)截距表示即使mrate=0,预测的参与率是83.08%。mrate的系数表明匹配率每增加1美元,则有资格参与该计划的员工中拥有活动账户的百分比(prate)增加5.86%。该结果假定prate的变动是可能的。如果prate已经达到98%,那么截距就是无意义的。
(iv)如果mrate=3.5,则:
这不是一个合理的预测,因为参与率不可能超过100%。这表明因变量是有界限的,简单回归所预测的自变量的极值是不符合常理的。
(v)prate的变异中,有7.5%是由mrate解释的,说明还有其他因素影响养老金计划参与率。
C2.数据集CEOSAL2包含了美国公司首席执行官的信息。变量salary是以千美元计的年薪,ceoten是已担任公司CEO的年数。
(i)求出样本中的平均年薪和平均任期。
(ii)有多少位CEO尚处于担任CEO的第一年(也就是说,ceoten=0)?最长的CEO任期是多少?
(iii)估计简单回归模型log(salary)=β 0 +β 1 ceoten+u,以通常格式报告结果。多担任一年CEO,预计年薪增长(近似)的百分数是多少?
答: (i)平均年薪为865.864千美元,平均任期为7.95年。
(ii)有5位CEO处于担任CEO的第一年。最长的CEO任期是37年。
(iii)回归方程是:
多担任一年CEO,预计年薪增长的近似百分数是0.97%(或1%)。
C3.利用比德尔和哈默梅什(Biddle and Hamermesh,1990)中的SLEEP75数据,研究在每周用于睡眠的时间和用于有酬工作的时间之间是否有替代关系。我们可以用它们中的任何一个作为因变量。为具体起见,估计模型sleep=β 0 +β 1 totwrk+u。式中,sleep是每周用于晚上睡眠的分钟数,totwrk是这一周中用于有酬工作的分钟数。
(i)用方程的形式,连同观测的次数和R 2 报告你的结果。该方程中的截距表示什么?
(ii)若totwrk增加2小时,则sleep要减少多少?你觉得这是一个很大的效应吗?
答: (i)估计方程为:
截距表示不工作的人每周用于晚上睡眠的时间为3586.4分钟。这意味着每晚睡眠的时间达到8.5小时。
(ii)当Δtotwrk=120(因为totwrk是用分钟度量的),则Δsleep=-0.151×120=-18.12(分钟)。这并不是一个很大的效应。如果某人在5个工作日的工作时间均增加一小时,睡眠总减少时间约为45分钟,平摊在每晚只有约5分钟。
C4.利用WAGE2中的数据估计一个简单回归,以便用智商(IQ)来解释月薪(wage)。
(i)求出样本中的平均工资和平均IQ。IQ的样本标准差是多少?(总体中的IQ已标准化为平均值是100,标准差是15。)
(ii)估计一个简单回归模型,其中IQ提高一个单位导致wage变化相同的数量。利用这个模型计算IQ提高15个单位时工资的预期变化。IQ能够解释大多数的工资波动吗?
(iii)现在再估计一个模型,其中IQ提高一个单位,工资的变动百分比相同。如果IQ提高15个单位,预期工资提高的百分比大约是多少?
答: (i)平均工资为957.95美元,平均IQ为101.28。IQ的样本标准差为15.05,与总体标准差非常接近。
(ii)简单回归模型为:
IQ提高15个单位导致工资变化8.3×15=124.5(以1980年的美元计价)。IQ不能够解释大多数工资波动,薪水的波动中,仅有9.6%是由IQ解释的。
(iii)回归模型为:
如果IQ提高15个单位,则:
因此预期工资提高的百分比大约是13.2%。
C5.在化工产业的企业总体中,令rd表示年研发支出,sales表示年销售额(都以百万美元计)。
(i)写出一个模型(不是估计方程),其中rd和sales之间的弹性为常数。哪一个参数代表弹性?
(ii)再用RDCHEM中的数据估计模型。以通常格式写出估计方程。rd关于sales的弹性估计值是多少?用文字解释这个弹性的含义。
答: (i)不变弹性的对数-对数模型为:log(rd)=β 0 +β 1 log(sales)+u。参数β 1 代表弹性。
(ii)估计方程为:
rd关于sales的弹性估计值是1.076,说明sales每增长1%,rd将会增长1.076%。
C6.利用例2.12中MEAP93的数据。现在我们想要探索数学考试通过率(math10)和每个学生的支出(expend)的关系。
(i)你认为额外支出的每一美元对通过率是否有相同的影响?或者说边际效用似乎更适当?请解释。
(ii)在总体模型math10=β 0 +β 1 log(expend)+u中,证明β 1 /10代表当expend增加10%时,math10变化的百分比。
(iii)利用MEAP93中的数据估计第(ii)部分的模型。用方程的形式,连同观测的次数和R 2 报告结果。
(iv)估计的支出的影响有多大?换句话说,如果支出增加10%,math10估计增长多少百分比?
(v)有人可能担心回归分析会得到比100大的math10的估计值。为什么在这个数据中不需要担心太多?
答: (i)额外支出的每一美元对通过率的影响是有差别的,在低支出的学校会存在更多的正向的影响,因为他们可以使用这些钱来买书或雇佣更好的老师;在高支出的学校的正向影响更小,因为他们用于学习的支出很少。这与边际效用递减相似。
(ii)Δmath10=β 1 Δlog(expend)≈(β 1 /100)(%Δexpend),所以如果%Δexpend=10,则Δmath10=β 1 /10。
(iii)估计的结果为:
(iv)如果expend增加10%,
大约增加1.1%。
(v)因为样本中,math10的最大值为66.7,距离100还有很远。
C7.利用CHARITY的数据[从弗朗西斯和帕普(Franses and Paap,2001)的文章中得到]回答下列问题:
(i)样本中4268人的平均捐赠数量是多少(以荷兰盾计)?没有任何捐赠的人占多大百分比?
(ii)每年的平均邮寄数量是多少?最大值和最小值是多少?
(iii)用OLS方法估计模型gift=β 0 +β 1 mailsyear+u,并用方程的形式,连同观测的次数和R 2 报告结果。
(iv)解释斜率系数。如果每次邮寄花费1荷兰盾,慈善组织是否期望在每单邮寄上赚取净收益?这是否意味着慈善组织在每单邮寄上赚取了净收益?请解释。
(v)此样本中的预测慈善捐助最小是多少?利用样本进行回归分析,你会得到gift的预测值为0吗?
答: (i)平均的捐赠量为7.44荷兰盾。样本中有2561人没有捐赠,占比为60%。
(ii)每年的平均邮寄数量为2.05,最小值是0.25,最大值是3.5。
(iii)回归的结果如下所示:
(iv)在其他条件不变的情况下,每年邮寄数量增加1单位,平均捐赠数量增加2.65单位。如果每次邮寄花费1荷兰盾,那么慈善组织期望每单邮寄上获取1.65荷兰盾的净利润。但是这只代表着平均值,不能说明慈善组织在每单邮寄上赚取了净收益,有的邮寄收益低于成本,有的高于成本。
(v)mailsyear的最小值为0.25,所以估计的捐赠数量最小值为2.01+2.65×0.25≈2.67。即使mailsyear=0,即有一些人没有邮寄,此时捐赠的数量估计为2.01。所以gift的预测值不会为0。
C8.你需要一个可以生成服从均匀分布和正态分布数据的软件包来完成本题。
(i)首先生成解释变量x i ——取值区间为[0,10]的服从均匀分布的500个观测值。[大多数统计软件包有生成取值(0,1)的均匀分布的指令;将这些观测值乘以10即可。]x i 的样本均值和样本标准差是多少?
(ii)随机生成500个服从(0,36)正态分布的误差项u i 。[在通常可行的情况下,如果你生成一个(0,1)正态分布,将结果乘以6即可。]u i 的样本均值是否恰好为0?为什么?u i 的样本标准差是多少?
(iii)现在用以下等式生成y i :y i =1+2x i +u i ≡β 0 +β 1 x i +u i 。也就是说,整体的截距是1,斜率是2。利用数据进行y i 对x i 的回归。截距和斜率的估计值是多少?是否等于上式中的总体值?请解释。
(iv)求出OLS回归的残差和 u i ,并证明等式(2.60)(四舍五入)。
(v)用误差项u i 代替残差计算等式(2.60)中的量。现在你能推断出什么?
(vi)重新生成一组新数据x i ,重复第(i)、(ii)和(iii)部分。现在你得到的 β 0 和 β 1 的值是多少?为什么这和你在第(iii)部分中得到的结果不同?
答: 采用stata来完成此题。代码为:
(i)平均值为4.912,标准差为2.874。
(ii)样本的平均值是0.221,很接近0。这是因为样本恰好没有在总体均值为0的范围内。标准差为5.768。
(iii)采用软件回归,得到的估计值为 β 0 =1.862, β 1 =1.870。估计值与理论值之间存在一定的差别,但是斜率与总体的理论值接近。这是样本的代表性出现了问题,样本不足以代表总体的情况,可以进一步扩充样本解决这个问题。
(iv)残差的和以及x i u i 的和分别是4.181×10 -6 和3.776×10 -5 ,很接近0。
(v)用误差项代替残差,重新计算得到u i 的和为110.74,x i u i 的和为6.46。两者都不接近0,并且没有理论说明它们接近于0。
(vi)可以增加样本的数量,只需将obs后的数量改变,重复上面的代码即可。
【说明】 本题因为是随机生成的数字,每一次的结果都会有差别,答案仅供参考。
C9.利用COUNTYMURDERS中的数据回答本题。只使用1996年的数据。
(i)1996年多少城镇没有发生谋杀案?多少城镇执行1起死刑?执行死刑数量的最大值是多少?
(ii)用OLS方法估计模型murders=β 0 +β 1 execs+u,并用方程的形式,连同观测的次数和R 2 报告结果。
(iii)解释在第(ii)部分中得到的斜率系数。估计模型是否显示出了死刑的震慑作用?
(iv)等式预测的谋杀案的最小值是多少?零死刑、零谋杀的城镇的残差是多少?
(v)解释为什么简单回归分析不能很好地判断死刑是否对谋杀有震慑作用。
答: (i)在1996年,1051个城镇没有发生谋杀案。31个城镇执行1起死刑,执行死刑数量的最大值为31。
(ii)估计的回归结果为:
(iii)在其他条件不变的情况下,死刑每增加1起,估计的谋杀案增加约59起。模型显示死刑没有震慑作用。
(iv)当执行死刑数量为0时,谋杀案估计最小为5.46。零死刑、零谋杀的城镇的残差为-5.46。
(v)因为简单回归模型中的误差项可能含有某些与死刑相关的变量,导致了系数估计存在偏误。
C10.CATHOLIC中的数据集包括美国1988年上8年级的7000多名学生的考试成绩信息。变量math12和read12分别代表12年级标准数学和阅读考试的成绩。
(i)样本中有多少学生?找出math12和read12的平均值和标准差。
(ii)用read12对math12进行简单回归,从而得到OLS截距和斜率的估计值。用下面的形式报告结果:
将 β 0 和 β 1 及问号替换成数值。
(iii)在第(ii)部分中得到的截距是否有意义?请解释。
(iv)你是否为得到的 β 1 的值感到惊讶?R 2 呢?
(v)假设你将你的发现呈现给校领导,校领导说:“你的发现表明要提高学生的数学成绩,只需要提高他们的阅读成绩,所以我们应该聘请更多的阅读老师。”你将如何回应这一评价?(提示:如果你反过来用math12对read12进行回归,你认为会有什么发现?)
答: (i)样本中有7430个学生。math12的平均值为52.13,标准差为9.46。read12的平均值为51.77,标准差为9.41。
(ii)回归结果如下:
(iii)没有意义。因为阅读的分数在样本中没有接近于0的。
(iv)不惊讶。因为阅读和数学都能够衡量学生的能力,所以两种成绩能够相互解释一部分。根据回归结果,R 2 =0.5047,阅读成绩可以解释50.47%的数学成绩。
(v)这种说法是不合理的。因为如果使用math12对read12回归,几乎可以得到相似的结果。这不能说明两者之间存在因果关系。
C11.使用GPA1中的数据来回答本题。这是20世纪90年代中期密歇根州立大学本科生的样本,包括了现在大学的GPA,用colGPA表示,还包括表示学生是否拥有个人电脑的二值变量PC。
(i)样本中有多少学生?找出大学GPA的平均值和最高值。
(ii)多少学生拥有自己的电脑?
(iii)估计如下简单回归方程:colGPA=β 0 +β 1 PC+u,并且报告β 0 和β 1 的估计值。解释这些估计量,并且讨论它们的量级。
(iv)这个回归的R 2 是多少?你认为它算大吗?
(v)第(iii)部分中你的结果是否意味着拥有一台个人电脑对colGPA有因果效应?解释你的结论。
答: (i)样本中有141名学生。大学GPA的平均值为3.057,最高值为4.0(有1名学生的绩点为此值)。
(ii)56名学生拥有自己的电脑。
(iii)回归结果为:
通过计量经济学分析发现,未拥有个人电脑的学生群体,其大学期间的平均绩点(GPA)估计值为2.989。而对于拥有个人电脑的学生来说,他们的平均GPA相较于未拥有个人电脑的学生高出了0.17分,且在1%的显著性水平下具有统计显著性。这0.17分的GPA提高,相对于未拥有电脑学生群体的平均GPA而言,代表了一个约为5.7%的增幅。
(iv)R 2 =0.05,意味着仅用PC解释了大学GPA变化的大约5%。因此,还有许多其他因素影响着大学GPA。
(v)如果个人电脑(PC)的拥有是随机分配的,那么就可以推断其对大学GPA的因果效应。然而,这种实验中实现随机分配的可能性极低。有很多因素可能同时影响大学GPA和电脑拥有情况,而这些因素在分析中被忽略了。例如,考虑家长的收入水平。来自较富裕家庭的学生更可能拥有个人电脑。这些学生同样不太需要在大学期间工作,从而有更多时间用于学习,可能会获得更高的GPA。因此,无法将个人电脑拥有带来的影响与家长收入的影响区分开来。还有很多其他未被纳入考量的变量(遗漏变量)可能导致违反随机分配的假设条件。