购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

4.2 课后习题详解

一、习题

1 下面哪种因素可能导致通常OLS的t统计量无效(即在H 0 下不服从t分布)?

(i)条件异方差性。

(ii)模型中两个自变量之间的样本相关系数达到0.95。

(iii)遗漏一个重要的解释变量。

答: (i)和(iii)可能导致通常OLS的t统计量无效。同方差性是CLM假设之一。遗漏一个重要的变量违背了假设MLR.3。(ii)CLM假设除了排除相关系数等于1的情况外,并没有涉及自变量之间的相关性。

2 考虑一个用企业年销售额、股本回报率(roe,以百分数表示)和企业股票的回报(ros,以百分数表示)来解释CEO薪水的如下方程:

log(salary)=β 0 +β 1 log(sales)+β 2 roe+β 3 ros+u

(i)用模型参数来表述如下原假设:在控制了sales和roe后,ros对CEO的薪水没有影响。再给出备择假设的参数表述:股票市场更好的业绩会提高CEO的薪水。

(ii)使用CEOSAL1中的数据,通过OLS可以得到如下方程:

如果ros提高50个百分点,预计salary会提高多大比例?ros对salary实际上具有很大的影响吗?

(iii)检验ros对salary没有影响的原假设,备择假设是ros对salary具有正效应。在10%的显著性水平上进行检验。

(iv)你会在一个用企业业绩表示CEO报酬的最终模型中包括ros吗?给出你的解释。

答: (i)原假设为:H 0 :β 3 =0;备择假设为:H 1 :β 3 >0。

(ii)如果ros提高50个百分点,预计salary会提高:0.00024×50=0.012=1.2%。因此ros对salary的影响实际上是很小的。

(iii)自由度为n-k-1=209-3-1=205,10%的显著性水平下,单侧检验的临界值为1.282。t统计量为:0.00024/0.00054≈0.44,小于临界值,因此在10%的显著水平上不能拒绝虚拟假设,即ros对salary没有影响。

(iv)会。一方面,从经济角度而言,认为股票收益率影响CEO报酬是合理的;基于样本而言,估计的ros系数看起来等于0的原因可能是抽样偏误所导致;另一方面,在模型中包含ros不会造成任何损害,这取决于它与其他的自变量之间的相关关系。

3 变量rdintens是研发支出(R&D)占销售额的百分比。销售额以百万美元度量。变量profmarg是利润占销售额的百分比。

利用RDCHEM中32家化工企业的数据,估计如下方程:

(i)解释log(sales)的系数。此外,如果sales增加10%,估计rdintens会变化多少个百分点?这在经济上是一个很大的影响吗?

(ii)检验R&D不随sales而变化这一原假设,备择假设是:它随着销售额的增加而提高。在5%和10%的显著性水平上进行这个检验。

(iii)解释profmarg的系数,它在经济上显著吗?

(iv)profmarg对rdintens是否在统计上有显著的影响?

答: (i)保持profmarg不变, 。因此,如果%Δsales=10, 。估计rdintens会变化3个百分点,相对于sales的一个比较大的比例变动,对rdintens并不是一个很大的影响。

(ii)原假设:H 0 :β 1 =0,备择假设为:H 1 :β 1 >0。β 1 是log(sales)的系数。t统计量为:0.321/0.216≈1.486。进行单侧检验,在5%的显著性水平上,自由度为29,临界值为1.699,因此在该显著性水平上不能拒绝原假设。但是在10%的显著性水平上,临界值为1.311,小于t统计量,拒绝原假设,即R&D的强度随着销售额的增加而提高。

(iii)在其他条件不变的情况下,profmarg每增加1单位,rdintens增加0.05单位,即研发支出占销售额的百分比增加5%。

profmarg的系数在经济上显著。根据先验经验,当利润越高,无论是出于避税目的还是提升企业自主创新能力的需要,研发支出都会越高,因此profmarg的系数是正的,符合一般规律。

(iv)profmarg对rdintens的影响统计不显著。因为其t统计量等于1.087,小于在10%的显著性水平上单侧检验的临界值。

4 租金率是否受到一个大学城里学生人数的影响?令rent表示美国一个大学城里单位租借面积的平均月租金,pop表示城市总人口,avginc表示城市平均收入,pctstu表示学生人数占总人口的百分比。一个检验该关系的模型是

log(rent)=β 0 +β 1 log(pop)+β 2 log(avginc)+β 3 pctstu+u

(i)表述原假设:在其他条件不变的情况下,学生人数相对于总人口的大小对月租金没有影响。并表述有影响时的备择假设。

(ii)你预期β 1 和β 2 具有什么样的符号?

(iii)利用RENTAL中64个大学城在1990年的数据所估计的方程为

“总人口增加10%将伴随着租金提高约6.6%”的说法有什么不妥?

(iv)在1%的显著性水平上检验第(i)部分陈述的假设。

答: (i)原假设为:H 0 :β 3 =0;备择假设:H 1 :β 3 ≠0。

(ii)其他条件相同的情况下,总人口增加使租房需求增加,从而租金增加。当平均收入更高时,对整体住房的需求增加,推高了房地产的成本,包含租金率。因此β 1 和β 2 都是正的。

(iii)log(pop)的系数表示的是弹性,正确的说法应该是:总人口增加10%,租金将提高0.66%。

(iv)自由度为60,1%的显著性水平下,双侧检验的临界值为2.66。t统计量是3.29,大于临界值,因此拒绝原假设,β 3 统计显著地不等于0。

5 考虑例4.3中的估计方程,其可用于研究每周缺课次数对大学GPA的影响:

(i)利用标准正态近似,求出β hsGPA 在置信水平为99%时的置信区间。

(ii)相对于双侧备择假设,你能在5%的显著性水平上拒绝假设H 0 :β hsGPA =0.4吗?

(iii)相对于双侧备择假设,你能在5%的显著性水平上拒绝假设H 0 :β hsGPA =1吗?

答: (i)β hsGPA 的标准差为0.094,t对应的临界值为1.96,置信区间是0.412±1.96×0.094,即[0.228,0.596]。

(ii)不能。因为0.4在95%的置信区间之内。

(iii)能。因为1在95%的置信区间之外。

6 在4.5节,我们使用了一个检验住房价格定价是否合理的例子。在那里,我们使用了price和assess的一个对数-对数模型[参见方程(4.47)]。这里,我们采用一个水平值-水平值的表述。

(i)在简单回归模型price=β 0 +β 1 assess+u中,若β 1 =1且β 0 =0,则评价是理性的。所估计的方程是

首先,相对于双侧备择假设,检验H 0 :β 0 =0。然后,相对于双侧备择假设,检验H 0 :β 1 =1。你的结论是什么?

(ii)为了检验联合假设β 0 =0和β 1 =1,我们需要约束模型的SSR。这就要求在n=88的情况下计算

因为约束模型的残差刚好就是price i -assess i 。(由于两个参数在H 0 下都被设定,所以不需要约束模型的估计值。)最终得到SSR=209448.99。对这个联合假设进行F检验。

(iii)现在检验模型price=β 0 +β 1 assess+β 2 lotsize+β 3 sqrft+β 4 bdrms+u中的假设H 0 :β 2 =0、β 3 =0和β 4 =0。利用同样88个住房数据估计这个模型的R 2 是0.829。

(iv)如果price的方差随着assess、sqrft、lotsize或bdrms而变化,你对第(iii)部分的F检验有什么看法?

答: (i)自由度为88-2=86,在5%的显著性水平下,双侧检验的临界值是1.987。H 0 :β 0 =0的t统计量为0.89,因此不能拒绝虚拟假设。H 0 :β 1 =1的t统计量为(0.976-1)/0.049≈-0.49,同样是统计不显著的,因此无法拒绝虚拟假设。

(ii)因为SSR r =209448.99,SSR ur =165644.51,q=2,因此F统计量为:F=[(209448.99-165644.51)/165644.51]×(86/2)≈11.37。查表可得,1%显著水平上,自由度分别为2和90的临界值为4.85,因此拒绝虚拟假设。

(iii)采用R 2 型的F统计量,无约束模型中的自由度为88-5=83。F统计量为:F=[(0.829-0.82)/(1-0.829)]×(83/3)≈1.46。在10%的显著性水平上,临界值为2.15,因此不能拒绝原假设。此时p值为0.23。

(iv)如果存在异方差性,则违背了MLR.5,在零假设条件下,F统计量服从F分布。因此,将F统计量与临界值相比较,或从F分布得到p值都是没有意义的。

7 在例4.7中,我们利用非工会制造企业的数据,估计了废弃率与其他企业特征之间的关系。现在使用一个更大的企业样本来更深入地分析这个例子。

(i)例4.7中待估计的总体模型可写成

log(scrap)=β 0 +β 1 hrsemp+β 2 log(sales)+β 3 log(employ)+u

利用1987年的43个观测,所估计的方程是

将这个方程与仅用样本中29个非工会企业估计出来的结果进行对比。

(ii)证明这个总体模型也可以写成

log(scrap)=β 0 +β 1 hrsemp+β 2 log(sales/employ)+θ 3 log(employ)+u

其中θ 3 =β 2 +β 3 。[提示:log(x 2 /x 3 )=log(x 2 )-log(x 3 )。]解释假设H 0 :θ 3 =0。

(iii)当估计第(ii)部分的方程时,我们得到

控制了工人培训和销量-雇员比后,是否企业越大,其废弃率也在统计上显著地更大?

(iv)检验假设:sales/employ提高1%,废弃率也随之下降1%。

答: (i)hrsemp的系数从-0.029变为-0.042,绝对值明显增大,同时标准误仅从0.023变为0.019,变化不大。t统计量从-1.26下降到-2.21,在5%的显著性水平、自由度为40时,t统计量小于临界值-1.684,左侧检验下系数显著地小于零。

(ii)因为log(sales)-log(employ)=log(sales/employ),所以在方程的右边减去β 2 log(employ)再加上β 2 log(employ),可得:

log(scrap)=β 0 +β 1 hrsemp+[β 2 log(sales)-β 2 log(employ)]+[β 2 log(employ)+β 3 log(employ)]+u=β 0 +β 1 hrsemp+β 2 log(sales/employ)+θ 3 log(employ)+u

(iii)企业越大,其废品率在统计上的显著性不一定越大。log(employ)系数的t值为0.2,非常小。因此控制了工人培训和销量-雇员比后,可以认为以雇员多少来度量的企业规模与废弃率无关。

(iv)第(ii)部分中的虚拟假设为H 0 :β 2 =-1。t统计量为:(-0.951+1)/0.37≈0.132。

该t值非常小,无论是在单侧检验还是双侧检验时都无法拒绝虚拟假设。

8 在经典线性模型假设MLR.1至MLR.6下,考虑含有三个自变量的多元回归模型:

y=β 0 +β 1 x 1 +β 2 x 2 +β 3 x 3 +u

你想检验的原假设是H 0 :β 1 -3β 2 =1。

(i)令 β ( ) 1 β ( ) 2 表示β 1 和β 2 的OLS估计量。用 β ( ) 1 β ( ) 2 的方差及其协方差求出Var( β ( ) 1 -3 β ( ) 2 )。 β ( ) 1 -3 β ( ) 2 的标准误是什么?

(ii)写出检验H 0 :β 1 -3β 2 =1的t统计量。

(iii)定义θ 1 =β 1 -3β 2 θ ( ) 1 β ( ) 1 -3 β ( ) 2 ,写出一个涉及β 0 、θ 1 、β 2 和β 3 的回归方程,使你能直接得到 θ ( ) 1 及其标准误。

答: (i)方差为:Var( β ( ) 1 -3 β ( ) 2 )=Var( β ( ) 1 )+9Var( β ( ) 2 )-6Cov( β ( ) 1 β ( ) 2 )。

标准误为: se( β ( ) 1 -3 β ( ) 2 )=[Var( β ( ) 1 )+9Var( β ( ) 2 )-6Cov( β ( ) 1 β ( ) 2 )] 1/2

(ii)t统计量为:t=( β ( ) 1 -3 β ( ) 2 -1)/se( β ( ) 1 -3 β ( ) 2 )。

(iii)将 β ( ) 1 θ ( ) 1 +3 β ( ) 2 代入模型中可得:y=β 0 +(θ 1 +3β 2 )X 1 +β 2 X 2 +β 3 X 3 +u=β 0 +θ 1 X 1 +β 2 (3X 1 +X 2 )+β 3 X 3 +u。此即为涉及β 0 、θ 1 、β 2 和β 3 的回归方程, θ ( ) 1 即为X 1 的系数, θ ( ) 1 的标准误即为所需的标准误。

9 在第3章习题3中,我们估计了方程

其中的标准误是我们现在才同估计值一并给出的。

(i)相对于一个双侧备择假设,educ还是age在5%的显著性水平上是个别显著的?给出你的计算过程。

(ii)从方程中去掉educ和age,则给出

在5%的显著性水平上,educ和age在原方程中是联合显著的吗?说明你所给答案的理由。

(iii)在模型中包括educ和age,是否显著影响所估计的睡眠和工作之间的替换关系?

(iv)假设睡眠方程含有条件异方差性。这对第(i)和(ii)部分计算的检验意味着什么?

答: (i)自由度为:706-4=702;在双侧检验中,5%的显著性水平上,标准临界值为1.96,educ的t统计量为:-11.13/5.88≈-1.89。因此在5%的显著水平下无法拒绝原假设β educ =0。

同样,age的t统计量为1.52,小于临界值,因此在5%的显著性水平下同样是不显著的。

(ii)采用R 2 型的F统计量,F统计量为:F=[(0.113-0.103)/(1-0.113)]×(702/2)≈3.96。

在5%的显著水平上,临界值为3,小于F统计量3.96,因此educ和age在原方程中是联合显著的。实际上,p值为0.019,因此变量在2%的显著性水平上联合显著。

(iii)不影响所估计的睡眠和工作之间的替换关系。变量是联合显著的,但包含educ和age只使得totwrk的系数由-0.151变为-0.148。

(iv)t检验和F检验成立的假设之一是同方差性。如果方程存在条件异方差性,那么第(i)和(ii)部分的检验将不再有效。

10 回归分析还可以用来检验,市场是否在对股票估值时有效地使用了市场信息。为简便起见,令return为持有一个企业的股票在1990年末到1994年末的四年时间内得到的总回报。有效市场假说认为,这些回报不应该与1990年知道的信息存在系统性相关。如果期初就能搜集到的企业特征有助于预测股票回报,我们在选择股票时就能用到这个信息。

对于1990年,令dkr表示企业的债务-资本比率,eps表示每股收益,netinc表示净收入,而salary则表示CEO的总报酬。

(i)使用RETURN中的数据,估计了如下方程:

检验这些解释变量在5%的显著性水平上是否联合显著。存在个别显著的解释变量吗?

(ii)现在使用netinc和salary的对数形式重新估计这个模型:

第(i)部分的结论有没有什么变化?

(iii)在该样本中,一些公司没有债务,而另一些公司收益则为负。在第(ii)部分中,我们是否应该尝试用dkr和eps的对数来看拟合优度是否提高?试解释。

(iv)总的看来,股票回报可预测性的证据是强还是弱?

答: (i)已知n=142,k=4,因此F统计量为:F=[0.0395/(1-0.0395)]×(137/4)≈1.41。

5%的显著性水平,分子自由度为4,分母自由度为137的临界值为2.45,大于F统计量,因此不能拒绝虚拟假设,即解释变量在5%的显著性水平上联合不显著。

变量dkr的t统计量最大,为1.6,小于临界值1.96,因此在5%的显著性水平下,不能拒绝H 0 :β 1 =β 2 =β 3 =β 4 ,故不存在个别显著的解释变量。

(ii)F统计量为:F=[0.0330/(1-0.0330)]×(137/4)≈1.17,小于临界值,因此解释变量在5%的显著性水平上联合不显著。同样不存在在合理的显著性水平上显著的解释变量。

(iii)log不能定义dkr或eps为零的企业,因此采用log形式,将可能在回归中丢失部分企业的数据。

(iv)股票回报可预测性的证据是弱的。在5%的显著性水平上,没有t统计量是显著的,同时F统计量也是不显著的。报酬的变异中,只有3.3%的部分能被解释变量解释。

11 使用CEOSAL2中的数据得出下表,其中标准误在系数下面的括号中给出:

变量mktval为企业的市场价值,profmarg为利润占销售额的百分比,ceoten为其就任当前公司CEO的年数,而comten则是其在这个公司的总年数。

(i)评论profmarg对CEO薪水的影响。

(ii)市场价值是否具有显著影响?试解释你的结论。

(iii)解释ceoten和comten的系数。这些变量是统计显著的吗?

(iv)你如何解释,在其他条件不变的情况下,你在当前公司任职时间越长,你的薪水越低?

答: (i)据表中(2)、(3)可知,profmarg的系数为负,t统计量为-1。因此在企业的市场价值和销量固定的情况下,边际利润对CEO的薪水无影响。

(ii)据表中(3)可知,在控制了影响薪水的大多数因素时,log(mktval)的t统计量为2.05,在双侧检验中在5%的显著性水平上是统计显著的,所以市场价值具有显著影响。因为系数是一个弹性,在其他条件不变时,市场价值提高10%,预期薪水将会增加1%,这不是一个大的影响,但也不可忽略。

(iii)&(iv)这些变量在低显著性水平上是个别显著的。因为t ceoten ≈3.11,t comten ≈-2.79。

其他变量固定的情况下,就任公司CEO的年份增加一年,薪水增长1.71%。在公司任职(非CEO)增加一年,薪水减少0.92%。第二个结论反映了“明星”效应:企业从公司外部聘用CEO都倾向于一小群被高度评价的候选人,因此这些人的工资被哄抬起来,而非CEO职员的聘用不大可能像CEO一样。

12 下列分析的数据来自MEAP93,数据中包括十年级数学考试的学校层面的通过率(以百分比形式)。

(i)变量expend是以美元计的对每名学生的支出,而math10是考试通过率。下述的简单回归包含math10与lexpend=log(expend):

解释lexpend的系数。特别地,如果expend增加10%,估计出的math10百分比变化是多少?你怎么看待估得的很大的负数截距?(lexpend的最小值是8.11,而它的平均值是8.37。)

(ii)第(i)部分中的小R 2 是否说明开支与其他影响math10的因素有关?试解释。你认为如果开支是随机分派给学校的,也就是说,独立于其他的学校和学生的特征,不是学校所属地区决定的,R 2 会变大吗?

(iii)当招生的对数和参加联邦免费午餐计划的学生百分比被纳入时,估计方程如下:

试说明lexpend的系数发生了什么变化。支出的系数仍在统计上显著不为零吗?

(iv)你如何看待第(iii)部分中的R 2 ?有哪些其他(学校层面)因素可以用于解释math10?

答: (i)在其他条件不变的情况下,每名学生支出增加1%,考试通过率增加0.1116。因此,当expend增加10%时,估计出的math10百分比增加1.116。在该模型中的负截距没有意义,因为截距项的含义是当lexpend=0时,十年级学生的数学考试学校层面的通过率的平均值,但是因为lexpend的最小值为8.11,截距项没有意义。

(ii)小R 2 不能说明开支与其他影响math10的因素有关,只能说明存在遗漏的影响math10的因素。即使开支是随机决定的,开支对于math10变化的解释程度也不会发生变化,即R 2 不会变大。

(iii)lexpend的系数下降到7.75,但t统计值为2.55,即使在1%的显著性水平上也是统计显著的。可以推测,lexpend和午餐之间的相关性使得简单的回归估计不可靠。

(iv)在模型中加入lenroll和lnchprg变量之后,对于math10变化的解释的程度变强,但是对于math10的解释程度仍然只有19%。

可以用于解释math10的因素有:学校内老师的特征,如获得硕士学位老师的百分比;家庭的特征,如家庭的年收入和父母的受教育程度。

13 MEAPSINGLE中的数据用于估计下列包含四年级数学考试的成绩与在校学生的社会经济特征的方程。在学校层面衡量,变量free是参加联邦免费午餐计划的学生百分比。变量medinc是学校所在的同邮政编码地区的收入中位数,而pctsgle是学生不和父母一起生活的百分比人数(也在邮政编码层面衡量)。也可见在第3章的计算机练习C11。

(i)解释第一个等式中变量pctsgle系数的意义。说明将变量free当作自变量加入时发生的情况。

(ii)将每名学生的支出放入对数形式方程中,对学生表现会有统计上显著的影响吗?估计出的影响有多大?

(iii)如果你必须从四个等式中选择一个作为pctsgle的最佳估计并得到β pctsgle 在95%置信水平上的置信区间,你将选择哪一个?为什么?

答: (i)在其他条件不变的情况下,不和父母一起生活的学生的百分比增加1单位,四年级数学考试的通过率增加0.833。加入free变量之后,使得模型对于math4变化的解释程度变大了,并且pctsgle的系数变小了,说明free能够解释math4。

(ii)lexppp的系数的t值为2.23,所以支出对数的系数在5%的水平上显著。在其他条件不变的情况下,学生支出每增加1%,四年级数学考试的通过率增加9%。

(iii)选择第四个模型。因为第四个模型中的所有自变量的系数都是显著的,并且R 2 最大。与第三个模型相比,第四个模型少了一个不显著的变量,模型多了一个自由度。

二、计算机练习

C1.如下模型可用来研究竞选支出如何影响选举结果:

voteA=β 0 +β 1 log(expendA)+β 2 log(expendB)+β 3 prtystrA+u

式中,voteA为候选人A得到的选票百分数;expendA和expendB分别为候选人A和B的竞选支出;而prtystrA则度量A所在党派的实力(A所在党派在最近一次总统选举中获得的选票百分比)。

(i)如何解释β 1

(ii)用参数表述如下原假设:A的竞选支出每提高1%,B的竞选支出也提高1%,二者相互抵消。

(iii)利用VOTE1中的数据来估计上述模型,并以通常格式报告结果。A的竞选支出会影响结果吗?B的支出呢?你能用这些结论来检验第(ii)部分中的假设吗?

(iv)估计一个模型,使之能直接给出检验第(ii)部分中假设所需用到的t统计量。你有什么结论?(使用双侧备择假设。)

答: (i)保持其他因素固定不变,则有ΔvoteA=β 1 Δlog(expendA)=(β 1 /100)[100·Δlog(expendA)]≈(β 1 /100)[%ΔexpendA]。因此当expendA增加1%,voteA变动(β 1 /100)个百分点。

(ii)原假设为:H 0 :β 2 =-β 1 ,这意味着A的竞选支出提高z%,同时B的竞选支出提高z%,从而voteA不变。因此原假设可写为:H 0 :β 2 +β 1 =0。

(iii)估计方程为:

log(expendA)的系数是非常显著的,因为其t统计量为15.92,log(expendB)的系数也是显著的(t统计量的值为-17.45)。估计方程表明在其他条件不变的情况下,候选人A支出增加10%,候选人A得到的选票百分数将增加0.61%。在其他条件不变的情况下,候选人B支出增加10%,候选人A得到的选票百分数将减少0.66%。这些效应是不能被忽略的。

假设log(expendA)的系数与log(expendB)的系数大小相等,符号相反,那么将不存在se( β ( ) 1 β ( ) 2 ),但在假设检验中,需要该标准误。因此不能用这些结论来检验第(ii)部分中的假设。

(iv)令θ 1 =β 1 +β 2 ,代入原方程可得:

估计该方程可得: θ ( ) 1 ≈-0.532和se( θ ( ) 1 )≈0.533。第(ii)部分的t统计量为:-0.532/0.533≈-1。因此不能拒绝原假设。

C2.本题利用LAWSCH85中的数据。

(i)使用与第3章习题4一样的模型,表述并检验原假设:在其他条件不变的情况下,法学院排名对起始薪水中位数没有影响。

(ii)新生年级的学生特征(即LSAT和GPA)对解释salary而言是个别或联合显著的吗?(注意解释LSAT和GPA的缺失数据。)

(iii)检验是否要在方程中引入入学年级的规模(clsize)和教职工的规模(faculty);只进行一次检验。(注意解释clsize和faculty的缺失数据。)

(iv)还有哪些因素可能影响到法学院排名,但又没有包括在薪水回归中?

答: (i)模型为:log(salary)=β 0 +β 1 LSAT+β 2 GPA+β 3 log(libvol)+β 4 log(cost)+β 5 rank+u。原假设为H 0 :β 5 =0。估计方程为:

rank的t统计值为-11,非常显著。如果rank减少10,起始薪水中位数预期增加3.3%。

(ii)LSAT是统计不显著的,因为t≈1.18,但是GPA是统计显著的,t≈2.76。给定GPA高度显著的情况下,F统计量等于9.95,p值约为0.0001,因此联合显著性的检验是无实际意义的。

(iii)在模型中引入入学年级的规模和教职工的规模时,将会丢失5个观测值。联合显著性检验的F统计量为0.95,p值为0.39(自由度为2和123)。除非使用较大的显著性水平,否则两个变量之间不是联合显著的。

(iv)如果想去确定排名名次影响法律院校学生的起始薪水,就应该控制影响排名和薪水的其他因素。排名本身带有一定程度的不可测性,而且排名可能部分依赖于一些不影响学生质量的琐碎因素。LSAT和GPA是控制学生质量好的因素。性别和种族的差异也是影响薪水的因素。然而,并不确定这些因素与排名相关的原因。由出版物的发行纪录来衡量的教职工的质量应该被囊括在内。

C3.参考第3章的计算机练习C2。现在,我们使用住房价格的对数作为因变量:

log(price)=β 0 +β 1 sqrft+β 2 bdrms+u

(i)你想在住房增加一个150平方英尺的卧室的情况下,估计price变化百分比的一个置信区间。以小数形式表示就是θ 1 =150β 1 +β 2 。使用HPRICE1中的数据去估计θ 1

(ii)用θ 1 和β 1 表达β 2 ,并代入log(price)的方程。

(iii)利用第(ii)部分中的结果,得到 θ ( ) 1 的标准误,并使用这个标准误构造一个95%的置信区间。

答: (i)估计模型为:

因此: θ ( ) 1 =150×0.000379+0.0289=0.0858。表明在住房增加一个150平方英尺的卧室的情况下,预期价格将上涨8.6%。

(ii)因为:β 2 =θ 1 -150β 1 ,则有:log(price)=β 0 +β 1 sqrft+(θ 1 -150β 1 )bdrms+u=β 0 +β 1 (sqrft-150bdrms)+θ 1 bdrms+u。

(iii)对第(ii)部分中的模型进行回归,可得se( θ ( ) 1 )=0.0268,且已知 θ ( ) 1 =0.0858,则95%的置信区间为(0.0326,0.1390)。

C4.在例4.9中,可以使用样本中所有1388个观测数据去估计约束模型。使用所有观测值,计算bwght对cigs、parity和faminc回归的R 2 ,并与例4.9中约束模型所报告的R 2 相比较。

答: 使用样本中所有1388个观测数据,可得R 2 =0.0348。当错误的使用了从全部观测数据进行受约束回归得出的R 2 =0.0348时,分子的df为2,分母的df为1382,可以得到F统计量:F=[(0.0387-0.0348)/(1-0.0387)]×(1382/2)≈2.80。p值为0.068,在10%的显著性水平上显著且接近在5%显著性水平上显著,即拒绝原假设。

但这不是正确的结果,正确的F值是使用无约束回归中1191个观测值进行受约束回归得出的R 2 =0.0364,此时分子的df为2,分母的df为1185,计算得到正确的F统计量为:F=[(0.0387-0.0364)/(1-0.0387)]×(1185/2)≈1.42。p值为0.242,在10%的显著性水平上,不能拒绝原假设。

C5.本题利用MLB1中的数据。

(i)使用方程(4.31)中所估计的模型,并去掉变量rbisyr。hrunsyr的统计显著性如何?hrunsyr的系数又会如何?

(ii)在第(i)部分的模型中增加变量runsyr(每年跑垒得分),fldperc(防备率)和sbasesyr(每年盗垒数)。这些因素中,哪一个是个别显著的?

(iii)在第(ii)部分的模型中,检验bavg、fldperc和sbasesyr的联合显著性。

答: (i)教材方程(4.31)为:

如果去掉变量rbisyr,则估计模型变为:

此时hrunsyr是统计显著的,因为t≈4.99,它的系数也增加了2.5倍。

(ii)增加变量runsyr(每年跑垒得分),fldperc(防备率)和sbasesyr(每年盗垒数)后的模型为:

在三个条件独立的变量中,只有runsyr是统计显著的,t=0.0174/0.0051≈3.41,表明在其他因素固定的情况下,每年垒得分增加1,预期薪水将大幅度增长1.74%,这是一个实质性的增长。每年盗垒数的t值是负的,而防备率的t值仅为0.5。职业棒球大联盟的成员们大多数是优秀的守场员,实际上,最小的每年防备率是800。防备率相对较小的变异,使得它的影响难以估计。

(iii)根据t统计量,bavg、fldperc和sbasesyr分别是不显著的。它们的联合显著性检验的F统计量为0.69,p值为0.56,因此,变量是联合不显著的。

C6.本题利用WAGE2中的数据。

(i)考虑一个标准的工资方程

log(wage)=β 0 +β 1 educ+β 2 exper+β 3 tenure+u

表述原假设:现有员工多接受一年培训与所有工人多一年的工作经验对log(wage)具有相同的影响。

(ii)在5%的显著性水平上,相对于双侧备择假设,通过构造一个95%的置信区间来检验第(i)部分中的原假设。你得到的结论是什么?

答: (i)H 0 :β 2 =β 3

(ii)让θ 2 =β 2 -β 3 ,然后估计方程log(wage)=β 0 +β 1 educ+θ 2 exper+β 3 (exper+tenure)+u。使用这个模型估计θ 2 的95%的置信区间,得到[-0.0072,0.0112]。因为0在95%的置信区间中,所以在5%的水平上不能拒绝H 0

C7.参考4.4节中所用的例子。你将使用数据集TWOYEAR。

(i)变量phsrank表示一个人的高中百分位等级。(数字越大越好。比如90意味着,你的排名比所在班级中90%的同学更好。)求出样本中phsrank的最小值、最大值和平均值。

(ii)在方程(4.26)中增加变量phsrank,并以通常格式报告OLS估计值。phsrank在统计上显著吗?高中排名提高10个百分位点能导致工资增加多少?

(iii)在方程(4.26)中增加变量phsrank显著改变了2年制和4年制大学教育回报的结论了吗?请解释。

(iv)数据集包含了一个被称为id的变量。若在方程(4.17)或(4.26)中增加id,你预计它在统计上不会显著,请解释。双侧检验的p值是多少?

答: (i)phsrank的最小值为0,最大值为99,平均值为56.16。

(ii)在方程中增加变量phsrank可得:

phsrank的t统计量为1.25,小于临界值,是统计不显著的。如果排名提高10个百分位点,log(wage)预期将增加0.003,这意味着薪水将会增长0.3%。

(iii)在方程中增加变量phsrank之后,使得jc的t统计量的绝对值变得更小了,为1.33,但是其系数等于教材方程(4.26)中的系数。因此增加变量phsrank没有显著改变2年制和4年制大学教育回报的结论。大专学校的回报被估计得更少了,但该差异在标准显著水平下并不是统计显著的。

(iv)变量id只是工人的身份证号码,是被随机排列的。因此,在回归方程中,id与任何其他变量都是不相关的。因此若在方程中增加id,它在统计上是不显著。实际上,其t值很低,大约为0.54,双侧p值大概为0.587。

C8.数据集401KSUBS包含了净金融财富(nettfa)、被调查者年龄(age)、家庭年收入(inc)、家庭规模(fsize)方面的信息,以及参与美国个人的特定养老金计划方面的信息。财富和收入变量都以千美元为单位记录。对于这里的问题,只使用无子女的已婚者数据(fsize=1)。

(i)数据集中有多少无子女已婚夫妇?

(ii)利用OLS估计模型

nettfa=β 0 +β 1 inc+β 2 age+u

并以通常格式报告结果。请注意,样本只能使用无子女的已婚者。解释斜率系数。斜率估计值有何出乎意料之处吗?

(iii)第(ii)部分的回归截距有重要意义吗?请解释。

(iv)在1%的显著性水平上,针对H 1 :β 2 <1检验H 0 :β 2 =1,求出p值。你能拒绝H 0 吗?

(v)如果你做一个nettfa对inc的简单回归,inc的斜率估计值与第(ii)部分的估计值有很大的不同吗?为什么?

答: (i)数据集中共有2017对无子女已婚夫妇。

(ii)回归模型为:

inc的系数表明收入每增加1000美元(age保持固定),净金融财富预计将增加799美元。通常情况下,净金融财富的增量只是收入增量的一部分,因此一般有β 1 <1,所以inc的斜率估计值符合常理。age的系数表明,其他要素不变的情况下,年龄增长1岁,则净金融财富增加843美元。斜率估计值符合常理。

(iii)回归截距项表明当收入和年龄均为零时,净金融财富值预计为-43.04。然而令收入与年龄为零没有实际意义,因此截距项的值也没有实际意义。

(iv)t统计量为t=(0.843-1)/0.092≈-1.71,保留三位小数下p值约等于0.044,因此可以在5%的显著性水平上拒绝H 0 :β 2 =1。即认为β 2 <1。

(v)简单回归中inc的斜率估计值是0.821,与第(ii)部分的0.799没有很大不同。对样本数据的观察表明inc和age之间的相关系数仅为0.039,这解释了简单回归和多重回归结果没有很大不同的原因。

C9.本题利用DISCRIM中的数据。(也可参见第3章的计算机练习C8。)

(i)利用OLS估计模型

log(psoda)=β 0 +β 1 prpblck+β 2 log(income)+β 3 prppov+u

并以通常格式报告结果。在5%的显著性水平上,相对一个双侧备择假设, β ( ) 1 统计显著不为0吗?在1%的显著性水平上呢?

(ii)log(income)和prppov的相关系数是多少?每个变量都是统计显著的吗?报告双侧p值。

(iii)在第(i)部分的回归中增加变量log(hseval)。解释其系数并报告H 0 :β log hseval =0的双侧p值。

(iv)在第(iii)部分的回归中,log(income)和prppov的个别统计显著性有何变化?这些变量联合显著吗?(计算一个p值。)你如何解释你的答案?

(v)给定前面的回归结果,在确定一个邮区的种族构成是否影响当地快餐价格时,你报告哪一个结果才最为可靠?

答: (i)OLS估计模型为:

双侧检验的p值为0.018,在5%的置信水平上拒绝原假设,但在1%的水平上无法拒绝原假设。

(ii)log(income)和prppov的相关系数为-0.84,表明可能存在相当高程度的多重共线性。每一个系数都是统计显著的, β ( ) log income 的t统计量为5.1,p值近似为0,而 β ( ) prppov 的t统计量为2.86,双侧检验的p值为0.004。

(iii)增加变量log(hseval)后,OLS回归结果为:

log(hseval)的系数表示弹性,意味着房屋价值每增加1%,在其他变量不变的情况下,预计价格增长0.12%。双侧检验的p值近似为0。

(iv)增加变量log(hseval)后使得log(income)和prppov的个别统计不显著,即使在置信水平为15%时,双侧检验的log(income)的t统计量都小于临界值。

然而,在联合显著检验中,在5%的置信水平下,分子自由度为2,分母自由度为396,F统计量为3.52,p值等于0.030,表明所有的控制变量存在高度相关,因此部分变量个体上统计不显著就是符合常理的。

(v)因为第(iii)部分中的回归包含的最多的控制变量,log(hseval)个体上是统计显著的,log(income)和prppov是联合显著的。(iii)看起来是最可靠的。因此,一个合理的估计是:在其他因素固定的情况下,黑人的比例增加0.1,psoda估计增加1%。

C10.本题利用ELEM94_95中的数据。将所得到的结论与表4.1中的结论进行对比。因变量lavgsal表示教师平均薪水的对数,bs表示平均福利与平均薪水的比率(以学校为单位)。

(i)将lavgsal对bs进行简单回归。斜率估计值在统计上显著不为0吗?它在统计上显著不为-1吗?

(ii)在第(i)部分的回归中增加变量lenrol和lstaff。bs的系数有何变化?这种情形与表4.1中的情形相比如何?

(iii)第(ii)部分中bs系数的标准误为何比第(i)部分中的标准误更小?(提示:当增加变量lenrol和lstaff后,对误差方差和多重共线性会造成什么样的影响?)

(iv)lstaff的系数为何为负?它的绝对值算大吗?

(v)在回归中再添加变量lunch。保持其他条件不变,教师会因教育那些家庭条件不好的学生而得到补偿吗?请解释你的结论。

(vi)你利用ELEM94_95得到的结论,与表4.1在形式上一致吗?

答: (i)使用1848个观测值,β bs 的样本回归估计值为-0.795。95%的置信区间为-1.088到-0.502,这包括了-1而不包括0。因此在5%的置信水平上,可以拒绝虚拟假设H 0 :β bs =0但不能拒绝虚拟假设H 0 :β bs =-1。即斜率估计值在统计上显著不为0,不显著不为-1。

(ii)在模型中增加变量lenrol和lstaff,bs的系数变为-0.605,统计显著不为1,95%的置信区间为[-0.818,-0.392]。这种情形与教材表4.1中的情形很相似,简单回归估计的系数为-0.825,多重回归的系数为-0.605。

(iii)简单回归bs系数估计的标准误为0.150,多重回归估计的标准误为0.109。增加的其他解释变量对标准误的作用方向是相反的。在本题中,bs和两个增加的变量lenrol和lstaff由于多重共线性的原因而增加标准误。而同时,lenrol和lstaff包含在回归方程中减小了系数的误差方差从而减小了标准误。事实上,它们属于简单回归的误差项的组成部分。在这个案例中,多重共线性相对于误差方差的减少是温和的,因此标准误从简单回归中的0.150下降到多重回归中的0.109,或者也可以从判定系数的角度去观察误差方差的变动。事先无法比较两种效应中哪种效应起主导作用,但是可以在进行两种回归后对误差方差进行比较。

(iv)lstaff变量表示平均每千名学生的教工数的对数。当教工数增加,平均每名学生拥有的教工数将会增加,并导致更小的班级规模。对教师而言这是令人满意的情形,因为其他条件不变的情况下,教师愿意少支取工资,从而减小班级的规模。弹性为-0.714,表示教工规模增加10%,则工资减少-7.14%。

(v)在回归中再添加变量lunch,其系数为-0.00076,t值为-4.69,在其他条件不变的情况下,贫困率与低的教师工资是相关的。在这个数据集中,lunch的平均值为36.3,标准误差为25.4。因此,lunch的标准误差增加与工资变动是相关的,即导致工资减少-0.00076×25.4≈-0.019,约2%。本题没有足够的证据说明教师会因教育那些家庭条件不好的学生而得到补偿。

(vi)与教材表4.1在形式上一致。其数值大小也是合理地接近的。从绝对值角度而言,简单回归估计是最大的,当其他解释变量加入模型中后,回归结果将会变小。最终两个回归不是相同的,因为在教材表4.1中不能控制lunch,而毕业率与辍学率与小学学生无关。

C11.使用HTV中的数据以回答此题。也可见第3章的计算机练习C10。

(i)估计回归模型

educ=β 0 +β 1 motheduc+β 2 fatheduc+β 3 abil+β 4 abil 2 +u

使用OLS方法,并以通常格式报告结果。检验:零假设为educ是线性相关于abil的,备择假设为educ与abil的二次方相关。

(ii)使用第(i)部分中的方程,对H 0 :β 1 =β 2 进行双侧检验。检验的p值是多少?

(iii)向第(i)部分中增加两个大学学费变量,并确定它们是否在统计上联合显著。

(iv)tuit17和tuit18的相关性如何?解释为什么使用两年学费的平均值可能比分别加入两者更好?当你使用均值后,结果如何?

(v)为了使解释更合理,第(iv)部分中关于平均学费变量的发现重要吗?下一步可能是什么?

答: (i)模型的估计结果为:

进行的假设为H 0 :β 4 =0,H 1 :β 4 ≠0。

对应的t统计量为0.0506/0.0083≈6.1,所以t统计量在1%水平上显著,拒绝原假设。

(ii)令θ 1 =β 1 -β 2 ,而后采用教材4.4节中的方法调整模型,重新估计模型。估计得到θ 1 =0.81,对应的p值为0.053。

(iii)加入两个大学学费变量之后,对应的统计分布为F(2,1223),所以联合检验的p值为0.43。因此,在统计上不显著。

(iv)两者的相关系数为0.981。由于两个变量的相关性很高,如果同时将两个变量同时放在模型中,会产生多重共线性的问题,从而使得估计的系数出现很大的误差。使用两年学费的平均值则可以避免多重共线性问题。

使用两年学费的平均值,估计的系数为0.16,t值为1.29,对应的p值为0.20。

(v)学费的平均值对于教育的影响不显著,说明学费基本上对于教育没有影响,这与常识相反。出现这种情况的原因可能是学费高的学校的教育质量更高或收入高的地区学校的学费更高。

C12.使用ECONMATH中的数据回答下列问题。

(i)估计模型,用hsgpa、actmth和acteng去解释colgpa。以通常格式报告结果。所有的自变量都在统计上显著吗?

(ii)考虑hsgpa增加一个标准差,大约为0.343,假设actmth和acteng不变, 增加多少?actmth增加多少个标准差才能使 增加到与hsgpa增加一个标准差相同的程度?请说明。

(iii)零假设是actmth和acteng在总体中有相同的效应,对其进行双侧检验。报告p值并描述你的结论。

(iv)假定大学入学工作人员希望你使用第(i)部分中的变量数据构造一个等式去解释colgpa至少50%的变化。你将对工作人员说什么?

答: (i)估计的模型如下所示:

所有的解释变量都是显著的。

(ii)在其他条件不变的情况下,hsgpa标准差每增加1单位,colgpa增加0.659单位,其标准差为0.343,置信区间为(0.226,0.659),相当于约3%的增长。为了使 增加到与hsgpa增加一个标准差相同的程度,actmth需要增加5个标准差。

(iii)令θ 1 =β 1 -β 2 ,而后采用教材4.4节中的方法调整模型并进行估计。系数的估计值为0.646,对应的t值为11.75,对应的p值接近0,所以拒绝原假设。

(iv)如果仅使用第(i)部分中的模型,仅能解释26%的colgpa的变化。如果想要解释colgpa的50%的变化,需要增加更多的解释变量。

C13.使用GPA1中的数据回答下列问题。这些数据在第3章计算机练习C13中被用于估计拥有个人电脑对大学GPA的影响。

(i)运行将colGPA回归到PC、hsGPA和ACT的回归模型,并写出 β ( ) PC 95%的置信区间。估计系数是否相对于双侧备择假设在5%的水平上统计显著?

(ii)讨论第(i)部分中 β ( ) hsGPA β ( ) ACT 的统计显著性。hsGPA和ACT哪个是预测colGPA时更重要的变量?

(iii)向第(i)部分的回归中加入fathcoll和mothcoll两个变量。这两个变量都个别统计显著吗?它们在5%的显著性水平上联合统计显著吗?

答: (i) β ( ) PC 95%的置信区间为(0.044,0.271)。系数估计值0.157相对于双侧备择假设在5%的水平上,显著异于零。

(ii)虽然hsGPA的系数在统计上是显著的,但ACT的系数在5%的显著性水平下与零没有统计上的差异。hsGPA的95%置信区间为(0.262,0.632),而ACT的95%置信区间为(-0.012,0.029)。这些区间不重叠,表明hsGPA每增加1单位对colGPA的影响幅度大于ACT分数每增加1单位的影响幅度。

(iii)fathcoll和mothcoll单独在5%的显著性水平上都不显著(t统计量分别为0.68和-0.06)。可以用F检验来检验它们的联合显著性。非限制模型(包含fathcoll和mothcoll)得到残差平方和SSR r =15.149。限制模型(fathcoll=mothcoll=0)得到残差平方和SSR ur =15.094。用于检验fathcoll和mothcoll联合显著性的F检验为F=0.245~F(2,135)。这个F统计量的p值为0.783,未能拒绝原假设,即fathcoll和mothcoll的系数都等于零。

C14.使用JTRAIN98中的数据回答下列问题。

(i)向(4.52)报告的回归方程中加入失业变量unem96。解释其系数并讨论其符号和大小是否有意义。我们的估计是否统计显著?

(ii)与方程(4.52)相比,估计的工作培训影响发生了什么变化?它仍在经济上和统计上显著吗?

(iii)试找到earn96和unem96之间的关系。这与你预想的一样吗?请解释。

(iv)你在第(iii)部分中的发现意味着你应该从回归中去掉unem96吗?请解释。

答: (i)估计失业变量unem96的系数为-2.865,表明1995年全年失业的个体相较于1995年有工作的个体,在1998年的平均收入少了$2,865。此系数在统计上显著,并且鉴于其边际效应代表了1998年平均收入下降了29%,也可视为经济意义上显著。符号与大小均符合预期,因为失业可能导致技能退化和工作经验减少。此外,长期失业者可能不得不接受比持续就业者薪酬更低的工作。

(ii)参加工作培训(job training)的估计系数从2.41降至1.94。尽管该系数仍具有统计学意义(以及经济学意义),但其幅度减小表明参加工作培训与过去的失业状态有关联。

(iii)1996年收入(earn96)与1995年失业状态(unem96)之间的相关系数为-0.74。正如预期的一样,1995年全年失业的人在1996年的收入很可能远低于至少部分时间有工作的人。

(iv)尽管这两个变量之间存在多重共线性,但并非完全共线性。包含unem96变量无疑会降低估计量的精确度。然而,省略此变量可能会导致估计产生偏差。通常情况下,更倾向于选择虽精度较低但无偏的估计量,而不是精度较高但有偏的估计量。而且,加入unem96变量并未改变任何个别显著性检验的结果,表明此处由于多重共线性导致的精确度损失并不是一个大问题。 Vtp2nGy8rmsqL74JODM20V9hACbjvnoTmg3fEjbVU87OZi3GnIxl+J9UUcvNn1IM

点击中间区域
呼出菜单
上一章
目录
下一章
×