一、简要回答下列问题(本题共包括5个小题,每小题8分,共40分)
1.对于大多数工厂来说,按时获得原材料和货物供给时很重要的。因此对大多数的采购代理商来说,交货时间的变异程度往往是选择供应商的最主要考虑因素。数据的变异程度如何反应?就选择供应商而言,你能给采购代理人怎样的建议?
答: 数据的变异程度是指各变量值偏离其中心值的程度。数据的变异程度越大,其集中趋势对该组数据的代表性就越差。
反映数据变异程度是根据数据的不同类型采取不同的测度值,主要有:四分位差、方差和标准差等。方差、标准差、四分位差的数值越大,则样本的变异程度越大。
在选择供应商的时候,采购人应该计算分析供应商的交货时间的平均数和标准差,如果供应商交货时间的标准差较大说明交货时间的变异程度很大,采购代理人选择应该谨慎。
2.一个班级进行了期中考试,其中5名学生的分数为:72、66、81、89、77。试分析下面的说法哪个正确,哪个应受到怀疑?(注:只做简单计算。如样本均值,但不用计算样本标准差)
①作为样本的5名学生的期中平均分时77;
②全班学生的期中平均分时77;
③全班学生的期中平均分的估计是77;
④班级中一半以上得分将在7~85之间;
⑤如果样本中再加上5名学生,他们的分数会在65~90之间。
答: 以上说法中第①、③种说法是正确的。
①由样本数据可以计算样本中的5名学生的平均分数是77分,因此是正确的;
②仅仅由5个样本的平均值就能得出全班学生的平均成绩,样本缺乏对总体的代表性;
③77分是全班学生的平均成绩的估计值;
④由于抽选的样本数量较少,仅仅由样本数据中有一半以上的学生成绩在70~85就推断全班学生有一半以上的学生成绩在70~85,这种推断是不可靠的;
⑤样本中再加5名学生,他们的成绩不一定在65~90之间,因为可能存在有极端值的情况。
3.容量为1000毫升的桃汁包装上的标签标明,该种桃汁的脂肪含量的均值不超过1克。回答下列问题以验证标签上的说明。
①建立原假设和备择假设;
②这时第Ⅰ类错误指什么?发生这类错误会导致怎样的后果?
③这时第Ⅱ类错误指什么?发生这类错误会导致怎样的后果?
答: (1)
原假设:
该种桃汁的脂肪含量的均值不超过1克;
备择假设:
该种桃汁的脂肪含量超过1克。
(2)第Ⅰ类错误是指原假设为真时,拒绝原假设的情况。本题中,第Ⅰ类错误是指桃汁的脂肪含量是不超过1克,但是假设检验的结果却是拒绝了原假设。发生这类错误将会导致由于报告了本来不存在的现象,则因此现象而衍生出的后续研究、应用的危害。
(3)假设检验的第Ⅱ类错误是指原假设为假,但是没有拒绝原假设。本题中的第Ⅰ类错误是该种桃汁的脂肪含量超过1克,但是假设检验得出的结论是不拒绝原假设。犯取伪错误,使得本应该被推翻的假设仍然被保留,不利于研究的发展。
4.一元线性回归中,一个大的R 2 意味着两个变量之间存在因果关系吗?试解释。
答: 判定系数R 2 测度了回归直线对观测数据的拟合程度。一个大的R 2 并不意味着两个变量之间存在因果关系,大的R 2 只能表示在线性回归模型中回归平方和占总平方和的比例越大,回归直线与各观测点越接近,因变量的变化中能用自变量解释的比例比较大,反映模型的拟合程度较好。若自变量和因变量之间存在很强的相关关系,而不是因果关系的话,此时的R 2 也非常大。
5.一个小店的经营者想对未来几个月的小店的销售额做预测。它提供了自2007年一月开店以来各月的销售额。请你给他一些预测程序上的提示。
答: 时间序列分析的一个主要目的就是根据已有的历史数据对未来进行预测。时间序列含有不同的成分,如趋势、季节性、周期性和随机性等。对于一个具体的时间序列,它可能只含有一种成分,也可能同时含有几种成分。含有不同成分的时间序列所用的预测方法是不同的。因此,经营者在对时间序列进行预测时可以,通常包括以下几个步骤:①确定时间序列所包含的成分,也就是确定时间序列的类型;②找出适合此类时间序列的预测方法;③对可能的预测方法进行评估,以确定最佳预测方案;④利用最佳预测方案进行预测。
二、推断题(本题包括1个小题,共15分)
试推导出一元线性回归分析中总平方和与回归平方和、残差平方和的关系。
答: 一元线性回归分析中,每个观测点的离差都可以分解为:
将上述式子的两边同时平方,并对所有的n个点求和,可得:
又根据e i 的性质
因此
其中:
即,总平方和(SST)=回归平方和(SSR)+残差平方和(SSE)。
三、综合题(本题共包括5个小题,共95分)
1.历史数据标明,考入西部大学的学生入学时学术考试成绩的均值为900,标准差为160。每年选取一个实际样本来检测该年的考试成绩是否与上一年在同一水平。今年有256名学生组成的样本表明分数的样本均值为930。回答下列问题(显著性水平取0.05)
①建立原假设和备择假设;
②用置信区间的方法进行假设检验;
③用检验统计量进行假设检验;
④检验的p值是多少?(10分)
答: (1)建立假设如下:
原假设:
该年考试成绩与上一年在同一水平;
备择假设:
该年考试成绩与上一年有差别。
(2)由样本可得参数μ置信水平为1-α=0.95的置信区间为:
考虑检验问题:
,由于
,故拒绝原假设,即该年考试成绩与上一年不在同一水平。
(3)计算统计量,由于总体标准差已知,因此选择Z统计量,计算如下:
又因为
,故拒绝原假设,即该年考试成绩与上一年不在同一水平。
(4)
2.企业管理者管理能力高低是影响企业成长的一项不可忽视的因素,不同层级的员工对管理者的评价也会有所不同。随机抽取24名不同层级员工对公司1名管理者的管理能力打分,样本数据如下。分值越高,说明对该管理者管理能力评价越好。
①解释本题中的因素和水平各指什么?
②写出解决该问题时所建立的原假设;
③解释本题中的随机误差和系统误差;
④算出F统计量的值;
⑤取显著性水平为0.05,检验不同层级员工对管理层管理能力评价是否有显著性影响。(15分)
答: (1)在方差分析中,所要检验的对象称为因素,因素的不同表现称为水平。本题中的因素是指评估的1名管理者,水平是指对管理者进行评价的上级、同级、下级这三个不同的评价层级。
(2)解决该问题建立的原假设为:
即不同层级员工对管理者能力评价无显著差异。
(3)随机误差(SSE)是指每个水平各样本数据与其组均值的误差平方和,反映了每个样本各观测值的离散状况,本题中,是指不同层级评估者对管理者评价差别是由随机因素引起的。
系统误差(SSA)是各样本均值之间的差异程度,本题中,是指不同层级评估者对管理者评价的差别。
(4)由题意可得:
(5)查F分布表可知
,而
,故不拒绝原假设,即不同层级员工对管理者能力评价无显著差异。
3.某投资公司有一笔资金用于投资,现有两个项目可选择。试分析应投资与哪个项目,并解释原因。(20分)
答: 应该投资于A项目,分析如下:
(1)分别计算两个公司的投资期望回报率如下
项目A:
项目B:
(2)分别求出两个项目的方差:
项目A:
项目B:
(3)比较A、B两个项目的期望回报率和标准差
因为
,
,,即项目A的期望回报率高于项目B,且其标准差较小,说明项目A的持有到期回报率比较稳定,风险更小,因此,应该投资于A项目。
4.某地交通部门想要确定公共汽车安全使用的时间(年)与年维修费用(千元)之间的关系。对10辆公共汽车组成的一个样本,采集的数据如下表。
①利用最小二乘法,确定估计的回归方程:
②对一元线性回归模型的误差项做了哪些规定?
③根据①所求出的回归方程,计算残差,进而做出关于x的残差图,并据此评价回归模型是否合理。(20分)
答: (1)用最小二乘法对回归系数的估计如下:
由题中表的数据可计算:
可得:
因此回归方程为:
(2)一元线性回归模型的误差项的假定条件主要如下:
①因变量y与自变量x之间具有线性关系;
②在重复抽样中,自变量x的取值是固定的,即假定x是非随机的;
③误差项ε是一个期望值为0的随机变量,即
;
④对于所有的x值,ε的方差
都相同。这意味着对于一个特定的x值,y的方差也都等于
;
⑤误差项ε是一个服从正态分布的随机变量,且独立,即
。独立性意味着对于一个特定的x值,它所对应的ε与其他x值所对应的
不相关。
(3)根据回归方程计算的残差
(
)如表1所示,残差图如图1所示:
表1
图1
由残差的分布可以看出,残差具有零均值,同方差且不相关的性质,符合回归模型的G-M假定,可以认为该模型充分提取了样本的有效信息,因此认为回归模型合理。
5.为解决交通拥堵问题,某城市对居民出行行为进行了问卷调查。该城市人口为100万,为使估计总体比例的抽样误差小于1%,置信水平为95%。请确定所需的样本容量。该调查采用简单随机抽样方式。试对该项调查的数据所存在的误差进行分析,并说明如何实现对误差的控制。(30分)
答: 由抽样误差的公式:
可以看出,样本量越大,则抽样误差越小
又因为p为比率估计量,有0<p<1,则有p(1-p)≤1/4,则最大所需样本量
误差分为随机误差和非随机误差,控制随机误差只能通过增大样本容量的方式进行,控制非随机误差便需要使用更有效率抽样方法,规范调查方式,以尽可能降低非抽样误差。