一、简要回答下列问题
1.举例说明区分数据类型对统计分析的重要性。
统计数据是对现象进行测量的结果。区分数据的类型对统计分析很重要,因为对不同类型的数据,需要采用不同的统计方法来处理和分析。比如,对分类数据,通常需要计算出各组的频数或频率,计算其众数和异众比率,进行列联表分析和
检验等;对顺序数据,可以计算其中位数和四分位差,计算等级相关系数等;对数值型数据,可以用更多的统计方法进行分析,如计算各种统计量,进行参数估计和假设检验等。如果不对数据进行区分,则会导致统计方法的滥用,使得得出的结论缺乏可靠性。
2.2008年12月,据美国媒体报道:“本国12月新房中位价为20.65万美元,相比2007年12月的22.77万美元下滑了9.3%”,为什么采用中位数而不采用算数平均值?试应用描述统计学知识解释其中的缘由。
答: 中位数是一组数据排序后处于中间位置上的变量值,中位数将全部数据等分成两部分,每部分包含50%的数据,一部分数据比中位数大,另一部分则比中位数小。中位数主要用于测度顺序数据的集中趋势,也适用于测度数值型数据的集中趋势,但不适用于分类数据。平均数也称为均值,它是一组数据相加后除以数据的个数得到的结果。平均数在统计学中具有重要的地位,是集中趋势的最主要测度值,它主要适用于数值型数据,而不适用于分类数据和顺序数据。
题干中关于测度新房集中趋势的指标,由于房屋价格的分布是正偏分布,存在很大的极大值,而算术平均数的主要缺点是易受数据极端值的影响,对于偏态分布的数据,平均数的代表性较差。相反,中位数是一组数据中间位置上的代表值,不受数据极端值的影响。当一组数据的分布偏斜程度较大时,其作为集中趋势测度的代表性较好。因此选用房价中位数作为房价分布集中趋势的代表值。
3.一家连锁超市,近期不断接到消费者关于500克包装的某产品薯片重量的投诉。店方猜想,这些投诉是由于运输过程中沉积在口袋底部的碎片所引起。为此店方决定对来自该品牌的下一批薯片的平均重量μ(克)进行检验,如果有证据说明重量小于500克,就拒收这批薯片并向供应商进行投诉。
①请建立适当的原假设和备择假设,使得一旦拒绝原假设就拒收这批薯片并向供应商进行投诉;
②第Ⅰ类错误和第Ⅱ类错误是什么?
③连锁超市的顾客将哪类错误看的较严重?
④连锁超市的供应商将哪类错误看的较严重?
答: (1)
原假设:
薯片的平均重量不低于500克;
备择假设:
薯片的平均重量低于500克。
(2)第Ⅰ类错误是指原假设为真时拒绝原假设所犯的错误,本题中指薯片的平均重量是大于500克的,但是由样本所得结果是拒绝原假设,即认为薯片的平均重量低于500克。
第Ⅱ类错误是指原假设为假而接受原假设所犯的错误,本题中是指薯片的平均重量是小于500克的,但是由抽取样本所得结果是接受了原假设,认为薯片的平均重量不低于500克。
(3)连锁超市的顾客将第Ⅱ类错误看得比较严重,因为犯第Ⅱ类错误的概率偏大,会使得顾客受到的损失较大。
(4)连锁超市的供应商将第Ⅰ类错误看得比较严重,因为犯第Ⅰ类错误的概率偏大,会导致供应商受到的损失较大。
4.数据的误差有哪两类,它们的本质差别是什么?
答: (1)数据误差的类型
数据的误差是指通过调查搜集到的数据与研究对象真实结果之间的差异。数据的误差有两类:抽样误差和非抽样误差。
①抽样误差
抽样误差是由抽样的随机性引起的样本结果与总体真值之间的误差。在概率抽样中,我们依据随机原则抽取样本,可能抽中由这样一些单位组成的样本,也可能抽中由另外一些单位组成的样本。根据不同的样本,可以得到不同的观测结果。抽样误差并不是针对某个具体样本的检测结果与总体真实结果的差异而言的,抽样误差描述的是所有样本可能的结果与总体真值之间的平均差异。抽样误差的大小与样本容量、总体的变异性等因素有关。
②非抽样误差
非抽样误差是相对抽样误差而言的,是指除抽样误差之外的,由其他原因引起的样本观察结果与总体真值之间的差异。抽样误差是一种随机性误差,只是存在于概率抽样中;非抽样误差则不同,无论是概率抽样、非概率抽样,或是在全面调查中,都有可能产生非抽样误差。非抽样误差包括有抽样框误差、回答误差、无回答误差、调查员误差、测量误差等。
(2)两种误差的本质差别
抽样误差与非抽样误差最根本的差别是抽样误差是可以计算和控制的,且其只存在于概率抽样中。而非抽样误差控制的重要方面是调查过程的质量控制。
5.“截至2010年8月,京津城际高铁进行两年,已经累计放松4328万人次,武广高铁9个月时间完成客运输送1331万人次,沪宁线进行两个月,发送旅客1071万人次”,人们对这样的数据描述并无多少概念,如何更好的量化它们,一遍使人们印象深刻?
答: 文中给出了三条高铁各自开通以来的客运数量,由于运行年限的不同,使得无法直接做出对三条高铁客运繁忙程度的直接比较与评价,而只能观察其总量特征。若以各高铁客运总量除以其各自的运营时间,则可得到其单位时间的发送量,便可以对但这之间客运量的差异做出直接比较。
如果利用图形来显示单位时间内客运量的频数分布,就可以使得人们更加形象和直观地度量数据的集中趋势,也便于人们对不同的数据进行比较,观察差别。
二、计算回答下列问题
1.①2008年,某地区工业总产值按当年价格计算为42.55亿元,2007为33.27亿元,其增长速度为多少?②按2000年不变价格计算,2008年,该地区工业总产值为33.61亿元,2007年为28.50亿元,其增长速度是多少?③你认为哪种方法计算出来的增长速度更可信?利用指数等知识,请给出合理的解释。④请解释不变价格指数的概念。
答: (1)由题意其增长速度为:
即2008年相对于2007年,工业总产值的增长速度为27.89%。
(2)以不变价格计算的增长速度为:
即按2000年不变的价格计算,2008年相对于2007年,工业总产值的增长速度为17.93%。
(3)第二种方法计算的增长速度更可信,因为按照第一种方法计算出来的增长速度中包含有通货膨胀的影响,而第二种计算方法采用不变价格计算增长速度则剔除了通货膨胀的影响,相比较而言更能反映工业总产值增长速度。
(4)不变价格又称“可比价格”或“固定价格”,与“现行价格”(当年价格)相对应。不变价格指数是指计划统计工作中用来计算一定时期内不同年份的商品价值指标而规定使用的某一固定期的价格。旨在消除价格变动的影响,便于比较各年之间的经济增长速度。
2.研究美国1780年到1970年之间人口变化情况(人口单位:百万)。虽然影响人口变化的因素很多,但这里只选定时间作为其解释变量进行了回归分析,结果如下:
若将时间变量的二次项引入回归模型,则结果如下:
试分别说明两个模型检验效果,并分析哪种模型的效果更好,给出理由。
答: 通过对比两个模型的回归结果可得,将时间变量的二次项引入回归模型后,模型回归效果更好。(如下所述将时间变量的一次项的回归模型称为模型1,将引入时间变量二次项的回归模型称为模型2。)理由如下:
(1)模型拟合程度的分析
模型1中的
模型2中的
比较可知,模型2中的可决系数和调整之后的可决系数均大于模型1中相应的值可知模型2比模型1的拟合效果要好。
(2)回归系数的分析
模型1和模型2中的各系数均通过t统计量的显著性检验。相比较而言,模型2中各系数的t统计量的值远远大于其临界值,故模型2比模型1的拟合效果应该更好。
综上所述,人口变化与时间应该是曲线关系而不是简单的线性关系。
三、综合题
1.有些预定了宾馆客房而没有去住宿的旅客,若不能及时取消预订,这样的客人就被称为“未出现者”,宾馆一般采用超员预订客房的方法,防止未出现者过多给宾馆造成的损失。有一拥有4000个客房的大型连锁宾馆正在进行这方面的研究,它们抽取30天的随机样本,记录其每一天的未出现者人数,频数分布如下:
①根据这一样本,运用经验法则,宾馆至少应超员预订多少客房?
②《旅游年鉴》的数据显示,宾馆业每天的未出现者人数连续3年均稳定在20人这一平均水平。请问上述样本能否说明宾馆业每天的未出现者人数明显降低了?
答: (1)根据上述样本,可计算出每天未出现人数的平均值为:
每天未出现人数的样本方差为:
其中M i 是第i组的组中值,f i 是对应的频数。
根据经验法则,约有99%的数据在平均数±3个标准差的范围之内,即宾馆每天未到人数在(6.04,22.9)之间的人数包含了99%。即宾馆至少应超员预定7个客房。
(2)对样本数据进行假设检验如下:
①提出假设
原假设:
宾馆业每天的未出现者人数未明显降低;
备择假设:
宾馆业每天的未出现者人数明显降低。
②计算统计量
③作出决策
由于,
,故拒绝原假设,即宾馆业每天的未出现者人数明显降低。
2.估计成本是回归分析在会计学上的一个重要应用。根据搜集到的产量和成本数据,利用最小二乘法可以求出关于成本和产量估计的回归方程。下面的Excel结果是给予某一制造业的产量(单位:台)和总成本(单位:万元)计算得到的。
①将方差分析表和参数估计表中的7个缺失值补齐;
②写出总成本与产量的估计一元线性回归方程式,并解释回归系数的含义;
③检验回归方程的线性关系是否显著(c=0.05);
④计算判定系数R 2 ,它有什么用途?
⑤计算估计标准误差s e ,它有什么用途?
⑥公司的生产计划进度表明,下个月必须生产60台产品,下个月总成本的点估计值是多少?
⑦不用计算,对下个月总成本的95%的置信区间和预期区间做简单说明。
答: (1)由题意得:SSA=3695.50,SST=4046.97,k=2,n-1=29
可得出:SSE=SST-SSA=4046.97-3695.50=351.47,
而
由此可得方差分析表如下:
(2)由表中数据可得回归方程为:
回归系数
表示产量为0时的成本为12.677万元;
回归系数
表示产量每增加1台,成本平均增加0.731万元。
(3)由方差分析表知:
故拒绝原假设,即回归方程是显著的。
(4)由题意知可决系数为:
表示回归方程中,成本的变化有91.32%是由于产量的变化引起的。
(5)由题意知估计的标准误差为:
估计的标准误差反映了用估计的回归方程预测因变量y时预测误差的大小。
(6)将60代入估计的回归方程可得:
即下个月生产60台产品时,成本的点估计为56.54万元。
(7)回归估计的置信区间为:
回归估计的预测区间为:
比较两个公式可知,预测区间的宽度比置信区间的宽度要宽。
3.一家电器商店经营已有5年之久,在这期间,iPod touch的销售量(单位:千台)持续上升,见下表数据:
①下图为销售量的时间序列图。
“可以看出,销售量有明显的季节成分,并且后面年份的销售量比前面年份的高,因此其中还有趋势成分,但周期性难以判断。可以认定iPod touch销售量序列是一个含有季节成分和趋势成分的时间序列。”
请结合复合型时间序列的分解、预测模型,分析、评述上面这段话的合理性。
②上表中,中心化移动平均值和比值两列共有6出空格,请计算补充这6个数据。
③用移动平均将趋势剔除之后的序列(比值列),计算销售量的季节指数(要求列出必要的表格)。
④从销售量数据中剔除季节成分后,用一元线性模型求得销售量的线性长期趋势方程为:
,用此趋势方程并考虑季节变动,预测2010年四个季度iPod touch销售量。(要求有计算过程)
答: (1)复合型序列是指含有趋势、季节、周期和随机成分的序列。对这类序列的预测方法通常是将时间序列的各个因素依次分解出来,然后进行预测。结合复合型时间序列可知,上面这段话对iPod touch的预测是合理的。
(2)由题意得表中数据计算如下:
(3)由题意得各季节指数计算表如下:
(4)预测2010年四个季度的销售量,将t=21~24分别代入趋势方程,得:
考虑季节变动,2010年四个季度的预测值分别为:
19.970
1.122≈22(千台)
20.890
0.550≈11(千台)
21.810
0.789≈17(千台)
22.730
1.541≈35(千台)
即2010第一个季度的iPod touch的销售量为22千台;第二个季度的iPod touch的销售量为11千台;第三个季度的iPod touch的销售量为17千台;第四个季度的iPod touch的销售量为35千台。