应用统计软件,描述统计数据的集中趋势、离散程度、分布偏度以及峰度等分布特征。
(1)熟练掌握Microsoft Excel中描述统计指标对应的函数,包括算数平均数、调和平均数、几何平均数、众数、中位数、标准差、方差、偏度、峰度等。
(2)运用Microsoft Excel“描述统计”分析工具进行描述统计,注意其结果解释。
(3)注意比较函数方法和“描述统计”工具所得结果。
大部分数据都显示出围绕一个典型值或中心值的明显趋势,我们把这种趋势称为集中趋势,通常可以由均值、中位数和众数三种方法来度量。
平均数是最常见的集中趋势度量方法,一般有算术平均数、几何平均数和调和平均数三种计算均值的方法。
1.算术平均数
Microsoft Excel使用Average函数来计算简单算术平均数,其基本情况如下:
用途:计算所有参数的算术平均值。
语法:Average(number1,number2,…)。
参数:number1,number2,…是要计算平均值的1~255个数值参数。除了使用逗号分隔数值的形式外,还可使用数组或对数组的引用。
比如,随机抽取五个同学的统计学原理的考试成绩,分别是100,70,92,78,82,想要计算这五人的平均成绩,可以将数据输入A1至A5单元格,然后激活一个空白单元格,输入公式“=Average(A1:A5)”,回车返回结果为84.4。
简单算术平均数因为所有的数据都具有相同的权重,因而它的结果将极大地受到异常值的影响。当异常值出现时,应避免使用简单算术平均数。
算术平均数的另一种计算方法是加权算术平均数。Microsoft Excel没有提供专门的加权算术平均数内置函数,可以依据数据特征,使用表格和其他函数共同处理来得到加权算术平均数的结果。比如,全班统计学的成绩分组频率数据如图1-3-1所示,计算全班统计学课程的平均成绩。
第一步,计算各组的组中值,作为该组成绩的一般代表,分别写入C2至C6单元格。
第二步,激活一空白单元格(如D2),输入公式“=(C2∗B2+C3∗B3+C4∗B4+C5∗B5+C6∗B6)/SUM(B2:B6)”回车返回结果为77.55,即为所求加权算术平均数,如图1-3-2所示。
图1-3-1 加权算术平均数示例
图1-3-2 加权算术平均数计算示例结果
从前面的操作我们可以看出,函数仅能返回结果,但对结果没有做任何形式的说明。如果时间久了,或者别人使用你的数据时,单看返回结果不利于记忆和交流。所以,一般我们都要对函数结果进行修饰,在结果左侧(或上侧)相邻单元格给函数的返回结果一个标识名称,比如加权平均数上的“平均成绩”的称法。
2.几何平均数
Microsoft Excel使用Geomean函数来计算几何平均数,其基本情况如下:
用途:返回正数数组或数据区域的几何平均值。
语法:Geomean(number1,number2,…)。
参数:number1,number2,…为需要计算其平均值的1~255个数值参数,除了使用逗号分隔数值的形式外,还可使用数组或对数组进行引用。
几何平均数一般用于度量随时间变量的改变比率。比如,某流水生产线前后衔接的五道工序,各工序产品的合格率分别为95%,92%,90%,85%,80%,计算整个流水生产线产品的平均合格率。可以将五个合格率顺次输入A1至A5单元格,激活一个空白单元格,输入公式“=Geomean(A1:A5)”,回车返回结果为88.24%。
3.调和平均数
Microsoft Excel使用Harmean函数来计算调和平均数,其基本情况如下:
用途:返回数据集合的调和平均值。(调和平均值与倒数的算术平均值互为倒数。对同一组数据调用不同函数计算的话,调和平均值总小于几何平均值,而几何平均值总小于算术平均值。)
语法:Harmean(number1,number2,…)。
参数:number1,number2,…是需要计算其平均值的1~255个数值参数。可以使用逗号分隔参数的形式,还可以使用数组或数组的引用。
比如,A1=100,A2=70,A3=92,A4=78,A5=82,激活一个空白单元格,输入公式“=Harmean(A1:A5)”,回车返回结果为83.10。
中位数是数值变量取值从小到大排列后的位于中间的数值。数据的一半小于或等于中位数,另一半大于或等于中位数。中位数不受极端值影响,可以在数据有极端值的时候使用中位数代表集中趋势。
Microsoft Excel使用Median函数来计算中位数,其基本情况如下:
用途:返回给定数值集合的中位数(它是在一组数据中居于中间的数。换句话说,在这组数据中,有一半的数据比它大,有一半的数据比它小)。
语法:Median(number1,number2,…)。
参数:number1,number2,…是需要找出中位数的1~255个数字参数。
比如,Median(11,12,13,14,15)返回13;Median(1,2,3,4,5,6)返回3.5,即3与4的平均值。
中位数是一种位置平均数,代表数据从小到大排列后的位于中间的数值。但有的时候,我们除了关心位于中间的数值,还会关心位于四分位位置上的数值,或者位于百分数位置上的数值。
(1)Microsoft Excel使用Quartile.inc函数来计算四分位数,其基本情况如下:
用途:返回一组数据的四分位点。
语法:Quartile.inc(array,quart)。
参数:array为需要求得四分位数值的数组或数字引用区域,quart决定返回哪一个四分位值。如果quart取0、1、2、3或4,则函数Quartile.inc依次返回最小值、第一四分位数、中位数、第三四分位数和最大值。
比如,如果A1=78,A2=45,A3=90,A4=12,A5=85,则公式“=QUARTILE(A1:A5,3)”返回85。
(2)Microsoft Excel使用Percentile.inc函数来计算百分数位置数值,其基本情况如下:
用途:返回数值区域的k百分比数值点。
语法:Percentile.inc(array,k)。
参数:array为需要求百分位数值的数组或数值区域;k为数组中需要得到其排位的值,取值在0至1之间。
比如,如果某次考试成绩为A1=71,A2=83,A3=71,A4=49,A5=92,A6=88,则公式“=Percentile.inc(A1:A6,0.8)”返回88,即考试排名要想在80%以上,则分数至少应当为88分。
众数表示数据中出现频数(频率)最大的数据,和中位数一样,众数不会受到极端值的影响,可以在有极端值的时候代表数据的集中趋势。
Microsoft Excel使用Mode.sngl函数来计算众数,其基本情况如下:
用途:返回在某一数组或数据区域中的众数。
语法:Mode.sngl(number1,number2,…)。
参数:number1,number2,…是用于众数计算的1~255个数值参数。
比如,A1=71,A2=83,A3=71,A4=49,A5=92,A6=88,则公式“=Mode.sngl(A1:A6)”返回71。
需要注意的是,数据中有时没有众数或者有几个众数,此时就不能使用众数来代表集中趋势了。比如,序列1,2,3,4,5,6,7,8中就没有众数,因为每个数据出现一次,没有一个数据是典型的。
除了集中趋势,数据还要用离散程度来描述数据围绕集中趋势代表值的发散程度。通常可以用极差、方差(或标准差)、变异系数等来度量离散程度。
极差也成为全距,是最简单的离散程度度量形式,它等于数值变量取值中的最大值减去最小值。但极差不能精确地表示最大值和最小值之间的数据分布,当存在极端值的时候,不能使用极差。
Microsoft Excel使用Max和Min函数组合来计算极差,基本情况如下:
1.Max函数返回数组中的最大数值
语法:Max(number1,number2,…)。
参数:number1,number2,…是需要找出最大数值的1~255个数值。
比如,A1=71,A2=83,A3=76,A4=49,A5=92,A6=88,A7=96,则公式“=Max(A1:A7)”返回96。
2.Min返回数组中的最小数值
语法:Min(number1,number2,…)。
参数:number1,number2,…是要从中找出最小值的1~255个数字参数。
比如,A1=71,A2=83,A3=76,A4=49,A5=92,A6=88,A7=96,则公式“=Min(A1:A7)”返回49;而“=Min(A1:A5,0,-8)”返回-8。
3.利用极差的定义,构建函数减法运算式Max-Min,就能计算出极差
比如,A1=71,A2=83,A3=76,A4=49,A5=92,A6=88,A7=96,则公式“=Max(A1:A7)-Min(A1:A7)”返回47,即为该组数据的极差。
与极差相类似的概念还有四分位差,它等于第三四分位数减去第一四分位数。因为四分位差没有考虑比第一四分位数小和比第三四分位数大的数,所以不受极端值的影响。
利用四分位差的概念,可以使用Quartile.inc函数来计算。比如,A1=71,A2=83,A3 =76,A4=49,A5=92,A6=88,A7=96,则公式“=Quartile.inc(A1:A7,3)-Quartile.inc(A1:A7,1)”返回17即为四分位差的值。
极差不能表示数据如何分布及分布的倾向。方差和标准差是真正考虑所有数据值在平均值(集中趋势)周围分布的度量离散程度的方式。在考虑围绕平均值变动的度量方法时,最简单的度量也许是计算每个值和平均值的差,然后对这些差求和。如果你真的这样做了,你会发现这个求和值始终等于零。这是因为平均值是一组数据的集中平衡点,数组中数值和它的离差之和等于零。方差的方法是求每个值与均值之差的平方和(SS),再用此平方和除以数据的个数来衡量离散趋势的,标准差是方差的算术平方根。
方差和标准差依据处理数据对象的不同,分为总体方差、样本方差、总体标准差和样本标准差。在方差的计算方法上,如果以“数据个数”作为除数,则所计算的量为总体方差,对应的标准差为总体标准差;如果“数据个数-1”作为除数,则所计算的量为样本方差,对应的标准差为样本标准差。
Microsoft Excel使用Var.p、Var.s、Stdev.p和Stdev.s四个函数分别计算总体方差、样本方差、总体标准差和样本标准差,基本情况如下:
1.Var.p用于计算样本总体的方差
语法:Var.p(number1,number2,…)。
参数:number1,number2,…为对应样本总体的1~255个数值参数。其中的逻辑值(True或False)和文本将被忽略。
比如,统计学原理的某次补考只有5名学生参加,成绩为A1=88,A2=55,A3=90,A4=72,A5=85,用Var.p函数估算成绩方差,则公式“=Var.p(A1:A5)”返回171.6。
2.Var.s用于估算样本方差
语法:Var.s(number1,number2,…)。
参数:number1,number2,…对应总体样本的1~255个参数。
比如,假设抽取统计学原理某次考试中的5个分数,并将其作为随机样本,用Var.s函数估算成绩方差,样本值为A1=78,A2=45,A3=90,A4=12,A5=85,则公式“=Var.s(A1:A5)”返回1089.5。
3.Stdev.p用于返回整个样本总体的标准偏差
语法:Stdev.p(number1,number2,…)。
参数:number1,number2,…为对应样本总体的1~255个参数。可以使用逗号分隔参数的形式,也可以使用单一数组,即对数组单元格的引用。Stdev.p函数在计算过程中忽略逻辑值(TRUE或FALSE)和文本。如果逻辑值和文本不能忽略,应当使用Stdevpa函数。
比如,统计学原理课程某次考试只有5名学生参加,成绩为A1=78,A2=45,A3=90,A4=12,A5=85,则计算的所有成绩的标准偏差公式为“=Stdev.p(A1:A5)”,返回的结果等于29.522872。
4.Stdev.s用于估算样本的标准偏差
语法:Stdev.s(number1,number2,…)。
参数:number1,number2,…为对应于总体样本的1~255个参数。可以使用逗号分隔的参数形式,也可使用数组,即对数组单元格的引用。
注意:Stdev.s函数假设其参数是总体中的样本。函数忽略参数中的逻辑值(TRUE或FALSE)和文本。如果不能忽略逻辑值和文本,应使用Stdeva函数。当样本数较多时,Stdev.s和Stdev.p函数的计算结果相差很小。
比如,假设某次统计学原理考试的成绩样本为A1=78,A2=45,A3=90,A4=12,A5 =85,则估算所有成绩标准偏差的公式为“=Stdev.s(A1:A5)”,其结果等于33.007575。
变异系数也称为离散系数或标准差系数,它是一组数据的标准差与其相应的均值之比,是测度数据离散程度的相对指标,一般以百分比形式表现。变异系数主要用于对不同组别数据的离散程度进行比较,变异系数大说明该组数据的离散程度相对较大,变异系数小说明该组数据的离散程度相对较小。
比如,某企业A、B两种产品销售额的数据如图1-3-3所示,试比较六个随机抽取的样本企业A、B两种产品销售额的离散程度。
第一步,在B9单元格输入“产品A销售额变异系数=”,B10单元格输入“产品B销售额变异系数=”。
第二步,在C9单元格输入公式“=Stdev.s(B2:B7)/Average(B2:B7)”,回车返回结果0.450873941;在C10单元格输入公式“=Stdev.s(C2:C7)/Average(C2:C7)”,回车返回结果0.370761081。
第三步,选中激活C9和C10单元格,单击鼠标右键,点击“设置单元格格式”菜单,打开对话框。在“数字”卡片的分类中,选择“百分比”,小数位数保留“2”位。点击“确定”按钮,结果如图1-3-4所示。
第四步,比较结果,由于产品A销售额变异系数45.09%大于产品B销售额变异系数37.08%,所以产品A销售额的离散程度大于产品B销售额的离散程度。
图1-3-3 变异系数计算示例数据
图1-3-4 变异系数计算示例结果
Z值也称为标准化值,其计算公式是用数组中某个数值与数组均值的离差除以对应标准差,Z值越大,表示这个用于计算的数组中的数据远离均值的程度越大。
对于问题“假如小张参加了两次难度不同的考试,第一次考试成绩均值和标准差分别为80分和10分,第二次考试的成绩均值和标准差分别为70分和7分。而小张第一次拿了92分,第二次拿了80分,那么相对于全班而言,小张哪一次考得更好些?”,就可以使用Z值来分析。小张第一次考试的Z值为(92-80)/10=1.2,第二次考试的Z值为(80-70)/7 =1.4,1.4>1.2,所以相对于全班而言,小张第二次考试考得更好些。
Z值还可以用来度量数组数据中是否存在极端值。一般Z值小于-3.0或大于3.0时,被认为是极端值。
形状分布是数据分布的形状特点,在横向上可以观察数据分布是否对称,在纵向上可以观察数据分布是否尖锐。
在对称分布中,小于均值的数据和大于均值的数据相同,大小数据相互平衡;在不对称的分布中,数据围绕均值大小分布不平衡。数据分布对称与否可以由均值和中位数的关系来度量:
(1)均值大于中位数,数据分布不对称,呈现右偏斜(或称为正偏斜)。这是因为一些极端大的值使得均值增大,从而超过了中位数。
(2)均值等于中位数,数据分布对称。
(3)均值小于中位数,数据分布不对称,呈现左偏斜(或称为负偏斜)。这是因为一些极端小的值使得均值减小,从而小于中位数。
Microsoft Excel使用Skew函数来计算反映数据对称情况的结果,我们称之为偏度系数。基本情况如下:
用途:返回一个分布的不对称度。它反映以平均值为中心的分布的不对称程度,正不对称度表示不对称边的分布更趋向正值。负不对称度表示不对称边的分布更趋向负值。
语法:Skew(number1,number2,…)。
参数:number1,number2…是需要计算不对称度的1~255个参数,包括逗号分隔的数值、单一数组和名称等。
比如,公式“=Skew({22,23,29,19,38,27,25},{16,15,19,17,15,14,34})”返回0.8546314。结果表明两个数组构成的14个数据分布呈现出右偏斜的状态。
对于数据的形态分布,除了分析横向是否对称以外,还要分析纵向的陡缓情况。Microsoft Excel使用Kurt函数来反映数据的陡缓情况,其基本情况如下:
用途:返回数据集的峰值。它反映与正态分布相比时某一分布的尖锐程度或平坦程度,正峰值表示相对尖锐的分布,负峰值表示相对平坦的分布。
语法:Kurt(number1,number2,…)。
参数:number1,number2,…为需要计算其峰值的1~255个参数。它们可以使用逗号分隔参数的形式,也可以使用单一数组,即对数组单元格的引用。如果数据点少于4个,或样本标准偏差等于0,函数Kurt返回错误值#DIV/0!。
比如,如果某次学生考试的成绩为A1=71,A2=83,A3=76,A4=49,A5=92,A6=88,A7=96,则公式“=Kurt(A1:A7)”返回1.485982,说明这次的成绩相对正态分布是一个比较尖锐的分布。
注意:上面的例子可以反映出Microsoft Excel是把数据分布情况同正态分布情况作比较,比正态分布更陡峭称为尖锐,比正态分布更平缓称为平坦。因此,Kurt的返回结果是一个比较结果,而不是直接的峰度系数。一般而言,标准正态分布的峰度系数为3,而上面例子中Kurt的返回结果1.485982,说明这七个学生的成绩分布峰度系数为4.485982,即为3+1.485982。由峰度系数,可以度量数据分布的凹凸性:峰度系数为零,则数据呈带状分布;峰度系数为正,则数据呈凸状分布;峰度系数为负,则数据呈凹状分布。正态分布就是一种凸状分布。
Microsoft Excel提供了“描述统计”分析工具扩展函数来综合度量反映数据集中趋势、离散程度和形状分布的结果。“描述统计”分析工具将数组数据均视为样本数据,所以其计算出的结果都是样本函数计算的结果,如方差就是按样本方差函数Var.s计算出的结果。
下面就一个例子来说明“描述统计”分析工具扩展函数的使用方法。在我们实验一提供的中国国家统计局网站的统计数据中可以搜集到2011年至2020年的中国国内生产总值数据,如图1-3-5所示。使用“描述统计”分析工具来获取相关指标结果。
第一步,使用“数据-数据分析”菜单,打开“数据分析”对话框,从分析工具下框中选择“描述统计”,如图1-3-6所示。
图1-3-5 中国2011—2020年国内生产总值数据
图1-3-6 数据分析-描述统计分析工具
第二步,点击“数据分析”对话框的“确定”按钮进入“描述统计”对话框。输入区域点击右侧箭头,选择需要分析描述统计结果的数据(可以同时选择多组定量数据,分析工具会就每一组数据返回结果),本例中选择B1至B14单元格;分组方式确认数据以列还是以行来分组,此处选择“列”单选框(因为变量及变量值以列的方式呈现);输入数据包含了B1单元格的标志值,所以选中“标志位于第一行”复选框(如果分组方式为“行”,这里会显示标志位于第一列);输出选项选择输出区域,点击右侧箭头,选择一个下侧和右侧没有数据的空白单元格,本列中选择了D1单元格;“汇总统计”“平均置信度”“第K大值”和“第K小值”虽然设计的是复选框,但是使用“描述统计”分析工具要求至少四择其一,否则返回结果会提示出错信息。这里,我们将四个都选中,其中最重要的是“汇总统计”,它返回的结果是一个包含了集中趋势、离散程度和形状分布函数等多个结果在内的汇总数据表。“平均数置信度”“第K大值”和“第K小值”保持其默认数值,如图1-3-7所示。
图1-3-7 “描述统计”对话框
第三步,点击“描述统计”对话框“确定”按钮,得到描述统计输出结果。为了方便结果比较,我们将返回汇总表主要数据对应所用的函数方法表示在数据右侧,如图1-3-8所示。
图1-3-8 描述统计分析工具输出结果对应函数处理方法
此外,还要对描述统计工具使用及结果作如下几点说明:
1.观测数
描述统计分析工具返回结果中的观测数代表的是数据的样本容量。Microsoft Excel使用Count函数来计算数组数据的个数,其基本情况如下:
用途:返回数字参数的个数。它可以统计数组或单元格区域中含有数字的单元格个数。
语法:Count(value1,value2,…)。
参数:value1,value2,…是包含或引用各种类型数据的参数(1~255个),其中只有数字类型的数据才能被统计。
举例:A1=90,A2 =人数,A3=〞〞,A4=54,A5=36,则公式“=Count(A1:A5)”返回3。
2.第K大值和第K小值
第K大值和第K小值是在对数据排序基础上反映出来的描述统计结果。第K大值表明的是第K大的数,相当于对数据按降序排列,排在第K位的数据;第K小值表明的是第K小的数,相当于对数据按升序排列,排在第K位的数据。“描述统计”对话框中默认第K大值和第K小值的数值都为1,则第一大值就是最大值,第一小值就是最小值。
3.标准误差
“描述统计”分析工具分析结果中的标准误差并不是指标准差,而是指抽样平均误差。它是利用抽样的方法,使用样本统计量推断总体参数时,抽样中所有可能样本的样本估计量与总体参数的离差平方和的算术平均数的平方根,即样本估计量的标准差。抽样平均误差越小,样本对总体的代表性越大;反之,样本对总体的代表性越小。
Microsoft Excel使用Count、Stdev.s和Sqrt三个函数组合套用来计算标准误差。Count和Stdev.s前面已经介绍过,分别用于计算数据的个数(样本容量)和样本标准差。Sqrt函数的基本情况如下:
用途:返回某一正数的算术平方根。
语法:Sqrt(number)。
参数:number为需要求平方根的正数。
举例:如果A1=16,则公式“=Sqrt(A1)”返回4。
图1-3-8中,标准误差的计算公式为“=Stdev.s(B2:B11)/Sqrt(Count(B2:B11))”。该计算公式也表明“描述统计”分析工具分析结果中的标准误差是按照重复抽样的方法计算的。
4.平均数置信度
“描述统计”对话框中的“平均数置信度”复选框被选中后,要求手工输入均值的置信度,默认值为95%。选中该复选框以后,返回的表格结果中会多出最后一行“置信度(95%)数值”,其中的数值代表平均数(表格第一行平均后的数值结果)在95%置信度水平下置信区间半径。关于置信度和置信区间,我们将在实验四中给大家详细介绍。
1.从某班统计学原理成绩中随机抽取10个成绩样本数据,分别是:45,68,85,76,82,77,69,84,82,73。将上述数据录入Microsoft Excel工作表中,并保存工作簿文件名为“练习4.xls”,利用内置函数完成下述工作:
(1)计算均值、中位数和众数。
(2)计算极差、方差和标准差。
(3)计算Z值,判断有无极端值。
(4)描述数据的形状。
2.某厂长想研究星期一的产量是否低于其他几天,连续观察六个星期同期的产量,整理后的资料如下:
星期一产量情况表
非星期一产量情况表
(1)将上述数据录入Microsoft Excel工作表中,并保存工作簿文件名为“练习5.xls”。
(2)计算六个星期一产量的算术平均数、中位数。
(3)计算非星期一产量的算术平均数、中位数和众数。
(4)计算星期一和非星期一产量的极差、方差和标准差。
(5)比较星期一和非星期一产量的相对离散程度,哪个更大一些?
(6)数据如何分布?
3.一家生产轮胎工厂的运营经理希望比较两种轮胎X、Y的内部直径,每种期望在575毫米。每种等级选择5只轮胎,轮胎内部直径的结果,从小到大排列如下表所示:
(1)将上述数据录入Microsoft Excel工作表中,并保存工作簿文件名为“练习6.xls”。
(2)计算每种轮胎的均值、中位数和标准差。
(3)哪种轮胎的质量更好?
(4)如果Y轮胎最后一个样本值是588而不是578,对(2)、(3)问中的结果有什么影响?