Excel统计分析与应用（第3版）最新章节_刘志红著

3.1 描述集中与离中趋势的统计量

集中趋势指一组数据向其中心值靠拢的倾向和程度。测度集中趋势就是寻找数据水平的代表值或中心值，不同类型的数据应当使用不同的集中趋势测度值。值得注意的是，低层次数据的测度值适用于高层次的测量数据，但高层次数据的测度值并不适用于低层次的测量数据。因此，选用什么样的测度值来反映数据的集中趋势要根据数据的类型和特点来决定。描述集中趋势的统计指标有：算术平均值、几何平均值、调和平均值、众数、中位数等。

离中趋势是数据分布的另一个重要特征，它反映各变量值远离其中心值的程度。离中趋势也从另一个侧面说明了集中趋势测度值的代表程度，数据的离中趋势越大，集中趋势的测度值对该组数据的代表性就越差；数据的离中趋势越小，集中趋势的测度值的代表性就越好。和集中趋势一样，不同类型的数据有不同的离散程度测度值。描述离中趋势的统计指标主要有：方差和标准差。

3.1.1 算术平均值

算术平均值也称均值，是一组数据相加后除以数据的个数得到的结果。算术平均值是集中趋势的最常用测度值，主要适用于数值型数据，而不适用于分类数据和顺序数据。但是算术平均值易受极端值的影响。根据所掌握数据的不同，算术平均值有不同的计算形式和计算公式，可分为未经分组数据的算术平均值和分组数据的算术平均值两大类。

1.未经分组数据算术平均值的计算

根据未经分组数据计算的平均值称为简单算术平均值。设一组样本数据为x ₁ ，x ₂ ，…，x _n ，样本量为n，则简单算术平均值的计算公式为

在Excel 2013中用AVERAGE函数来计算简单算术平均值，即将总体的各个单位标志值简单相加，然后除以单位项数。

表达形式：= AVERAGE (number1，number2，…)

其中number1，number2，…是需要求其算术平均值的参数，参数个数限制在30个以内，Number参数可以是数字、名称、数组或包含数字的引用。值得注意的是，AVERAGE函数忽略空白、逻辑值和文本单元格。

下面我们通过实验3-1来介绍使用AVERAGE函数来计算样本简单算术平均值的相关操作。

实验3-1：以某班级语文、数学、英语三门考试成绩数据为例创建一个数据文件，以该数据为基础计算出每位学生的平均成绩和每门功课的班级平均成绩，实验的原始数据如图3-1所示。

使用AVERAGE函数来计算简单算术平均值的相关操作如下：

（1）单击单元格E2，输入函数“= AVERAGE（B2:D2）”后按Enter键即可在单元格E2中算出学号为1的学生的平均成绩，如图3-2所示，其中函数中B2:D2表示引用区域B2单元格到D2单元格中的数据。

图3-1 实验3-1原始数据

图3-2 计算学号为1学生的平均成绩

（2）选择单元格E2，使用自动填充柄将函数复制到E3至E21的区域，从而计算出其他学生的平均成绩。

（3）单击单元格B22，输入函数“= AVERAGE（B2:B21）”后按Enter 键即可在如图3-3所示的单元格B22中算出语文课的班级平均成绩。

（4）选择单元格B22，使用自动填充柄将函数复制到C22至D22的区域，从而计算出其他课程的班级平均成绩，最终结果如图3-4所示。

图3-3 计算语文课的班级平均成绩

图3-4 实验3-1计算结果

2.分组数据算术平均值的计算

根据分组数据计算的平均值称为加权算术平均值。设原始数据被分为 k 组，各组的组中值分别用M ₁ ，M ₂ ，M ₃ ，…，M _k 来表示，各组变量值出现的频数分别用 f ₁ ，f ₂ ，f ₃ ，…，f _k 来表示，n为样本量，则样本加权平均值的计算公式为

x=…2f+ + +1f 2 21 1 …+ ++Mf M f k kM f= 1=i k∑i iM f （3-2）fk n

在Excel 2013中，通过样本数据计算加权算术平均值要通过使用数学公式以及SUM函数来实现。下面我们通过实验3-2介绍使用SUM函数来计算样本加权算术平均值的相关操作。

实验3-2：以某厂123个生产车间的产量统计数据为例创建一个数据文件，以该数据为基础计算出该厂平均每个生产车间产量的加权算术平均值，实验的原始数据如图3-5所示。

图3-5 实验3-2原始数据

使用数学公式以及SUM函数来计算加权算术平均值的相关操作如下：

（1）计算出每组数据中组中值M _i 与频数 f _i 的乘积M _i f _i ，单击单元格D2输入公式“=B2*C2”，按下Enter键后，使用自动填充柄将公式复制到D3至D12的区域，计算结果如图3-6所示。

（2）单击单元格C13，输入函数“= SUM（C2:C12）”后按Enter键即可在单元格C13中算出样本容量，使用自动填充柄将公式复制到单元格D13。

（3）单击单元格E2，输入公式“=D13/C13”，按Enter键即可求得该厂每一车间的加权平均产量，计算结果如图3-7所示。

图3-6 计算各组组中值与频数的乘积

图3-7 实验3-2计算结果

3.1.2 几何平均值

几何平均值是另一种计算平均变量值的平均值。它不是对各单位变量值的算术平均，而是根据各单位变量值连乘积再开几次方来计算的，是n个变量值乘积的n次方根。几何平均值适用于对比率数据的平均，主要用于计算平均增长率。当所掌握的变量本身是比率的形式时，采用几何平均值计算平均比率更为合理。几何平均值一般用G表示，它的计算公式如下：

几何平均值的特点：

（1）几何平均值受极端值的影响较算术平均值小。

（2）如果变量值有负值，计算出的几何平均值就会成为负数或虚数。

（3）它仅适用于具有等比或近似等比关系的数据。

（4）几何平均值的对数是各变量值对数的算术平均值。

在Excel 2013中用GEOMEAN函数来计算几何平均值。

表达形式：= GEOMEAN (number1，number2，…)

其中 number1，number2，…是多达30个要求其几何平均值的参数，也可使用单个数组或区域等。

下面我们通过实验3-3介绍使用GEOMEAN函数来计算几何平均值的相关操作。

实验3-3：以某公司2000―2009年投资收益率为例创建一个数据文件，以该数据为基础计算该公司2000―2009年每年的平均收益率，实验的原始数据如图3-8所示。

使用GEOMEAN函数来计算几何平均值的相关操作如下：

单击单元格B12，输入函数“=GEOMEAN（B2:B11）”，按Enter键即可求得该公司2000―2009年每年的平均收益率，计算结果如图3-9所示。

图3-8 实验3-3原始数据

图3-9 实验3-3计算结果

3.1.3 调和平均值

调和平均值又称倒数平均值，是计算同质总体中各单位平均变量值的一种方式，它是各变量值倒数的算术平均值的倒数。调和平均值一般用H表示，它的计算公式如下：

H n nx21x x+ +…+11 1 1= =1=j∑jx k n （3-4）

调和平均值的特点：

（1）调和平均值易受极端值的影响，且受极小值的影响比受极大值的影响更大。

（2）只要有一个变量值为零，就不能计算调和平均值。

（3）当组距数列有开口组时，其组中值即使按相邻组距计算了，假定性也很大，这时，调和平均值的代表性就很不可靠。

（4）调和平均值应用的范围较小。

应用调和平均值应注意以下问题：

（1）变量x的值不能为0。

（2）调和平均值易受极端值的影响。

（3）要注意其运用的条件。调和平均值多用于已知分子资料，缺分母资料时。

在Excel 2013中用HARMEAN函数来计算调和平均值。

表达形式：= HARMEAN(number1，number2，…)

其中 number1，number2，…是多达30个要求其调和平均值的参数，也可使用单个数组或区域等。

下面我们通过实验3-4介绍使用HARMEAN函数来计算调和平均值的相关操作。

实验3-4：仍以实验3-1中某班级语文、数学、英语三门考试成绩数据为例创建一个数据文件，以该数据为基础计算该班级语文、数学、英语三门考试成绩的班级调和平均值。

使用HARMEAN函数来计算调和平均值的相关操作如下：

单击单元格B12，输入函数“=HARMEAN（B2:B11）”，按Enter键即可求得该班级语文成绩的调和平均值，使用自动填充柄将函数复制到C22至D22的区域，从而计算出其他课程成绩的调和平均值，最终结果如图3-10所示。

图3-10 实验3-4计算结果

3.1.4 众数

众数是一组数据中出现次数最多的变量值，适合于数据量较多时使用，一组数据可以有多个众数，也可以没有众数。众数是由英国统计学家皮尔生首先提出来的。所谓众数是指社会经济现象中最普遍出现的标志值，从分布角度看，众数是具有明显集中趋势的数值。众数主要用于分类数据，也可用于顺序数据和数值型数据，它不受极端值的影响，但一组数据也可能没有众数或只有几个众数。从分布角度来看，众数是具有明显集中趋势点的数值，一组数据分布的最高峰点所对应的数值即为众数。

众数具有如下特点：

（1）众数是以它在所有标志值中所处的位置确定的全体单位标志值的代表值，它不受分布数列的极大值或极小值影响，从而增强了众数对分布数列的代表性。

（2）当分组数列没有任何一组的次数占多数，也即分布数列中没有明显的集中趋势，而是近似于均匀分布时，则该次数分配数列无众数。若将无众数的分布数列重新分组或各组频数依序合并，又会使分配数列再现出明显的集中趋势。

（3）如果与众数组相比邻的上下两组的次数相等，则众数组的组中值就是众数值；如果与众数组比邻的上一组的次数较多，而下一组的次数较少，则众数在众数组内会偏向该组下限；如果与众数组比邻的上一组的次数较少，而下一组的次数较多，则众数在众数组内会偏向该组上限。

（4）缺乏敏感性。这是由于众数的计算只利用了众数组的数据信息，不像数值平均值那样利用了全部数据信息。

1.非分组数据众数的计算

众数的确定方法因所掌握的数据条件不同而有所不同。根据非分组数据计算众数比较容易，只要找出出现频数最多或出现频率最高的变量值即可。

在Excel 2013中用MODE函数来计算非分组数据的众数。

表达形式：= MODE (number1，number2，…)

其中 number1，number2，…是多达30个要求其众数的参数。也可使用单个数组或区域等。

下面我们通过实验3-5介绍使用MODE函数来计算非分组数据的众数的相关操作。

实验3-5：以某班级以学号选举班长的选票数据为例创建一个数据文件，以该数据为基础计算该班级选举班长选票的众数，实验的原始数据如图3-11所示。

使用MODE函数来计算非分组数据的众数的相关操作如下：

单击单元格B2，输入函数“=MODE（A1:A20）”，按Enter 键即可求得该班级班长选票数据的众数，计算结果如图3-12所示，可见班级中大多数人赞同选12号学生当班长。

图3-11 实验

图3-12 实验

2.分组数据众数的计算

如果根据分组数据来计算众数，则先要找出频数最多的一组作为众数组，然后运用公式来确定众数。对于组距分组数据，众数的数值与其相邻两组的频数分布有一定的关系，这种关系可做如下的理解。

设众数组的频数为f _m ，众数前一组的频数为f _-1 ，众数后一组的频数为f ₊₁ 。当众数相邻两组的频数相等时，即f _-1 =f ₊₁ ，众数组的组中值即为众数；当众数组的前一组的频数多于众数组后一组的频数时，即 f _-1 ＞f ₊₁ ，则众数会向其前一组靠，众数小于其组中值；当众数组后一组的频数多于众数组前一组的频数时，即f _-1 ＜f ₊₁ ，则众数会向其后一组靠，众数大于其组中值。基于这种思路，分组数据众数的计算公式如下：

下限公式：

oM L= +(mf − )1+f−mf+) (1−f 1−f−mf d L× = +21∆ +∆1∆d× （3-5）

上限公式：

M U= −o (f fm−m−f−1 1+f d U× = −∆2 ×d ) (+mf − )1+f 21∆ +∆ （3-6）

式中，L表示众数所在组的下限；U表示众数所在组的上限；d表示众数所在组的组距。

利用上述公式计算众数时是假定数据分布具有明显的集中趋势，且众数组的频数在该组内是均匀分布的，若这些假定不成立，则众数的代表性就会很差。从众数的计算公式可以看出，众数是根据众数组及相邻组的频率分布信息来确定数据中心点位置的，因此，众数是一个位置代表值，它不受数据中极端值的影响。

下面我们通过实验3-6介绍根据分组数据来计算众数的相关操作。

实验3-6：仍以实验3-2所用数据，某厂123个车间的产量统计数据为例创建一个数据文件，以该数据为基础计算出该厂车间产量的众数。实验的原始数据如图3-5所示。

根据分组数据来计算众数的相关操作如下：

（1）确定众数组，由实验原始数据易知众数组为频数最高的组“120～130”，频数为27。

（2）选择上限公式或下限公式计算众数。单击单元格 B13，若选择下限公式，则在单元格中输入公式“=120+(C5-C4)/((C5-C4)+(C5-C6))*10”，按Enter键即可；若选择上限公式，则在单元格中输入公式“=130-(C5-C6)/((C5-C4)+(C5-C6))*10”，按Enter键即可。其中，120为众数组的下限，130 为众数组的上限，10 为众数组的组距，C5 为众数组的频数为f _m ,C4为众数前一组的频数为f _-1 ,C6为众数后一组的频数为f ₊₁ ，计算结果如图3-13所示。我们会发现用上限公式和用下限公式计算出来的众数相等，均为126.111111。

图3-13 实验3-6计算结果

3.1.5 中位数

中位数是指将数据按大小顺序排列起来，形成一个数列，居于数列中间位置的那个数据。中位数将全部数据分成两部分，每部分包含50%的数据，一部分比中位数大，另一部分比中位数小。中位数的作用与算术平均值相近，也是作为所研究数据的代表值。在一个等差数列或一个正态分布数列中，中位数就等于算术平均值。

在数列中出现了极端变量值的情况下，用中位数作为代表值要比用算术平均值更好，因为中位数不受极端变量值的影响。如果研究目的就是为了反映中间水平，当然也应该用中位数。在统计数据的处理和分析时，可结合使用中位数。中位数主要用于顺序数据，也可用数值型数据，但不能用于分类数据。

中位数具有如下特点：

（1）中位数是以它在所有标志值中所处的位置确定的全体单位标志值的代表值，不受分布数列的极大值或极小值影响，从而在一定程度上提高了中位数对分布数列的代表性。（2）有些离散型变量的单项式数列，当次数分布偏态时，中位数的代表性会受到影响。

（3）缺乏敏感性。

1.未分组数据中位数的计算

根据未分组数据计算中位数分以下两步进行。

（1）将标志值按大小排序。设排序的结果为

x ₁ ≤x ₂ ≤x ₃ ≤…≤x _n （3-7）

（2）确定中位数。一般中位数用M _e 表示，它的计算方法为

eM偶n( )2 2 2 1+nnx x= { +2奇n( )1+nx （3-8）

在Excel 2013中，可以用MEDIAN函数来计算非分组数据的中位数。

表达形式：= MEDIAN (number1，number2，…)

其中 number1，number2，…是多达30个要求其中位数的参数，也可使用单个数组或区域等。

下面我们通过实验3-7介绍根据未分组数据来计算中位数的相关操作。

实验3-7：以某产品为20家不同零售店的价格为例创建一个数据文件，以该数据为基础计算出该产品价格的中位数。实验的原始数据如图3-14所示。

根据未分组数据来计算中位数的操作如下：

单击单元格B2，输入函数“= MEDIAN（A2:A21）”，按Enter键即可求得该产品零售价的中位数，计算结果如图3-15所示，该产品零售价的中位数为25.2。

图3-14 实验

图3-15 实验

2.分组数据中位数的计算

根据分组数据计算中位数也需要分两步进行：

（1）从变量数列的累计频数栏中找出第个单位所在的组，即“中位数组”，该组的上、下限就规定了中位数的可能取值范围。

（2）假定在中位数组内的各单位是均匀分布的，则中位数的计算公式如下：

其中，L _i 表示中位数所在组的下限，d表示中位数所在组的组距，F _i 表示中位数所在组的累计频数，F _i-1 表示中位数所在组的前一组的累计频数，n表示数据个数。

下面我们通过实验3-8介绍根据分组数据来计算中位数的相关操作。

实验3-8：仍以实验3-2所用数据，某厂123个车间的产量统计数据为例创建一个数据文件，以该数据为基础计算出该厂车间产量的中位数。实验的原始数据如图3-5所示。

根据分组数据来计算中位数的相关操作如下：

（1）单击单元格C13，输入求和公式“=SUM(C2:C12)”，按Enter 键求出样本容量为123，单击单元格D13，输入公式“=（C13+1）/2”，按Enter键计算出中位数所在频数为62。

（2）将单元格C2的数据复制到单元格D2中，单击单元格D3，输入公式“=D2+C3”，按Enter键，并用自动填充柄将公式复制到D4至D12单元格，求出累计频数，如图3-16所示。

（3）根据（1）中计算出的中位数所在频数以及（2）中求出的累计频数，找到中位数所在组为“130-140”组。

（4）根据公式来计算中位数，单击单元格E2，输入公式“=130+(C13/2-D5)/(D6-D5)*10”，按Enter 键即可得到中位数，计算结果如图3-17所示。其中，130为中位数所在组的下限，C13为样本个数n，D5为中位数所在组的前一组的累计频数，D6为中位数所在组的累计频数，10为组距。