统计数据的分布特征可以从两方面进行描述:一是数据分布的集中趋势;二是数据分布的离散程度。集中趋势和离散程度是数据分布特征对立统一的两方面。本节通过介绍平均指标和变异指标这两种统计指标的概念及计算来讨论反映数据集中趋势和离散程度这两方面的特征。
集中趋势是指一组数据向某中心值靠拢的倾向,集中趋势的测度实际上就是对数据一般水平代表值或中心值的测度。不同类型的数据用不同的集中趋势测度值,低层次数据的集中趋势测度值适用于高层次的测量数据;反过来,高层次数据的集中趋势测度值并不适用于低层次的测量数据。选用哪一个测度值来反映数据的集中趋势,要根据所掌握的数据的类型来确定。
通常用平均指标作为集中趋势测度指标。本节重点介绍众数、中位数两个位置平均数和算术平均数、调和平均数及几何平均数3个数值型平均数。
众数是指一组数据中出现次数最多的变量值,用M 0 表示。从变量分布的角度看,众数是具有明显集中趋势点的数值,一组数据分布的最高峰点所对应的变量值即为众数。当然,如果数据的分布没有明显的集中趋势或最高峰点,众数就可以不存在;如果有多个高峰点,就有多个众数。
(1)定类数据和定序数据众数的测定
在使用定类数据与定序数据计算众数时,只需找出出现次数最多的组所对应的变量值即可。
(2)未分组数据或单变量值分组数据众数的确定
在使用未分组数据或单变量值分组数据计算众数时,只需找出出现次数最多的变量值即可。
(3)组距分组数据众数的确定
对于组距分组数据来说,众数的数值与其相邻两组的频数分布有一定的关系,这种关系可作如下理解:
设众数组的频数为 f m ,众数前一组的频数为 f -1 ,众数后一组的频数为 f +1 。当众数相邻两组的频数相等时,即 f -1 = f +1 ,众数组的组中值即为众数;当众数组的前一组的频数多于众数组后一组的频数时,即 f -1 > f +1 ,众数会向其前一组靠,众数小于其组中值;当众数组后一组的频数多于众数组前一组的频数时,即 f -1 < f +1 ,众数会向其后一组靠,众数大于其组中值。基于这种思路,借助几何图形而导出的分组数据众数的计算公式如下:
其中, L 表示众数所在组的下限, U 表示众数所在组的上限, i 表示众数所在组的组距, f m 为众数组的频数, f -1 为众数组前一组的频数, f +1 为众数组后一组的频数。
上述下限和上限公式是假定数据分布具有明显的集中趋势,且众数组的频数在该组内是均匀分布的,若这些假定不成立,则众数的代表性会很差。从众数的计算公式可以看出,众数是根据众数组及相邻组的频率分布信息来确定数据中心点位置的,因此众数是一个位置代表值,它不受数据中极端值的影响。
中位数是将总体各单位标志值按大小顺序排列后,处于中间位置的那个数值。各变量值与中位数的离差绝对值之和最小,即:
(1)定序数据中位数的确定
定序数据中位数确定的关键是确定中间位置,中间位置所对应的变量值即为中位数。
①未分组原始资料中间位置的确定
②分组数据中间位置的确定
(2)数值型数据中位数的确定
①未分组资料
首先必须将标志值按大小排序。设排序的结果为:
,则:
②单变量分组资料
③组距分组资料
根据位置公式确定中位数所在的组,假定在中位数组内的各单位是均匀分布的,则可利用下面的公式计算中位数的近似值:
其中,
s
m
-1
是到中位数组前面一组为止的向上累计频数,
则是到中位数组后面一组为止的向下累计频数,
f
m
为中位数组的频数,
i
为中位数组的组距。
算术平均数(Arithmetic Mean)也称为均值(Mean),是全部数据算术平均的结果。算术平均法是计算平均指标最基本、最常用的方法。算术平均数在统计学中具有重要的地位,是集中趋势的主要测度值,通常用
表示。根据所掌握数据形式的不同,算术平均数有简单算术平均数和加权算术平均数。
(1)简单算术平均数(Simple Arithmetic Mean)
未经分组整理的原始数据,其算术平均数的计算就是直接将一组数据的各个数值相加除以数值个数。设总体数据为
X
1
,
X
2
, …,
X
n
,样本数据为
x
1
,
x
2
, …,
x
n
,则统计总体均值
和样本均值
的计算公式为:
(2)加权算术平均数(Weighted Arithmetic Mean)
根据分组整理的数据计算的算术平均数,就要以各组变量值出现的次数或频数为权数计算加权的算术平均数。设原始数据(总体或样本数据)被分成 K 或 k 组,各组的变量值为 X 1 , X 2 , …, X K ,或 x 1 , x 2 , …, x k ,各组变量值的次数或频数分别为 F 1 , F 2, …, F K ,或 f 1 , f 2 , …, f k ,则总体或样本的加权算术平均数为:
公式(2.9)中是用各组的组中值代表各组的实际数据,使用代表值时是假定各组数据在各组中是均匀分布的,但实际情况与这一假定会有一定的偏差,使得利用分组资料计算的平均数与实际平均值会产生误差,它是实际平均值的近似值。
加权算术平均数其数值的大小不仅受各组变量值 x i 大小的影响,而且受各组变量值出现的频数(权数 f i )大小的影响。如果某一组的权数大,说明该组的数据较多,那么该组数据的大小对算术平均数的影响就越大,反之,则越小。实际上,我们将上式变形为下面公式(2.10)的形式,就能更清楚地看出这一点。
由上式可以清楚地看出,加权算术平均数受各组变量值( x i )和各组权数(频率 f i /∑f i )大小的影响。频率越大,相应的变量值计入平均数的份额也越大,对平均数的影响就越大;反之,频率越小,相应的变量值计入平均数的份额也越小,对平均数的影响就越小。这就是权数权衡轻重作用的实质。
算术平均数在统计学中具有重要的地位,它是进行统计分析和统计推断的基础。从统计思想上看,算术平均数是一组数据的重心所在,它是消除了一些随机因素影响后或者数据误差相互抵消后的必然性结果。
算术平均数具有下面一些重要的数学性质,这些数学性质在实际中有着广泛的应用,同时也体现了算术平均数的统计思想。
(1)各变量值与其算术平均数的离差之和等于零,即:
(2)各变量值与其算术平均数的离差平方和最小,即:
在实际工作中,经常会遇到只有各组变量值和各组标志总量而缺少总体单位数的情况,这时就要用调和平均数法计算平均指标。调和平均数是各个变量值倒数的算术平均数的倒数,习惯上用 H 表示。计算公式如下:
调和平均数和算术平均数在本质上是一致的,唯一的区别是计算时使用了不同的数据。在实际应用时可掌握这样的原则:当计算算术平均数其分子资料未知时,就采用加权算术平均数计算平均数;当分母资料未知时,就采用加权调和平均数计算平均数。
几何平均数是适应于特殊数据的一种平均数,在实际生活中,通常用来计算平均比率和平均速度。当所掌握的变量值本身是比率的形式,而且各比率的乘积等于总的比率时,就应采用几何平均法计算平均比率。
也可以看作算术平均数的一种变形:
算术平均数与众数、中位数的关系取决于频数分布的状况。它们的关系如下:
(1)当数据具有单一众数且频数分布对称时,算术平均数与众数、中位数三者完全相等,即
。
(2)当频数分布呈现右偏态时,说明数据存在最大值,必然拉动算术平均数向极大值一方靠,则三者之间的关系为
。
(3)当频数分布呈现左偏态时,说明数据存在最小值,必然拉动算术平均数向极小值一方靠,而众数和中位数由于是位置平均数,不受极值的影响,因此三者之间的关系为
<M
0
。
当频数分布出现偏态时,极端值对算术平均数产生很大的影响,而对众数、中位数没有影响,此时用众数、中位数作为一组数据的中心值比算术平均数有较高的代表性。算术平均数与众数、中位数从数值上的关系看,当频数分布的偏斜程度不是很大时,无论是左偏还是右偏,众数与中位数的距离约为算术平均数与中位数的距离的两倍,即:
数据分布的离散程度是描述数据分布的另一个重要特征,反映各变量值远离其中心值的程度,因此也称为离中趋势,从另一个侧面说明了集中趋势测度值的代表程度,不同类型的数据有不同的离散程度测度值。描述数据离散程度的测度值主要有异众比率、极差、四分位差、平均差、方差和标准差、离散系数等,这些指标又称为变异指标。
异众比率的作用是衡量众数对一组数据的代表性程度的指标。异众比率越大,说明非众数组的频数占总频数的比重就越大,众数的代表性就越差;反之,异众比率越小,众数的代表性就越好。异众比率主要用于测度定类数据、定序数据的离散程度。
其中,∑ F i 为变量值的总频数, F m 为众数组的频数。
极差是一组数据的最大值与最小值之差,是离散程度的最简单测度值。极差的测度如下:
(1)未分组数据
(2)组距分组数据
R 最高组上限-最低组下限
中位数是从中间点将全部数据等分为两部分。与中位数类似的还有四分位数、八分位数、十分位数和百分位数等。它们分别是用3个点、7个点、9个点和99个点将数据四等分、八等分、十等分和100等分后各分位点上的值。这里只介绍四分位数的计算,其他分位数与之类似。
一组数据排序后处于25%和75%位置上的值称为四分位数,也称四分位点。四分位数是通过3个点将全部数据等分为4部分,其中每部分包含25%的数据。很显然,中间的分位数就是中位数,因此通常所说的四分位数是指处在25%位置上的数值(下四分位数)和处在75%位置上的数值(上四分位数)。与中位数的计算方法类似,根据未分组数据计算四分位数时,首先对数据进行排序,然后确定四分位数所在的位置。
(1)四分位数确定
设下四分位数为 Q L ,上四分位数为 Q U :
①未分组数据
当四分位数的位置不在某一个位置上时,可根据四分位数的位置按比例分摊四分位数两侧的差值。
②单变量值分组数据
③组距分组数据
(2)四分位差
四分位数是离散程度的测度值之一,是上四分位数与下四分位数之差,又称为四分位差,亦称为内距或四分间距(Inter-Quartile Range),用 Q d 表示。四分位差的计算公式为:
平均差是离散程度的测度值之一,是各变量值与其算术平均数离差绝对值的平均数,用 M d 表示。平均差能全面反映一组数据的离散程度,但该方法数学性质较差,实际中应用较少。
(1)简单平均法
对于未分组资料采用简单平均法。其计算公式为:
(2)加权平均法
在资料分组的情况下,应采用加权平均法。其计算公式为:
方差和标准差同平均差一样,也是根据全部数据计算的,反映每个数据与其算术平均数相比平均相差的数值,因此能够准确地反映数据的差异程度。但与平均差的不同之处是在计算时的处理方法不同,平均差是取离差的绝对值消除正负号,而方差、标准差是取离差的平方消除正负号,这更便于数学上的处理。因此,方差、标准差是实际中应用广泛的离中程度度量值。
(1)总体的方差和标准差
①设总体的方差为 σ 2 ,标准差为 σ ,对于未分组整理的原始资料,方差和标准差的计算公式分别为:
②对于分组数据,方差和标准差的计算公式分别为:
(2)样本的方差和标准差
样本的方差、标准差与总体的方差、标准差在计算上有所差别。总体的方差和标准差在对各个离差平方平均时是除以数据个数或总频数,而样本的方差和标准差在对各个离差平方平均时是用样本数据个数或总频数减1(自由度)去除总离差平方和。
设样本的方差为 S 2 ,标准差为 S ,对于未分组整理的原始资料,方差和标准差的计算公式为:
对于分组数据,方差和标准差的计算公式为:
当 n 很大时,样本方差 S 2 与总体方差 σ 2 的计算结果相差很小,这时样本方差也可以用总体方差的公式来计算。
前面介绍的全距、平均差、方差和标准差都是反映一组数值变异程度的绝对值,其数值的大小不仅取决于数值的变异程度,还与变量值水平的高低、计量单位的不同有关。所以,不宜直接利用上述变异指标对不同水平、不同计量单位的现象进行比较,应当先进行无量纲化处理,即将上述反映数据的绝对差异程度的变异指标转化为反映相对差异程度的指标,再进行对比。离散系数通常用 V 表示,常用的离散系数为标准差系数。测度了数据的相对离散程度,用于对不同组别数据离散程度进行比较的计算公式为:
偏态和峰度就是对这些分布特征的描述。偏态是对数据分布的偏移方向和程度所做的进一步描述,峰度是对数据分布的扁平程度所做的描述。对于偏斜程度的描述用偏态系数,对于扁平程度的描述用峰度系数。
动差又称矩,原是物理学上用以表示力与力臂对重心关系的术语,这个关系和统计学中变量与权数对平均数的关系在性质上很类似,所以统计学也用动差来说明频数分布的性质。
一般来说,取变量的 a 值为中点,所有变量值与 a 之差的 K 次方的平均数称为变量 X 关于 a 的 K 阶动差。用式子表示即为:
当 a =0时,即变量以原点为中心,上式称为 K 阶原点动差,用大写英文字母 M 表示。
一阶原点动差:
二阶原点动差:
三阶原点动差:
当
时,即变量以算术平均数为中心,上式称为
K
阶中心动差,用小写英文字母
m
表示。
一阶中心动差:
二阶中心动差:
三阶中心动差:
偏态是对分布偏斜方向及程度的度量。从前面的内容中我们已经知道,频数分布有对称的,有不对称的(偏态的)。在偏态的分布中,又有两种不同的形态,即左偏和右偏。我们可以利用众数、中位数和算术平均数之间的关系判断分布是左偏还是右偏的,但要度量分布偏斜的程度就需要计算偏态系数了。
采用动差法计算偏态系数是用变量的三阶中心动差 m 3 与 σ 3 进行对比,计算公式为:
当分布对称时,变量的三阶中心动差 m 3 由于离差三次方后正负相互抵消而取得0值,因此 a =0;当分布不对称时,正负离差不能抵消,就形成正的或负的三阶中心动差 m 3 。当 m 3 为正值时,表示正偏离差值比负偏离差值大,可以判断为正偏或右偏;反之,当 m 3 为负值时,表示负偏离差值比正偏离差值大,可以判断为负偏或左偏。| m 3 |越大,表示偏斜的程度就越大。由于三阶中心动差 m 3 含有计量单位,为消除计量单位的影响,就用 σ 3 去除 m 3 ,使其转化为相对数。同样地, a 的绝对值越大,表示偏斜的程度就越大。
峰度是用来衡量分布的集中程度或分布曲线的尖峭程度的指标。计算公式如下:
分布曲线的尖峭程度与偶数阶中心动差的数值大小有直接的关系, m 2 是方差,于是就以四阶中心动差 m 4 来度量分布曲线的尖峭程度。 m 4 是一个绝对数,含有计量单位,为消除计量单位的影响,将 m 4 除以 σ 4 ,就得到无量纲的相对数。衡量分布的集中程度或分布曲线的尖峭程度往往是以正态分布的峰度作为比较标准的。在正态分布条件下, m 4 / σ 4 =3,将各种不同分布的尖峭程度与正态分布比较。
当峰度 a 4 >3时,表示分布的形状比正态分布更瘦更高,这意味着分布比正态分布更集中在平均数周围,这样的分布称为尖峰分布,如图2.1(a)所示;当 a 4 =3时,分布为正态分布;当 a 4 <3时,表示分布比正态分布更扁平,意味着分布比正态分布更分散,这样的分布称为扁平分布,如图2.1(b)所示。
图2.1 尖峰与平峰分布示意图