对数值型资料特征的描述,除了描述集中趋势外,还必须描述离散趋势(dispersion)。离散趋势指标亦称变异性指标,是描述一组同质观测值变异程度大小的综合指标。它们不但反映研究指标数值的稳定性和均匀性,而且反映集中性指标的代表性。常用的离散趋势指标有极差(range)、四分位数间距(quartile range)、方差(variance)、标准差(standard deviation)以及变异系数(coefficient of variation)。
极差反映了全部数据的变化范围,记为 R , R = X max - X min 。一般来讲,样本量相近的同类资料比较,极差越大,意味着数据间变异越大。反之,说明变异度小。极差反映离散趋势的大小,简单明了。但其缺陷是:①除最大值与最小值外,不能反映其他观察值的变异。②受样本量 n 大小的影响,一般来说,样本量 n 越大,抽到较大或较小的观察值的可能性越大,极差就有可能越大。③即使样本量 n 不变,极差的抽样误差也较大,即用极差反映离散趋势不稳定。
四分位数(quartile)是指百分位数 P 75 与 P 25 。对 P 75 而言,有25%(即四分之一)的观察值比它大,故称为上四分位数;对于 P 25 而言,有25%(即四分之一)的观察值比它小,故称为下四分位数。四分位数间距指上四分位数与下四分位数之差,即中间一半观察值的分布范围,符号为 Q (见式5-5)。其作用与极差相似,数值大,说明变异度大;反之,说明变异度小。
【例5-3】 利用例5-5数据计算四分位数间距。
按百分位数的计算步骤求解,分别求 P 75 与 P 25 ,则有:
四分位数间距反映离散程度的大小,受极端值的影响相对小,因此比极差稳定,但它仍没有利用所有数据的信息。实际工作中,四分位数间距和前面所述的中位数一样,常用于大样本偏态分布的资料、两端有不确定数值的开口资料及分布不明的资料的离散趋势描述,但不适合正态或近似正态分布资料离散趋势的描述。通常,四分位数间距和中位数配套来使用。
极差和四分位数间距由于没有充分利用所有观察值的信息,在应用时,可能会出现尽管两组数据的极差或四分位数间距相同,但它们的分布却不一样的情况。因此,描述对称分布,尤其正态分布资料的离散趋势时,需要利用所有观察值的信息来考察其离散度。对总体而言,即考察总体中每一观察值 X 与总体均数 μ 的离散度,可用 X-μ 表示,称离均差。但是, X-μ 有正有负,对于对称分布资料来说,其和∑( X-μ )恒为0,不能真正反映一批数据的离散度。为此,将 X-μ 平方后再相加,得∑( X-μ ) 2 ,即离均差平方和,以全面反映一组数据的离散度。但∑( X-μ ) 2 的大小除与变异度大小有关外,还受观察例数 N 大小的影响, N 越大,∑( X-μ ) 2 就会越大,为消除这一影响,进一步将∑( X-μ ) 2 除以 N 得总体方差,用符号 σ 2 表示。
式中,
μ
为总体均数,常常是未知的,需用样本量为
n
的样本均数
代替,
N
以样本含量
n
代替,这样计算的方差为样本方差。
数理统计证明,以 n 代替 N 计算的样本方差总比实际的 σ 2 小,以此样本方差估计总体方差总是有偏估计。后来,英国统计学家W.S.Gosset证明用( n -1)代替 n 来校正,算得的样本方差估计总体方差即为无偏估计,因此,样本方差的分母是 n -1而不是 n 。样本方差用符号 S 2 表示,即
式中, n -1是自由度(degree of freedom, df ),记为 ν 。
如果是分组数据,计算方差时需要用组中值 m i 代替原始数值,并且要考虑每一组的频数。
方差的度量单位是原度量单位的平方,给实际应用带来不便。为此,将方差开平方得标准差。总体标准差用 σ 表示,样本标准差用 S 表示。
同样,如果是分组数据,计算标准差也要考虑组中值和频数。
标准差是统计学中应用最广泛的一个离散度指标,除了可以反映一组数据的变异度外,还可用于:①说明均数的代表性,标准差大,说明均数的代表性较差,反之,说明均数的代表性较好;②和均数一起制定医学参考值范围;③计算
t
值和变异系数等。标准差及方差也有其适用的资料类型,为对称分布资料,尤其是正态分布或近似正态分布资料。通常,
S
和
配套来使用,分别描述上述数据资料的离散趋势与集中趋势。
变异系数也称离散系数,是一组数据的标准差与其平均数之比,是对数据离散程度的相对度量代表值。前述的极差、四分位数间距及标准差都是有单位的,这不利于不同度量单位的资料之间离散度的比较。另外,方差和标准差都是反映数据分散程度的绝对值,因为离散程度受到数值本身水平高低(平均数)的影响,当比较两组或两组以上均数相差悬殊资料之间离散度时,方差或标准差就不能完全反映离散程度,变异系数则可克服这一缺点,它是一相对离散度指标,主要用于:①度量单位不同资料之间离散度的比较;②均数相差悬殊的资料之间离散度的比较。
变异系数记为 CV ,是标准差与均数之比,常用百分数表示,计算公式为:
【例5-4】 某研究收集了100例7岁男孩的身高和体重的资料,身高均数为123.10cm,标准差为4.71cm,体重均数为22.92kg,标准差为2.26kg,比较这100例7岁男孩的身高和体重的变异度。
身高
体重
可见,这100例7岁男孩的身高的变异度小于体重的变异度。