



当我们对一个陌生事物进行认知时,首先会关注其外在形态,随后深入探索其属性特征。就像购买这本书时,看到作者是“松哥”,我们可能会好奇他的背景信息,首先会想:“这位作者是怎样的一个人呢?”然后进一步去了解他的年龄、身高、体型和职业等属性。同样地,当我们初次接触数值变量时,也会好奇它的“长相”是怎样的。
“松哥”告诉大家,对于绝大多数的数值变量数据,它们常常呈现图3.1所示的单峰分布形态。这种分布形态是在自然和没有人为刻意干预的情况下,数据所展现的自然分布状态。该种数据自然的分布形态,我们称之为规律。
图3.1 数值变量数据分布的常见形态
上面三种分布类型分别为正偏态分布(A)、对称分布(B)和负偏态分布(C)。在对称分布中,当对称性和峰度较好时,它就是我们熟知的“正态分布”。以对称分布为例,其形态酷似一个沙堆,沙堆越往中间沙子越多,到中间顶部时沙子最多。这种越靠近中间频数越多的趋势就是统计学中描述的集中趋势(central tendency)。如果我们让一捧沙从沙堆中间慢慢流淌而下,会发生什么现象呢?除了沙堆顶部会轻微增高一点(因为集中趋势),绝大部分的沙子会顺着沙堆四周滑落。我们并没有让沙子滑落,而沙子自然而然地四散而去,这也是一种趋势,叫离散趋势(dispersion tendency)。
正如一句哲语:“任何事物都具备两面性。”这就像太极的“阴和阳”、人类的“男和女”,数值变量数据也具有集中和离散两个属性。因此,在了解了其外形之后,我们从集中和离散两个角度来研究其属性,可以说是“其貌如钟,一中一离”。
1.算数均数
算数均数(mean),即均数,用来描述一组数据在数量上的平均水平,总体均数(μ)和样本均数(
)用不同符号表示。适用范围为对称分布,特别是正态分布数据。其计算就是一个样本所有变量值相加除以样本量,见式3.1。
2.中位数(median,M)
将一组数据按照从小到大的顺序排列,位置居中的那个数,就是中位数。例如,“6、8、5、9、3”的中位数就是6。只要是能够按大小排序的数据均可以计算中位数,所以中位数为计算集中趋势的“万金油”,但中位数没有利用原始数据的信息,因此代表性没有均数好。
例如,姚明是你们班的同学,现在要计算班级身高数据的中位数,请问是否需要姚明具体的身高值呢?答案是不需要,因为姚明在你们班是最高的,只要对班级现有同学按照身高排序,在最后面排上姚明,就可以找到中位数。
和均数相比,中位数往往不会因为个别值的变化而导致较大的变化,但只有在样本量较为充足时结果才稳定。在科研过程中,一组数据符合对称分布时尽量用均数,符合偏态分布时才考虑用中位数。在试验过程中,两组数据(试验组和对照组),一组符合正态分布,一组不符合正态分布,在同一张统计表中,该怎么描述呢?为了保持一致,均选择中位数和四分位数间距,四分位数间距在后面涉及离散趋势内容时会讲解。
3.几何均数(geometric mean,G)
当我们的数值变量数据是等比资料时,我们还可以用几何均数计算其集中趋势。等比资料分布如图3.1(A)所示,常见的有抗体滴度、药物效价、菌落计数和疾病潜伏期等。以抗体滴度为例,常见数据为1:20、1:40、1:80和1:160等,这类数据特征为数据取值呈现倍数关系,而不像身高类数据,是连续性一点点递增。
几何均数是所有x相乘,然后开n次方(n为这组数据的个数),见式3.2,计算较为复杂,一般是通过软件来计算。G是针对正偏态资料集中趋势的描述。适用范围是对数正态分布资料或等比资料。注意,计算几何均数时变量值不可以为0,也不可以同时出现正负值,因为根号下不可以为0和负数。如果全部是负数是可以的,因为可以将所有负号去除后再计算几何均数,计算后再把负号加上即可。
4.众数(mode)
众数是指一组数据中,出现频次最多的那个数,如“1、3、3、3、5、7”,其中“3”出现次数最多,因此众数为3。需要注意,众数不仅仅针对数值变量,等级变量和分类变量也是可以计算众数的。
有集中就有离散,前面谈了数值变量数据集中趋势的描述指标,同样其离散趋势也有特定的指标加以描述。
1.极差(range,R)
既然离散反映的是数据的分散性,那么可以用一组数据中的最大值减去最小值,得到数据分布的最大区间,这个指标就是极差,又称为全距。
极差这个指标非常容易理解,但因为最大值和最小值往往是由试验误差导致的,因此,极差很不稳定,使用时需要加以甄别。
2.四分位数间距(quartile,Q)
既然极差指标的缺点是由最大值和最小值不稳定导致的,那么能否消除其影响呢?人们将数据平均分为四等份,用上四分位数Q U (P 75 )与下四分位数Q L (P 25 )之差,来反映离散趋势,这就是四分位数间距指标。极差与四分位数间距示意图,如图3.2所示。
图3.2 极差与四分位数间距示意图
百分位数(percentile,P x )是指一组数据从小到大排序,位次居于第百分之多少位的数,如某班同学有100人,按照身高从矮到高排序,小强身高176cm,站在第80个,则该班身高数据的P 80 为176cm。P 50 (中位数)、P 25 、P 75 均属于百分位数。
大家注意,百分位数既可以计算集中趋势(如P 50 ),也可以用于计算离散趋势(如四分位数间距)。
四分位数间距(Q)很容易理解,比极差要稳定得多,但是也有缺点,即在一组数据中,不管样本量多大,仅用到两个值P 75 和P 25 来反映整组数据的离散趋势,可能会出现以点概面、以偏概全的错误。如果引入一个指标,可以把每个数据的离散趋势算出来并求和,那么这个指标就完美了。
3.方差(σ 2 )
鉴于上述情况,人们设计了离均差和,见式3.3。我们发现离均差和永远等于0,我们计算指标是用于比较的,但是任何一组数据的离均差和均为0,则无法比较。为什么为0呢?因为会出现正负抵消的情况。例如,数据“1、2、3”,它们的离均差分别为-1、0和+1,所以离均差和就等于0了。
继续改进公式。如果让原始数据的离均差取平方后再求和,就可以消除正负抵消的影响。于是就有了离均差平方和(sum of squares of deviation from mean,SS),见式3.4。
此时貌似已经完美了,可是如果一组数据的样本量100人,另一组数据的样本量20人,要计算离均差平方和,人多的数据离散性肯定大,样本量的影响不容忽视。为了更好地比较不同样本量数据集的离散性,我们可以让SS除以各自的样本量n,见式3.5,于是就得到了总体方差这个指标。
4.标准差(σ)
方差这个指标考虑了每个数据的离散趋势,消除了负号及样本量的影响,然而,因为采用了平方去除负号,导致离散趋势被夸大。有些人可能会认为,既然所有数据都进行了平方处理,那么放大效应对所有数据都是一致的,实际上并非如此。因为每个数据点与均值之差的平方值是不同的,这导致了真实的数据关系被扭曲了。
例如,小明的零花钱每月有20元,小强的零花钱每月有30元,小强的零花钱每月比小明多10元;如果都进行平方处理,小明的零花钱是400元,小强的零花钱是900元,小强的零花钱比小明多了500元,这完全扭曲了两人真实的零花钱差距。你肯定会问,那我们怎么办呢?很简单,再开方,让平方变成一个“过场”,作用就是消除负号,于是得到了总体标准差,见式3.6。
前面涉及的极差、四分位数间距、离均差平方和及方差等,没有哪个指标堪比标准差,既然给予其标准差的名称,说明其是一个非常完美的指标。为什么只要符合对称分布,都用样本标准差(s)来描述其离散趋势呢?你是否记得,在很多文章的统计表中都有x ± s的表示方法呢?原因就在这里。
重申一下,总体标准差用σ表示,样本标准差用s表示,样本标准差计算时分母取(n - 1)用来校正。标准差用于对称或正态分布数据离散趋势的描述。
5.变异系数(Coefficient of Variation,CV)
需要注意的是,当遇到度量衡单位不一样的数据,以及单位一样但均数相差较大的数据时,离散趋势比较不可以用标准差。
例如,某班级身高数据均值为160.0cm,标准差为5.0cm,体重数据均值为50kg,标准差为4.0kg,请问身高和体重数据哪个离散性大呢?此时单位分别是cm和kg,是没法比较的。
可是不管单位如何,离散趋势是存在的,正如抓一把沙子撒地上,再抓一把花生撒地上,沙子和花生是不同的物品,可是它们落地上,离散趋势都是有的,我们比的就是离散趋势。但是单位不同怎么办呢?
思考一下,我们把蚂蚁比喻为大力士,因为蚂蚁可以举起一粒大米的重量,我们成年人可以举起50千克的大米,为什么不说人类是大力士呢?美国昆虫学家研究发现,蚂蚁可以举起自身体重400倍的重量,而人类及其他动物都望尘莫及,所以不能只看举多重,还要看自身有多重。
因此,当度量衡单位不一致,进行数据离散趋势比较时,我们用各自的离散趋势标准差除以各自的均数,这样不仅可以消除度量衡单位不一致的影响,还可以得到相对于其自身而言,离散趋势所占的比例,从而实现可比,这就是变异系数,见式3.7。
对于上述数据,很明显身高变异系数5/160小于4/50,因此身高的变异程度(离散趋势)小于体重。
对于数值变量而言,不谈集中趋势,直接谈离散趋势是没有意义的。离散趋势本身就是为了说明集中趋势的代表程度而存在的。就像太阳照射下的某个物体,只有先有太阳照射到的阳面,才有其背后的阴面,所以阴面是依附阳面而生的,离散趋势也是依附集中趋势而生的指标。