购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

3.3.2 偏度和峰度

描述数据分布形状的两个参数是偏度和峰度。偏度和峰度的测量方法通常有多种。Joanes& Gill(1998)比较了三种测量方法。第一种测量偏度和峰度的方法是 g 1 g 2 ,计算公式为:

g 1 g 2 是传统的测量方法。后两种方法是对传统方法的改进。第二种偏度和峰度的测量方法是 G 1 G 2 ,计算公式为:

第三种偏度和峰度的测量方法是 b 1 b 2 ,计算公式为:

其中, s 2 。建议研究者在实际研究中使用后两种方法。

R计算偏度和峰度需要安装与调用数据包,如R数据包pastecs和e1071。若使用pastecs数据包,采用函数stat.desc(x,norm=TRUE),其中x是数值向量,变元norm=TRUE不仅用于返还偏度和峰度值,而且还返还正态分布检验的 W 值和 p 值。函数stat.desc(x,norm=TRUE)采用第三种方法计算偏度和峰度。若使用e1071数据包,函数skewness(x,type=2)计算第二种偏度;设置type=3,计算第三种偏度。若要计算峰度,函数kurtosis(x,type=2)采用第二种计算方法;设置type=3,采用第三种方法。

在正态分布中,偏度和峰度值均为0。实际研究中,数据分布的偏度和峰度值通常偏离0值,从而违反正态分布。偏度反映数据分布的对称性。数据分布的右尾巴较长时,小值较多,较大的极端数值(如异常值)使平均数右移,出现正偏态(positively skewed)分布,偏度值大于0。当数据分布的左尾巴较长时,大值较多,较小的极端数值使平均数左移,出现负偏态(negatively skewed)分布,偏度值小于0。峰度也包括正峰态(positive kurtosis)和负峰态(negative kurtosis)。峰度值大于0的分布为正峰态,峰度值小于0的分布为负峰态。一个参考性建议是, skew .2 SE (偏度值与两倍标准误差的商;标准化偏度值)或 kurt .2 SE (峰度值与两倍标准误差的商;标准化峰度值)的绝对值大于1时,说明偏度或峰度有统计显著意义(即数据违反正态分布, p <0.05)。R函数stat.desc(x,norm=TRUE)返还 skew .2 SE kurt .2 SE

有时候,用“高狭峰”(leptokurtic)和“低阔峰”(platykurtic)分别描述正峰态和负峰态。需要注意的是,峰态不仅与峰顶有关,也与尾巴有关,而且尾巴的作用更重要。在典型的正峰态分布中,数据分布的尾巴比正态分布的尾巴更重(heavier),其峰顶比正态分布的峰顶更高(higher)。在典型的负峰态分布中,数据分布的尾巴比正态分布的尾巴更轻(lighter),峰顶比正态分布的峰顶更扁平(flatter)。虽然尾巴的轻重和尖峰程度时常是峰度的两个成分,但是峰度也可能主要反映一个成分(如重尾巴)的影响。因此,对于对称分布来说,正峰态或表示尾巴过剩,或表示中央过剩,或表示两者兼而有之,而负峰态或表示尾巴轻,或表示中央轻,或表示两者兼而有之(肩部过剩)(DeCarlo,1997,p.294)

图3.6反映数据违反正态分布的不同情形。

图3.6 不同的数据分布

图3.6中的实线代表经验分布,虚线代表理论正态分布。左上图显示,多数数值集中在左边,右尾巴拉长,整个数据分布呈正偏态分布;相对于正态分布,数据分布的右尾巴较重,中央过剩,出现高狭峰,使数据分布呈正峰态。右上图显示,多数数值集中在右边,左尾巴拉长,整个数据分布呈负偏态分布;相对于正态分布,数据分布的左尾巴较重,中央过剩,出现高狭峰,使数据分布呈正峰态。左下图显示,数据大致呈对称分布,没有偏态现象,但是出现明显的低阔峰(即分布呈扁平状,肩部过剩),尾巴偏短,数据分布呈负峰态。右下图显示,数据大致呈对称分布,没有偏态现象,但是出现明显的高狭峰,数据分布为正峰态。 VR3El6ikwTXaJdKAE+DifuHiNBxYSOHHS8eSjI8/inMs+Tm8YJF/twm6Ddhnos6f

点击中间区域
呼出菜单
上一章
目录
下一章
×