购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

3.2.4 四分位距

四分位距是稳健尺度测量,计算上等于上四分位数(the upper quartile;0.75分位数;0.75 quantile; Q 3 q 2 )与下四分位数(the lower quartile;0.25 分位数;0.25 quantile; Q 1 q 1 )之间的差异。四分位数定义不同,四分位距就可能存在差异。本节介绍三种计算方法。

q 1 q 2 属于样本顺序统计量(order statistics)。通常, X (1) 是样本最小值, X (2) 是接下来的最小值或者最小等值,依次类推,直至样本最大值 X n )。因此, X (1) X (2) ≤…≤ X n )。

在上一章讨论箱图时提到,绘制箱图使用的四分位数是上四分(the upper fourth)和下四分(the lower fourth)。令 x j )为第 j 个顺序统计量, j 满足以下等式:

其中 n 是样本量,[·]表示取整数部分(即小于 的最大整数)。下四分 。上四分 为第 n j +1个顺序统计量,即 。如果 j n j +1不是整数,则采用插值方法。

假如有一个变量 X ,一组数据已经按照升序排列( n =20):8,20,23,23,25,25,27,28,28,30,30,30,33,33,36,40,44,50,60,80。根据公式3.10, j =5.5,则 q 1 X (5) +0.5×( X (6) X (5) )=25, q 2 X (15) +0.5× ( X (16) X (15) )=38。本例的四分位距 IQR =13。

第二种计算 q 1 q 2 的方法是R默认的方法,函数为quantile(x,probs=c(0.25,0.75)),其中x是数值向量,probs是概率,除了0.25和0.75之外,还可以设置0~1之间的其他概率值,quantile返还概率值对应的分位数。

以上面变量 X 值为例计算 q 1 q 2 。先计算概率0.25和0.75对应的顺序 j ,公式为:

其中, p 为概率, n 是样本量。本例中, p 值是0.25和0.75。根据公式3.11,它们对应的 j 值为5.75和15.25。利用插值方法,计算 q 1 q 2 q 1 X (5) +0.75×( X (6) X (5) )=25, q 2 X (15) +0.25×( X (16) X (15) )=37。本例的四分位距 IQR =12。

第三种计算 q 1 q 2 的方法是利用理想四分数(ideal fourths)计算下四分( q 1 )和上四分( q 2 )(Wilcox ,2017b ,p .99 )。假如有变量 X 的一组数据( n ),令 j h j k n j +1 , q 1 q 2 的计算公式为:

根据公式3.12,上例中, j =5, h =0.416 7, k =16。因此, q 1 =(1-0.416 7)×25+0.416 7×25≈25, q 2 =(1-0.416 7)×40+0.416 7×36≈38.33。本例的四分位距 IQR =13.33。R计算理想四分数的函数是数据包Rallfun-v37中的idealf(x),其中x是向量。

从以上三种四分位数的计算公式和举例可以看出,不同的计算方法得到的 q 1 q 2 不全相同,四分位距存在较小的差异。 m7s21dwMiKF/Kz8P2/lpvQJ9di2g0n9vHPpS7nx/58DrcIPK8hx44hUFYuHJogSA

点击中间区域
呼出菜单
上一章
目录
下一章
×