◎ ◎ ◎ ◎ ◎ ◎ ◎ ◎ ◎ ◎
Q-Q图显示经验分布分位数(quantile)相对于理论分布分位数的变化趋势。同直方图和核密度图一样,Q-Q图也用于诊断经验分布是否服从正态分布或其他理论分布。Q-Q图的横坐标是正态分布由小到大排序的分位数,纵坐标是样本数据的分位数(按由小到大顺序排序的数值)。在经验(样本)数据正态分布的诊断中,如果两个分布的分位数形成或近似形成一条直线,说明经验分布为正态分布。
R绘制Q-Q图的函数是qqnorm,变元包括连续性变量 Y 数据,横坐标和纵坐标默认标签分别为xlab=' Theoretical Quantiles'(理论分位数),ylab=' Sample Quantiles'(样本分位数)。理论分位数默认为标准正态分布分位数。为了便于数据分布诊断,函数qqline绘制一条参照线,经过下四分位数(lower quartile,即第25个百分位数,25th percentile)和上四分位数(upper quartile,第75个百分位数,75th percentile)与对应的样本数值下四分位数和上四分位数构成的坐标点,R默认的参照线为正态分布参照线。更多关于Q-Q图的信息,可以在R工作间通过输入?qqnorm和?qqline查询。
Keen(2010,p.120)概括了Q-Q图揭示的6个数据分布特征:
①如果只有几个点落在参照线之外,这些点可能是异常点。
②如果数据左端在参照线之上,右端在参照线之下,数据分布两端可能有短尾巴。
③如果数据左端在参照线之下,右端在参照线之上,数据分布两端可能有长尾巴。
④如果数据分布是曲线模式(curved pattern),斜率(slope)自左向右增加,则数据分布右偏。
⑤如果数据分布是曲线模式,斜率(slope)自左向右减少,则数据分布左偏。
⑥如果数据分布是阶梯状模式(step-like pattern),有高原(plateaus)和断层(gaps),则数据为舍入(rounded)、截断(truncated)或离散(discrete)数据。
图2.19包括两个Q-Q分图。左分图显示,数据分布不对称,左尾巴较多的值远远地偏离正态分布参照线,说明它们可能是异常值;数据分布相对集中;斜率自左向右减少,说明数据分布左偏。右分图显示,数据分布较为对称,但是右端似乎有异常值;数据分布相对集中;数据左端在参照线之下,右端在参照线之上,说明数据分布的尾巴较长。
图2.19 Q-Q图比较
假如有变量 Y 的一组数据:10,10,10,10,11,14,10,11,10,11,10,11,11,11,10,21,11,10,13,14,11,12,11,10,18,11,15,12,10,12。试绘制该组数据的Q-Q图和正态分布参照线,横坐标标签设为“标准正态分布分位数”,纵轴标签为“Y”。利用以下R命令得到类似于图2.20所示的Q-Q图:
>par(mai=c(0.5,0.4,0.04,0.04),omi=c(0,0,0,0.02),mgp=c(1.5,0.6,0),tcl=-0.25,cex=0.75)
>Y<-c(10,10,10,10,11,14,10,11,10,11,10,11,11,11,10,21,11,10,13,14,11,12,11,10,18,11,15,12,10,12)
>qqnorm(Y,main='',xlab='标准正态分布分位数',ylab=' Y')
>qqline(Y)
图2.20 Q-Q图
图2.20显示, Y 数据分布是曲线模式,斜率自左向右增加,因而数据分布右偏。图中还显示,样本数据集中在小值部分,等值(ties)较多;分布中有断层,说明数据存在舍入问题或者具有离散性。