购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

◎ ◎ ◎ ◎ ◎ ◎ ◎ ◎ ◎ ◎

2.8
核密度图

核密度图(kernel density plot)不仅能够直观地显示数据分布的尾巴,而且还能够显示分布的峰顶(peak)、肩部(shoulder)和凸块(bump)。

核密度估计是估计连续性随机变量概率密度函数的方法,目的是依据样本估计一个真实的未知概率密度函数。核密度估计的函数是:

其中, K (·)是核密度函数, h 是平滑参数,又称带宽(bandwidth), n 是样本量(Ugarte et al .,2015,p.115)。

常用的核密度函数有高斯(正态)函数、矩形(均匀)函数和三角函数等。这些核密度函数的特点是单峰(unimodal)、围绕 0 点对称和曲线下的单位面积为 1(Keen,2010,p.161)。R默认的核密度估计函数是高斯密度函数。

在核密度估计中,选择适合的带宽非常重要。视觉上,带宽过窄导致密度估计曲线过于起伏,使分布模式难以概括;带宽过宽导致曲线过于平滑,给分布形状的判断带来错觉(鲍贵,2017,p.137)。R默认的带宽采用Silverman经验法则(Silverman’s rule of thumb)(Silverman,1986,pp.47-48): h =0.9 An -1/5 ,其中 A min SD IQR /1.34),即 A 取标准差( SD )和四分位距( IQR )除以 1.34 的商之间的较小值。

R绘制核密度图的函数是plot(density(x)),其中x是数值向量。如果采用核密度图概括直方图一节中使用的DV数据的分布特点,执行R命令plot(density(DV))得到类似于图2.18所示的核密度图。

图2.18 数据分布核密度图

图2.18显示,DV数据分布似乎有双峰,主峰呈尖峰状,中间有断裂,说明数据缺乏连续性;右尾巴有两个凸块,使右尾巴拖长。对比图2.18和图2.17可以发现,核密度图比直方图更能体现数据分布的特征。 qocg1bv8IOQqjwysrNxr9wN0B6Q+8TR5uik442clZvjxauefACcEbMtn5ZLuR1od



◎ ◎ ◎ ◎ ◎ ◎ ◎ ◎ ◎ ◎

2.9
Q-Q图

Q-Q图显示经验分布分位数(quantile)相对于理论分布分位数的变化趋势。同直方图和核密度图一样,Q-Q图也用于诊断经验分布是否服从正态分布或其他理论分布。Q-Q图的横坐标是正态分布由小到大排序的分位数,纵坐标是样本数据的分位数(按由小到大顺序排序的数值)。在经验(样本)数据正态分布的诊断中,如果两个分布的分位数形成或近似形成一条直线,说明经验分布为正态分布。

R绘制Q-Q图的函数是qqnorm,变元包括连续性变量 Y 数据,横坐标和纵坐标默认标签分别为xlab=' Theoretical Quantiles'(理论分位数),ylab=' Sample Quantiles'(样本分位数)。理论分位数默认为标准正态分布分位数。为了便于数据分布诊断,函数qqline绘制一条参照线,经过下四分位数(lower quartile,即第25个百分位数,25th percentile)和上四分位数(upper quartile,第75个百分位数,75th percentile)与对应的样本数值下四分位数和上四分位数构成的坐标点,R默认的参照线为正态分布参照线。更多关于Q-Q图的信息,可以在R工作间通过输入?qqnorm和?qqline查询。

Keen(2010,p.120)概括了Q-Q图揭示的6个数据分布特征:

①如果只有几个点落在参照线之外,这些点可能是异常点。

②如果数据左端在参照线之上,右端在参照线之下,数据分布两端可能有短尾巴。

③如果数据左端在参照线之下,右端在参照线之上,数据分布两端可能有长尾巴。

④如果数据分布是曲线模式(curved pattern),斜率(slope)自左向右增加,则数据分布右偏。

⑤如果数据分布是曲线模式,斜率(slope)自左向右减少,则数据分布左偏。

⑥如果数据分布是阶梯状模式(step-like pattern),有高原(plateaus)和断层(gaps),则数据为舍入(rounded)、截断(truncated)或离散(discrete)数据。

图2.19包括两个Q-Q分图。左分图显示,数据分布不对称,左尾巴较多的值远远地偏离正态分布参照线,说明它们可能是异常值;数据分布相对集中;斜率自左向右减少,说明数据分布左偏。右分图显示,数据分布较为对称,但是右端似乎有异常值;数据分布相对集中;数据左端在参照线之下,右端在参照线之上,说明数据分布的尾巴较长。

图2.19 Q-Q图比较

假如有变量 Y 的一组数据:10,10,10,10,11,14,10,11,10,11,10,11,11,11,10,21,11,10,13,14,11,12,11,10,18,11,15,12,10,12。试绘制该组数据的Q-Q图和正态分布参照线,横坐标标签设为“标准正态分布分位数”,纵轴标签为“Y”。利用以下R命令得到类似于图2.20所示的Q-Q图:

>par(mai=c(0.5,0.4,0.04,0.04),omi=c(0,0,0,0.02),mgp=c(1.5,0.6,0),tcl=-0.25,cex=0.75)

>Y<-c(10,10,10,10,11,14,10,11,10,11,10,11,11,11,10,21,11,10,13,14,11,12,11,10,18,11,15,12,10,12)

>qqnorm(Y,main='',xlab='标准正态分布分位数',ylab=' Y')

>qqline(Y)

图2.20 Q-Q图

图2.20显示, Y 数据分布是曲线模式,斜率自左向右增加,因而数据分布右偏。图中还显示,样本数据集中在小值部分,等值(ties)较多;分布中有断层,说明数据存在舍入问题或者具有离散性。 qocg1bv8IOQqjwysrNxr9wN0B6Q+8TR5uik442clZvjxauefACcEbMtn5ZLuR1od

点击中间区域
呼出菜单
上一章
目录
下一章
×