语言学研究统计分析方法最新章节_鲍贵著

◎ ◎ ◎ ◎ ◎ ◎ ◎ ◎ ◎ ◎

2.8
核密度图

核密度图（kernel density plot）不仅能够直观地显示数据分布的尾巴，而且还能够显示分布的峰顶（peak）、肩部（shoulder）和凸块（bump）。

核密度估计是估计连续性随机变量概率密度函数的方法，目的是依据样本估计一个真实的未知概率密度函数。核密度估计的函数是：

其中， K （·）是核密度函数， h 是平滑参数，又称带宽（bandwidth）， n 是样本量（Ugarte et al .，2015，p.115）。

常用的核密度函数有高斯（正态）函数、矩形（均匀）函数和三角函数等。这些核密度函数的特点是单峰（unimodal）、围绕 0 点对称和曲线下的单位面积为 1（Keen，2010，p.161）。R默认的核密度估计函数是高斯密度函数。

在核密度估计中，选择适合的带宽非常重要。视觉上，带宽过窄导致密度估计曲线过于起伏，使分布模式难以概括；带宽过宽导致曲线过于平滑，给分布形状的判断带来错觉（鲍贵，2017，p.137）。R默认的带宽采用Silverman经验法则（Silverman’s rule of thumb）（Silverman，1986，pp.47－48）： h ＝0.9 An ^－1／5 ，其中 A ＝ min （ SD ， IQR ／1.34），即 A 取标准差（ SD ）和四分位距（ IQR ）除以 1.34 的商之间的较小值。

R绘制核密度图的函数是plot（density（x）），其中x是数值向量。如果采用核密度图概括直方图一节中使用的DV数据的分布特点，执行R命令plot（density（DV））得到类似于图2.18所示的核密度图。

图2.18 数据分布核密度图

图2.18显示，DV数据分布似乎有双峰，主峰呈尖峰状，中间有断裂，说明数据缺乏连续性；右尾巴有两个凸块，使右尾巴拖长。对比图2.18和图2.17可以发现，核密度图比直方图更能体现数据分布的特征。

◎ ◎ ◎ ◎ ◎ ◎ ◎ ◎ ◎ ◎

2.9
Q－Q图

Q－Q图显示经验分布分位数（quantile）相对于理论分布分位数的变化趋势。同直方图和核密度图一样，Q－Q图也用于诊断经验分布是否服从正态分布或其他理论分布。Q－Q图的横坐标是正态分布由小到大排序的分位数，纵坐标是样本数据的分位数（按由小到大顺序排序的数值）。在经验（样本）数据正态分布的诊断中，如果两个分布的分位数形成或近似形成一条直线，说明经验分布为正态分布。

R绘制Q－Q图的函数是qqnorm，变元包括连续性变量 Y 数据，横坐标和纵坐标默认标签分别为xlab＝' Theoretical Quantiles'（理论分位数），ylab＝' Sample Quantiles'（样本分位数）。理论分位数默认为标准正态分布分位数。为了便于数据分布诊断，函数qqline绘制一条参照线，经过下四分位数（lower quartile，即第25个百分位数，25th percentile）和上四分位数（upper quartile，第75个百分位数，75th percentile）与对应的样本数值下四分位数和上四分位数构成的坐标点，R默认的参照线为正态分布参照线。更多关于Q－Q图的信息，可以在R工作间通过输入？qqnorm和？qqline查询。

Keen（2010，p.120）概括了Q－Q图揭示的6个数据分布特征：

①如果只有几个点落在参照线之外，这些点可能是异常点。

②如果数据左端在参照线之上，右端在参照线之下，数据分布两端可能有短尾巴。

③如果数据左端在参照线之下，右端在参照线之上，数据分布两端可能有长尾巴。

④如果数据分布是曲线模式（curved pattern），斜率（slope）自左向右增加，则数据分布右偏。

⑤如果数据分布是曲线模式，斜率（slope）自左向右减少，则数据分布左偏。

⑥如果数据分布是阶梯状模式（step－like pattern），有高原（plateaus）和断层（gaps），则数据为舍入（rounded）、截断（truncated）或离散（discrete）数据。

图2.19包括两个Q－Q分图。左分图显示，数据分布不对称，左尾巴较多的值远远地偏离正态分布参照线，说明它们可能是异常值；数据分布相对集中；斜率自左向右减少，说明数据分布左偏。右分图显示，数据分布较为对称，但是右端似乎有异常值；数据分布相对集中；数据左端在参照线之下，右端在参照线之上，说明数据分布的尾巴较长。

图2.19 Q－Q图比较

假如有变量 Y 的一组数据：10，10，10，10，11，14，10，11，10，11，10，11，11，11，10，21，11，10，13，14，11，12，11，10，18，11，15，12，10，12。试绘制该组数据的Q－Q图和正态分布参照线，横坐标标签设为“标准正态分布分位数”，纵轴标签为“Y”。利用以下R命令得到类似于图2.20所示的Q－Q图：

＞par（mai＝c（0.5，0.4，0.04，0.04），omi＝c（0，0，0，0.02），mgp＝c（1.5，0.6，0），tcl＝－0.25，cex＝0.75）

＞Y＜－c（10，10，10，10，11，14，10，11，10，11，10，11，11，11，10，21，11，10，13，14，11，12，11，10，18，11，15，12，10，12）

＞qqnorm（Y，main＝''，xlab＝'标准正态分布分位数'，ylab＝' Y'）

＞qqline（Y）

图2.20 Q－Q图

图2.20显示， Y 数据分布是曲线模式，斜率自左向右增加，因而数据分布右偏。图中还显示，样本数据集中在小值部分，等值（ties）较多；分布中有断层，说明数据存在舍入问题或者具有离散性。

2.8 核密度图

2.9 Q－Q图

2.8
核密度图

2.9
Q－Q图