语言学研究统计分析方法最新章节_鲍贵著

◎ ◎ ◎ ◎ ◎ ◎ ◎ ◎ ◎ ◎

2.8
核密度图

核密度图（kernel density plot）不仅能够直观地显示数据分布的尾巴，而且还能够显示分布的峰顶（peak）、肩部（shoulder）和凸块（bump）。

核密度估计是估计连续性随机变量概率密度函数的方法，目的是依据样本估计一个真实的未知概率密度函数。核密度估计的函数是：

其中， K （·）是核密度函数， h 是平滑参数，又称带宽（bandwidth）， n 是样本量（Ugarte et al .，2015，p.115）。

常用的核密度函数有高斯（正态）函数、矩形（均匀）函数和三角函数等。这些核密度函数的特点是单峰（unimodal）、围绕 0 点对称和曲线下的单位面积为 1（Keen，2010，p.161）。R默认的核密度估计函数是高斯密度函数。

在核密度估计中，选择适合的带宽非常重要。视觉上，带宽过窄导致密度估计曲线过于起伏，使分布模式难以概括；带宽过宽导致曲线过于平滑，给分布形状的判断带来错觉（鲍贵，2017，p.137）。R默认的带宽采用Silverman经验法则（Silverman’s rule of thumb）（Silverman，1986，pp.47－48）： h ＝0.9 An ^－1／5 ，其中 A ＝ min （ SD ， IQR ／1.34），即 A 取标准差（ SD ）和四分位距（ IQR ）除以 1.34 的商之间的较小值。

R绘制核密度图的函数是plot（density（x）），其中x是数值向量。如果采用核密度图概括直方图一节中使用的DV数据的分布特点，执行R命令plot（density（DV））得到类似于图2.18所示的核密度图。

图2.18 数据分布核密度图

图2.18显示，DV数据分布似乎有双峰，主峰呈尖峰状，中间有断裂，说明数据缺乏连续性；右尾巴有两个凸块，使右尾巴拖长。对比图2.18和图2.17可以发现，核密度图比直方图更能体现数据分布的特征。

2.8 核密度图

2.8
核密度图