◎ ◎ ◎ ◎ ◎ ◎ ◎ ◎ ◎ ◎
散点图(scatter plot)是显示两个连续性变量之间关系的重要图形。R函数是plot(x,y),其中x和y代表两个连续性变量,每个配对值在图中构成一个数据点。为了便于直觉判断双变量之间的线性关系,通常在散点图上增加最优线性拟合线(a linear line of best fit)。最优线性拟合线的R函数是abline(lm(y~x)),其中lm是线性模型(linear model)的R函数,y是被预测变量(又称结果变量或因变量),x是预测变量。为了诊断变量之间关系的性质(线性还是非线性),可以在散点图中增加一条局部加权散点图平滑线(locally-weighted scatterplot smoother,简称LOWESS)。它的R函数是lines(lowess(x,y))。关于LOWESS方法的介绍,可以参考鲍贵(2017)。
LOWESS方法使用局部加权回归和稳健(robust)局部加权回归方法绘制 Y (纵轴)相对于 X (水平轴)的散点图平滑线(smooth),并在 X 的每个值上计算拟合值(fitted values)。平滑参数(smoothness parameter) f 是用于局部回归估计的点的比率,介于0~1之间,值越大,拟合曲线越平滑。平滑参数 f 的选择标准是尽可能选择使曲线平滑却又没有扭曲数据基本模式的最大值(Cleveland,1985,p.171)。
LOWESS拟合使用复杂的计算程序。根据Cleveland(1979;1985),对LOWESS拟合方法可做以下理解。令 x i 是按照升序排列的 X 值,即 x 1 < x 2 …< x n 。假如 f =0.5, n =20,则 r =[ f × n ]=10,其中[·]表示取整数部分。我们要计算在 x 5 上的拟合值 。令 h i 是各个 x i 到第 r 个最邻近值的距离,即 h i 是| x i - x j |值中第 r 个最小值,其中 j =1,…, n 。在本例中,我们得到 h 5 。再令 k =1,…, n ,将三立方加权函数(tricube weight function)应用于加权函数 w k ( x i )= W ( h i -1 ( x k - x i )),对每个 x k 值加权。 ① 本例中, x 5 的权重最大。 x k 值越远离 x 5 ,其权重值就越小,因而在拟合中发挥的作用就越小。利用加权值 w k ( x 5 )开展多项式(polynomial)最小二乘法(least squares)局部加权回归拟合估计,得到 x 5 对应的拟合值 。按照同样的方法得到所有 x i 值上的拟合值 。将所有点( x i , )连成线,得到LOWESS初始拟合线。
初始拟合线容易受到异常点的影响。为此,LOWESS通过稳健局部加权回归迭代(iterations)方法解决这个问题,使LOWESS拟合具有稳健性。令当前拟合残差值 e i = y i - 。迭代的目的是通过对 x i 值加权,降低异常点的权重。令 s 为| e i |的中位数,采用双平方加权函数(bisquare weight function), ② 则稳健权重定义为 (Cleveland,1979,p.831)。利用加权值 开展最小二乘法局部加权回归拟合估计,得到新的拟合值 。重复以上过程 t 次,最终得到的拟合值 即为稳健局部加权回归拟合值。将最终的拟合点连成线,便得到所需要的LOWESS拟合线。LOWESS方法优势在于能够准确地反映 Y 值随 X 值变化的模式,不像线性回归分析那样假设 Y 在 X 上的回归是线性的(鲍贵,2017,p.139)。
假如有两个连续性变量 X 和 Y ,其数值如下:
X :6,9.5,7,8,12,9.5,10,9,11,12.5,13,13.5,14,14.5,15,15.5,16,16.5,18.5,17.5,17,18,15.5,19,15,12,13,14,15,11;
Y :19,20.5,25.5,14,15,28,28,27,30.5,25.5,33,26.5,27.5,30,31.5,23,30.5,24.5,31.5,35.5,36.5,35,22.5,27.5,26,21,23.5,21.5,26.5,17。
试根据以上数据绘制双变量散点图,添加最优线性拟合线和LOWESS平滑线。利用以下R命令得到如图2.21所示的图形:
>par(mai=c(0.5,0.5,0.04,0.04),omi=c(0,0,0,0.02),mgp=c(1.5,0.6,0),tcl=-0.25)
>X<-c(6,9.5,7,8,12,9.5,10,9,11,12.5,13,13.5,14,14.5,15,15.5,16,16.5,18.5,17.5,17,18,15.5,19,15,12,13,14,15,11)
>Y<-c(19,20.5,25.5,14,15,28,28,27,30.5,25.5,33,26.5,27.5,30,31.5,23,30.5,24.5,31.5,35.5,36.5,35,22.5,27.5,26,21,23.5,21.5,26.5,17)
>plot(X,Y)
>abline(lm(Y~X),col='black',lwd=1.5,lty=1)
>lines(lowess(X,Y),col='red',lwd=1.5,lty=2)
图2.21 双变量散点图
在图2.21中,LOWESS平滑线较平滑,显示变量 X 和 Y 之间有线性关系,且与最优线性拟合线接近。拟合线较为陡峭的斜率反映两个变量之间的线性关系较强,即随着 X 值的增加, Y 值也随之增加。
思考与练习
1.简要说明 R 图形的基本结构。
2.简要说明条形图和直方图的主要区别。
3.某教师记录100名英语学习者的年龄、性别和英语水平测试成绩。试问:这位教师记录了几个类别变量,几个定量(或连续性)变量?
4.一组连续性变量数据的五数总括(five-number summary)为:a(最小值)、40(下四分位数)、 b (中位数)、60(上四分位数)和c(最大值)。试问:如果箱图诊断显示有大的异常值存在,箱图最大触须长度是多少?
5.变量 X 的一组数据为:33,61,73,51,59,61,66,58,76,59,63,68,57,52,74,42,67,60,68,23。写出对该组数据开展箱图诊断的R命令,并对结果做出必要的解释。
6.利用 Q-Q 图对第5题的变量 X 数据进行正态分布诊断,写出包括绘制出正态分布拟合线的 R 命令,并简要解释诊断结果。
7.利用核密度图对第5题的变量 X 数据进行正态分布诊断,写出 R 命令,要求核密度图中包括正态分布参照线,正态分布的平均数和标准差与变量 X 数据的平均数和标准差相同,并对绘制的图形做出简要的解释。
8.某研究对变量 X 的测量数据开展描述性统计,得到以下统计结果:
回答以下问题:
(a)本例数据分布如何?简要解释得出的结论。
(b)根据箱图原理,诊断本例数据是否有异常值存在?
9.四分位距( IQR )是不受异常值影响的数据分布展度(spread)测量吗?请用一个数值例子加以说明。
10.下图为某个作家的文学作品中词长(单词包含的字母数)分布的直方图。描述这个分布的形状、中心和展度。
11.下图为显示连续性变量 Y 数值分布的 Q-Q 图,图中直线为正态分布参照线。
根据上图,简要分析变量 Y 数值分布的特点。
12.下图为连续性变量 Y 数值分布的直方图。
回答以下问题:
(a)直方图中显示的 Y 数值数是多少?
(b)数值小于或等于32.5的数值数是多少?
(c)数据分布是否明显呈偏态?
(d)有没有明显的异常值存在?
13.已知两个连续性变量 X 和 Y ,测量结果如下:
写出绘制散点图的 R 命令,探索这两个变量之间的关系。要求在图中添加最优线性拟合线和 LOWESS 平滑线,并对结果做出必要的解释。
① 三立方加权函数定义为:若| x |<1,则 W ( x )=(1-| x |3)3;若| x |≥1,则 W ( x )=0。
② 双平方加权函数定义为:若| x |<1,则 B ( x )=(1- x 2)2;若| x |≥1,则 B ( x )=0。