购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

◎ ◎ ◎ ◎ ◎ ◎ ◎ ◎ ◎ ◎

2.6
箱图

箱图(boxplot)利用箱体和触须(whisker)概括数据的重要信息,因而又称箱-须图(box-and-whisker plot)。传统上,箱体概括的数据信息简称五数总括(five-number summary),即最小值(minimum, Min )、下枢(lower hinge, H L )、第二个四分位数(second quartile, Q 2 ,常称作中位数 M Mdn )、上枢(upper hinge, H U )和最大值(maximum, Max )。最小值和最大值提供数据分布尾巴的信息。中位数反映分布的中心。上、下枢距离反映分布的展度(spread);利用上、下枢构建的上、下围(upper fence, F U ;lower fence, F L )用于诊断异常值(outliers)。中位数以及上、下枢的位置反映数据分布的偏度。换言之,五数概括涵盖变量的四个主要特征:中心、展度、非对称性(asymmetry)和异常值(Hintze & Nelson,1998,p.181)。参照Tukey(1977)和Ugarte et al .(2015),箱图的基本构造如图2.14所示。

在图2.14中,长方形箱体的两条边由上、下枢( H U H L )确定,分割箱体的粗线段代表中位数( Mdn )。上枢为大于中位数的一半数据的中位数,即上四分(the upper fourth);下枢为小于中位数的一半数据的中位数,即下四分(the lower fourth)。R默认的上、下枢采用这一定义。上、下四分是上、下四分位数(the upper quartile, Q 3 ;the lower quartile, Q 1 )定义的一种。图中的中位数线代表的值是20。上、下枢各为22.5和18。枢展度( H spread )为4.5。枢展度时常称作四分位距(interquartile range, IQR ),囊括了50%的中间数值。上围( F U )和下围( F L )是异常值的临界值(outlier cutoff)。计算上, F U H U +1.5× H spread F L H L -1.5× H spread 。在标准正态分布时,上、下围包括了约 99.3%的数据,只有0.7%的数据位于上、下围之外,被判定为异常值。利用上、下围定义异常值有些武断,但是经验表明,这个定义能够很好地识别可能需要给予特别注意的数值(Emerson & Strenio,1983,p.62)。在图2.14中, F U =29.25, F L =11.25。有两个用圆圈表示的异常值(5和40)位于上、下围之外。由上、下枢向外垂直延伸的虚线称作触须。上邻近值(upper adjacent value)表示在上围内的最大数值(25);下邻近值(lower adjacent value)表示在下围内的最小数值(14)。图2.14表明,数据分布较为对称,有上偏倾向,两个异常值使分布的尾巴拉长。关于数据分布,后面章节还会详细讨论。

图2.14 箱图构造

下面举例说明利用箱图开展两组比较。R绘制箱图的函数为boxplot(formula,data=dataframe),其中变元formula表示公式。例如,公式y~A表示根据因素A的每个水平(level)分别绘制数值型变量y的箱图。公式y~A*B表示根据因素A和B的每个水平组合分别绘制数值型变量y的箱图。因素和数值型变量的存储方式为数据框(data frame)。更多有关箱图变元的设置,可以在R工作界面中通过输入?boxplot查询。

假如一个因素G有两个水平(G1和G2),各自在因变量DV上的测量值如下:

第一组(G1):1,1,1,2,1,6,20,2,2,4,22,4,1,2,13,2,4,1,3,2。

第二组(G2):4,4,6,4,6,6,8,7,3,4,6,5,11,11,5,4,5,4,3,3。

试绘制箱图,要求横坐标的标签为G1和G2,纵坐标的标签为DV,利用不同的灰度显示两个箱体。

在绘制箱图之前,先要创建数据框,包括因素名(如G)和因变量名(如DV),并取文件名(如Mydata)。在函数boxplot中增加变元设置,如将y轴标签设为ylab=' DV' ,将两个箱体灰度分别设为gray(0.5)和gray(0.8)。在R中输入以下命令即可得到如图2.15所示的箱图:

>par(mai=c(0.3,0.6,0,0),omi=c(0,0,0,0.001),mgp=c(2,0.6,0),tcl=-0.25)

>G1<-c(1,1,1,2,1,6,20,2,2,4,22,4,1,2,13,2,4,1,3,2)

>G2<-c(4,4,6,4,6,6,8,7,3,4,6,5,11,11,5,4,5,4,3,3)

>G<-gl(2,20,labels=c(' G1',' G2'))

>DV<-c(G1,G2)

>Mydata<-data.frame(G,DV)

>boxplot(DV~G,data=Mydata,ylab=' DV',col=c(gray(0.5),gray(0.8)),boxwex=0.4,staplewex=0.3)

图2.15 两组比较箱图

在以上命令中,变元boxwex用于设置箱体的缩放,R默认值为 0.8;变元staplewex用于设置触须边线(staple line)的宽度,R默认值为0.5。图2.15显示,G1组中位数小于G2组中位数,比G2组多两个异常值,异常值较远地偏离箱体。虽然G2组数据分布也右偏(right-skewed,图中显示为上偏),但是偏态的程度不像G1组数据分布那么严重。 NfTJ1jG1peLDllBppSOBPB8YXYbSHIrKqNlIBR4N4vqr3NYAh+MC128Q9OXYrEWT

点击中间区域
呼出菜单
上一章
目录
下一章
×