箱图(Box-Plot)又称为盒须图、盒式图或箱线图,是一种用于显示一组数据分散情况的统计图。箱图很形象地分为中心、延伸以及分部状态的全部范围,提供了一种只用5个点对数据集进行简单总结的方式,这5个点包括中点、Q1、Q3以及分部状态的高位和低位。数据分析者通过绘制箱图不仅可以直观明了地识别数据中的异常值,还可以判断数据的偏态、尾重以及比较几批数据的形状。
【例2.5】 X集团是一家国内大型销售汽车的公司,该公司在组织架构上采取的是事业部制管理方式,把全国市场分为3个大区,从而督导各省市的分公司。该集团在全国各省市的市场份额情况如表2.7所示。试绘制箱图来研究分析其分布规律。
表2.7 某集团各大分区的市场份额情况
在用Stata进行分析之前,我们要把数据录入Stata中。本例中有3个变量,分别是地区、市场份额以及所属大区。我们把地区变量设定为region,把市场份额变量设定为SCFE,把所属大区变量设定为Center,变量类型及长度采取系统默认方式,然后录入相关数据。相关操作在第1章中已详细讲述过了。录入完成后数据如图2.22所示。
先保存数据,然后开始展开分析,步骤如下:
进入Stata 16.0,打开相关数据文件,弹出主界面。
在主界面的Command文本框中输入命令:
graph box SCFE
设置完毕后,按回车键,等待输出结果。
图2.22 案例2.5的数据
上述操作完成后,Stata 16.0将弹出如图2.23所示的箱图。
图2.23 箱图1
通过观察箱图可以了解到很多信息,箱图把所有的数据分成了4部分,第1部分是从顶线到箱子的上部,这部分数据值在全体数据中排名前25%;第2部分是从箱子的上部到箱子中间的线,这部分数据值在全体数据中排名25%以下、50%以上;第3部分是从箱子中间的线到箱子的下部,这部分数据值在全体数据中排名50%以下、75%以上;第4部分是从箱子的底部到底线,这部分数据值在全体数据中排名后25%。顶线与底线的间距在一定程度上表示了数据的离散程度,间距越大就越离散。就本例而言,我们可以看到该公司市场份额的中位数在32%左右,市场份额最高的省市可达到90%左右。
上述的Stata命令比较简洁,分析过程及结果已达到解决实际问题的目的。Stata 16.0的强大之处在于,它提供了更加复杂的命令格式以满足用户更加个性化的需求。
延伸:我们能否把上面各省市的市场份额数据按照所属各个大区分别绘制箱图呢?答案是肯定的。
操作命令应该相应地修改为:
graph box SCFE,over( Center)
在命令窗口输入命令并按回车键进行确认,结果如图2.24所示。
图2.24 箱图2
从该图中可以看出第2大区的市场份额中位数水平最高,第3大区的市场份额中位数水平最低,第1大区的市场份额中位数水平居中。第2大区各个省市之间的市场份额情况相对存在较大差异。