在2.3节中提到了曲线标绘图用一条线来代替散点标志,可以更加清晰直观地看出数据走势,但无法观察到每个散点的准确定位。那么,有没有一种作图方式既可以满足观测数据走势的需要,又能实现每个散点的准确定位?Stata的连线标绘图制图方法就提供了解决这一问题的方法。
【例2.4】 A市旅游局决定对辖区内某一王牌旅游景点进行游客量调查,调查得到的数据经整理后如表2.6所示。试通过绘制连线标绘图来分析研究该景点的游客量随季节的变化情况。
表2.6 某旅游景点各月份旅游人次
在用Stata进行分析之前,我们要把数据录入Stata中。本例中有两个变量,分别是月份和游客量。我们把月份变量设定为month,把游客量变量设定为number,变量类型及长度采取系统默认方式,然后录入相关数据。相关操作在第1章中已详细讲述过了。录入完成后数据如图2.17所示。
图2.17 案例2.4的数据
先保存数据,然后开始展开分析,步骤如下:
进入Stata 16.0,打开相关数据文件,弹出主界面。
在主界面的Command文本框中输入命令:
graph twoway connected number month
设置完毕后,按回车键,等待输出结果。
上述操作完成后,Stata 16.0将弹出如图2.18所示的连线标绘图。
图2.18 连线标绘图1
通过观察连线标绘图,我们可以了解到很多信息:一方面可以清晰地看到该景点各个月份的游客人次的准确值;另一方面可以看到该景点游客人次的变化趋势。该景点的5~10月份是旺季,其中10月份游客人数最多,其他的月份属于淡季,1月份的游客人数最低。决策者可以根据这一规律为景点合理配置资源、制定差别价格等。
上述的Stata命令比较简洁,分析过程及结果已达到解决实际问题的目的。Stata 16.0的强大之处在于,它提供了更加复杂的命令格式以满足用户更加个性化的需求。
1.延伸1:给图形增加标题、给坐标轴增加数值标签并设定间距、显示坐标轴的刻度
例如,我们要给图形增加标题的名称“案例2.4结果”,对X轴添加数值标签,取值为1~12,间距为1,对Y轴添加数值标签,取值为1000~7000,间距为1000,对Y轴添加刻度,间距为500,操作命令就应该相应地修改为:
graph twoway connected number month,title("案例 2.4 结果") xlabel(1(1)12) ylabel(1000(1000)7000) ytick(1000(500)7000)
在命令窗口输入命令并按回车键进行确认,结果如图2.19所示。
2.延伸2:改变线条的样式
例如,我们要在延伸1的基础上进行改进,使游客量的曲线变为虚线,操作命令就应该相应地修改为:
graph twoway connected number month,title("案例 2.4 结果") xlabel(1(1)12) ylabel(1000(1000)7000) ytick(1000(500)7000) clpattern(dash)
在命令窗口输入命令并按回车键进行确认,结果如图2.20所示。
图2.19 连线标绘图2
图2.20 连线标绘图3
3.延伸3:控制散点标志的形状
例如,我们要在延伸2的基础上使连线标绘图中散点标志的形状变为实心菱形,操作命令就应该相应地修改为:
graph twoway connected number month,title("案例 2.4 结果") xlabel(1(1)12) ylabel(1000(1000)7000) ytick(1000(500)7000) clpattern(dash) msymbol(D)
在命令窗口输入命令并按回车键进行确认,结果如图2.21所示。
图2.21 连线标绘图4
箱图(Box-Plot)又称为盒须图、盒式图或箱线图,是一种用于显示一组数据分散情况的统计图。箱图很形象地分为中心、延伸以及分部状态的全部范围,提供了一种只用5个点对数据集进行简单总结的方式,这5个点包括中点、Q1、Q3以及分部状态的高位和低位。数据分析者通过绘制箱图不仅可以直观明了地识别数据中的异常值,还可以判断数据的偏态、尾重以及比较几批数据的形状。
【例2.5】 X集团是一家国内大型销售汽车的公司,该公司在组织架构上采取的是事业部制管理方式,把全国市场分为3个大区,从而督导各省市的分公司。该集团在全国各省市的市场份额情况如表2.7所示。试绘制箱图来研究分析其分布规律。
表2.7 某集团各大分区的市场份额情况
在用Stata进行分析之前,我们要把数据录入Stata中。本例中有3个变量,分别是地区、市场份额以及所属大区。我们把地区变量设定为region,把市场份额变量设定为SCFE,把所属大区变量设定为Center,变量类型及长度采取系统默认方式,然后录入相关数据。相关操作在第1章中已详细讲述过了。录入完成后数据如图2.22所示。
先保存数据,然后开始展开分析,步骤如下:
进入Stata 16.0,打开相关数据文件,弹出主界面。
在主界面的Command文本框中输入命令:
graph box SCFE
设置完毕后,按回车键,等待输出结果。
图2.22 案例2.5的数据
上述操作完成后,Stata 16.0将弹出如图2.23所示的箱图。
图2.23 箱图1
通过观察箱图可以了解到很多信息,箱图把所有的数据分成了4部分,第1部分是从顶线到箱子的上部,这部分数据值在全体数据中排名前25%;第2部分是从箱子的上部到箱子中间的线,这部分数据值在全体数据中排名25%以下、50%以上;第3部分是从箱子中间的线到箱子的下部,这部分数据值在全体数据中排名50%以下、75%以上;第4部分是从箱子的底部到底线,这部分数据值在全体数据中排名后25%。顶线与底线的间距在一定程度上表示了数据的离散程度,间距越大就越离散。就本例而言,我们可以看到该公司市场份额的中位数在32%左右,市场份额最高的省市可达到90%左右。
上述的Stata命令比较简洁,分析过程及结果已达到解决实际问题的目的。Stata 16.0的强大之处在于,它提供了更加复杂的命令格式以满足用户更加个性化的需求。
延伸:我们能否把上面各省市的市场份额数据按照所属各个大区分别绘制箱图呢?答案是肯定的。
操作命令应该相应地修改为:
graph box SCFE,over( Center)
在命令窗口输入命令并按回车键进行确认,结果如图2.24所示。
图2.24 箱图2
从该图中可以看出第2大区的市场份额中位数水平最高,第3大区的市场份额中位数水平最低,第1大区的市场份额中位数水平居中。第2大区各个省市之间的市场份额情况相对存在较大差异。
饼图是数据分析中常见的一种经典图形,因其外形类似于圆饼而得名。在数据分析中,很多时候需要分析数据总体的各个组成部分的占比,我们可以通过各个部分与总额相除来计算,但这种数学比例的表示方法相对抽象,Stata 16.0提供了饼形制图工具,能够直接以图形的方式显示各个组成部分所占的比例,更为重要的是,由于采用图形的方式,因此更加形象直观。
【例2.6】 B股份有限公司是一家资产规模巨大的国内上市公司,公司采取多元化经营的成长型发展战略,经营范围包括餐饮、房地产、制造等,公司采取区域事业部制的组织架构,在东部、中部、西部都有自己的分部,较为独立地负责本部各产业的具体运营。该公司各大分部的具体营业收入数据如表2.8所示。试通过绘制饼图的方式研究该公司各产业的占比情况。
表2.8 某公司各大分部的市场份额情况
在用Stata进行分析之前,我们要把数据录入Stata中。本例中有4个变量,分别是地区、餐饮业营业收入、房地产业营业收入以及制造业营业收入。我们把地区变量设定为region,把餐饮业营业收入变量设定为CANYIN,把房地产业营业收入变量设定为FANGCHAN,把制造业营业收入变量设定为ZHIZAO,变量类型及长度采取系统默认方式,然后录入相关数据。相关操作在第1章中已详细讲述过了。录入完成后数据如图2.25所示。
图2.25 案例2.6的数据
先保存数据,然后开始展开分析,步骤如下:
进入Stata 16.0,打开相关数据文件,弹出主界面。
在主界面的Command文本框中输入命令:
graph pie CANYIN FANGCHAN ZHIZAO
设置完毕后,按回车键,等待输出结果。
上述操作完成后,Stata 16.0会弹出如图2.26所示的饼图。
图2.26 饼图1
通过观察饼图,我们可以比较轻松地看出企业的主营业务,该企业的两个支柱产业是制造业和房地产,餐饮业占比较小。
上述的Stata命令比较简洁,分析过程及结果已达到解决实际问题的目的。Stata 16.0的强大之处在于,它提供了更加复杂的命令格式以满足用户更加个性化的需求。
1.延伸1:对图形展示进行更加个性化的设置
例如,我们要把餐饮业的营业收入占比突出显示,把房地产业营业收入的饼颜色改为黄色,给餐饮业营业收入和房地产业营业收入的饼在距中心20个相对半径单位的位置处加上百分比标签,操作命令就应该相应地修改为:
graph pie CANYIN FANGCHAN ZHIZAO,pie(1,explode) pie(2,color(yellow)) plabel(1 percent,gap(20)) plabel(2 percent,gap(20))
在命令窗口输入命令并按回车键进行确认,结果如图2.27所示。
2.延伸2:按照分类变量分别画出饼图
例如,我们要在延伸1的基础上通过绘制饼图的方式研究该公司每个分部内各个产业的占比情况,操作命令就应该相应地修改为:
graph pie CANYIN FANGCHAN ZHIZAO,pie(1,explode) pie(2,color(yellow)) plabel(1 percent,gap(20)) plabel(2 percent,gap(20)) by( region)
在命令窗口输入命令并按回车键进行确认,结果如图2.28所示。
图2.27 饼图2
图2.28 饼图3
在上面的结果中,可以看到该公司每个分部各个产业的占比情况。例如,东部地区,观测左上方的east图就可以得到想要的答案。