购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

3.1 直方图

直方图(Histogram)用于展示定量数据的分布,横轴代表数值大小,纵轴代表落在某个组的观测值的个数。在绘制直方图时,需要考虑组距。需选取合适的组距,展示数据在哪些区间比较密集,在哪些区间比较稀疏。

在Excel中绘制直方图有两种方法,一种是基于原始数据直接绘制直方图,另一种是基于频数分布表绘制直方图。

例3.1

数据文件:CEO.xlsx。

要求:绘制CEO年龄的直方图,概括CEO年龄的分布特征。

3.1.1 基于原始数据绘制直方图

首先打开数据文件CEO.xlsx,选中Sheet1中的列C,然后单击“插入”卡片下的“统计”,选择“直方图”,即得图3.1所示的CEO年龄的直方图。在该图中,横轴代表年龄组,纵轴代表落在某个年龄组的人数。

图3.1 CEO年龄的直方图

Excel根据年龄的数值分布,自动将组距设置为3.2,将CEO根据年龄分为13组。按年龄分组时,习惯上以5岁或者10岁为组距。因此,需要对图3.1中的组距进行修改。

双击直方图中间区域,弹出“设置数据系列格式”窗格。Excel将组称作“箱”(Box),“箱宽度”也称作组距(Class Width),等于组的上限(Upper Limit)减去下限(Lower Limit)。如图3.2所示,设置箱宽度为5.0。

图3.2 设置直方图的组距

从图3.1可以发现CEO中超过63岁的和小于34岁的人数都较少。因此,第一组和最后一组可采取开口组的形式,将小于35岁的归为第一组,将大于65岁的归为最后一组。在“溢出箱”文本框中输入65.0,在“下溢箱”文本框中输入35.0。此时,直方图将依设置调整。

在实践中,可对“箱宽度”“溢出箱”和“下溢箱”进行调整,观察生成的直方图是否能展示数据的分布特征,即呈现出数据在哪些区间密集,在哪些区间稀疏,根据直方图的实际效果选择恰当的组距。此外,在选择组距时,也要考虑阅读和理解上的习惯,例如考试成绩通常以10为组距,收入、支出通常以100、1000或它们的倍数值为组距。

单击直方图中间区域,再单击鼠标右键,在弹出的快捷菜单中选择“添加数据标签”,图中即会显示各组的频数。双击直方图的背景、坐标轴、矩形区域可对直方图进行细节设置。读者可以自行尝试,在此不赘述。

从图3.2中可以看出,CEO的年龄在(50,55]这个组的人数最多,其次是(55,60]、(45,50]这两个组,这3个组集中了样本中大约70%的人。CEO中年龄低于40岁的约占10%,年龄高于60岁的不足5%。

3.1.2 基于频数分布表绘制直方图

利用2.1节介绍的数据透视表,创建年龄的频数分布表。将字段“年龄”拖曳至“行”框中,将字段“序号”拖曳至“∑值”框中,并将其汇总方式设置为“计数”,如图3.3所示。图3.3所示表格展示了每一个年龄的人数。这种分组方式称作单项式分组,即每一个组只包含一种年龄的取值。

图3.3 创建年龄的频数分布表

单项式分组适合定量变量只能取少数几种观测值的情形,例如大一新生的年龄通常只有16、17、18、19、20这5种情形,可将每一个年龄单独分为一组。然而在本例中,CEO年龄的跨度较大,年龄的取值有数十种情形,若采用单项式分组,会造成组数过多,难以归纳年龄的分布特征。因此,需要采取组距式分组。

单击“年龄”,再单击鼠标右键,在弹出的快捷菜单中选择“组合”,弹出“分组”对话框,在“起始于”文本框中输入36,在“终止于”文本框中输入65,在“方式”文本框中输入5,如图3.4所示。Excel会将36岁以下的归为第一组,将66岁以上的归为最后一组,组距为5,单击“确定”将得到图3.5所示的频数分布表。

单击数据透视表,单击“插入”卡片下的“柱形图”,选择“簇状柱形图”,生成柱形图,该图不能称作直方图。直方图适用于定量数据,定量数据在一定范围内连续取值,相邻的两个组之间没有观测值分布,因此直方图的柱形是连续排列、没有间隙的。柱形图适用于定性数据,柱形图中柱形的间隙代表不同组别属性差异。因此,需要调整图3.5所示图形中的柱形间隙宽度。

图3.4 设置年龄的分组

图3.5 基于频数分布表创建直方图

单击图中的柱形,弹出“设置数据点格式”窗格,将“间隙宽度”设置为0%,如图3.6所示,可消除柱形之间的空隙。

图3.6 调整柱形间隙宽度

单击柱形图中的背景、坐标轴、柱形等区域进行细节设置,得到图3.7所示的直方图。

图3.7 年龄的直方图

本节介绍了两种绘制直方图的方法。基于原始数据绘制直方图,简便快捷;基于频数分布表绘制直方图,虽然步骤较多,但可以同时展示频数分布表和直方图,在调整组距时,可以更直观地观察不同分组方式下分组效果的差异。

实操技巧

● 选中定量数据所在的列,单击“插入”→“统计”→“直方图”,绘制直方图。

● 利用数据透视表创建频数分布表,单击“插入”→“柱形图”→“簇状柱形图”,将柱形间隙宽度调整为0%,绘制直方图。

● 绘制直方图时,需要对组距进行多次尝试,选择适宜的组距,以展示定量数据的分布特征。 J/eKvFnr/AgSzsZjPwwqt1Ptqxz7mT3qja7d4Vg4beGgjh9wceFAguWmiEQBavHg

点击中间区域
呼出菜单
上一章
目录
下一章
×