分布折线图与直方图有一定联系,也用于展示定量数据的分布。本节将介绍3种常用的分布折线图,包括频数折线图、累积频数折线图和累积百分比折线图。
数据文件:CEO.xlsx。
要求:绘制CEO年龄的频数折线图、累积频数折线图和累积百分比折线图,概括CEO年龄的分布特征。
将直方图中各个柱形上边的中点用直线连接起来并消除柱形,所得到的图就是频数折线图(Frequency Polygon)。频数折线图中各点的横坐标是每一组的区间值,纵坐标是各组频数。
首先选中年龄的数据透视表,然后单击“插入”卡片下的“折线图”,选择“带数据标记的折线图”,即可绘制频数折线图。如图3.8所示。
图3.8 年龄的频数折线图
累积频数折线图(Cumulative Frequency Polygon)的横轴代表定量变量的分组区间,纵轴代表累积频数,也就是小于或等于某个区间上限的观测值的总个数。
单击数据透视表中的“计数项:序号”,单击“字段设置”,弹出“数据透视表字段”对话框。单击“数据显示方式”,在下拉框中选择“按某一字段汇总”,在“基本字段”下选择“年龄”,单击“确定”,如图3.9所示。此时,“汇总”下方的数值代表累积频数。例如,“36-40”对应的累积频数为48,意思是年龄小于或等于40岁的共有48人,相当于图3.8所示表格中,第1组和第2组的频数之和。
图3.9 年龄的累积频数折线图
框选图3.9中的数据透视表,插入折线图,即得累积频数折线图。从图中可以看出,CEO中年龄小于或等于45岁的共有121人,年龄小于或等于50岁的共有226人,年龄小于或等于55岁的共有340人。
累积百分比折线图(Cumulative Percentage Polygon)的纵轴代表累积百分比,横轴代表分组区间,与累积频数折线图形式相似。绘制累积百分比折线图有两种方法:一种是根据原始数据绘制,计算每个观测值对应的累积百分比,然后绘制观测值与累积百分比之间的折线图;另一种是对原始数据进行组距式分组,然后计算各组的累积频数,再计算累积百分比,利用各组上限和累积百分比绘制折线图。
首先,将年龄按升序排列。然后,在单元格D2中录入公式=PERCENTRANK. INC(C$2:C$467,C2)(见单元格E2),计算年龄小于31的观测值的比重。使用单元格填充柄实现单元格D2下方单元格中公式的自动填充。最后,框选单元格区域C1:D467,单击“插入”→“折线图”→“带数据标记的折线图”,即得图3.10所示的图。
图3.10 基于原始数据绘制累积百分比折线图
注意: PERCENTRANK.INC函数利用所有数据计算百分数;PERCENTRANK.EXC函数排除数据集中的最小值和最大值来计算百分数。因此,若要利用数据集中的所有值来计算百分数,需要使用PERCENTRANK.INC函数。
如图3.11所示,在“数据显示方式”下拉框中选择“按某一字段汇总的百分比”,数据透视表将报告累积百分比。单击单元格A18选择数据透视表,然后单击“插入”→“折线图”→“带数据标记的折线图”,即可绘制累积百分比折线图。
从图3.11中可以发现CEO中年龄小于或等于40岁的只占10%,年龄小于或等于50岁的占48%,年龄小于或等于60岁的占96%。
图3.11 基于分组数据绘制累积百分比折线图
实操技巧
● 利用数据透视表创建定量变量的频数分布表,单击“插入”→“折线图”,再根据需要选择,即可创建频数折线图。
● 在数据透视表中,对汇总字段进行字段设置,在“数据显示方式”下拉框中选择“按某一字段汇总”或者“按某一字段汇总的百分比”,即可报告累积频数或者累积百分比。
● 累积频数折线图、累积百分比折线图可以展示定量变量小于或等于某个值的数目或者占比。