定性数据反映的是研究对象的属性。定性数据根据属性是否能够排序,分为称名数据和顺序数据。定性数据通常表现为文本,或者被赋予文本含义的数值代码。频数分布(Frequency Distribution)表可以展示定性数据的分布。频数分布表中一列代表组别,另一列代表属于该组的观测值的个数。下面介绍如何利用Excel的数据透视表创建频数分布表,报告各组的频数、百分比和累积百分比。
数据简介:从CSMAR数据库中提取了2021年度上市公司466位CEO的数据,包括CEO的性别、年龄、学历/学位、年薪、专业背景、兼任职务。
数据文件:CEO.xlsx。
要求:绘制上市公司CEO的性别、学历/学位频数分布表,报告各个组的频数、百分比、累积百分比。
在Excel中打开数据文件CEO.xlsx,首先单击单元格A1,然后单击“插入”→“数据透视表”,如图2.1所示,弹出“创建数据透视表”对话框。
图2.1 插入数据透视表
首先选择数据源,因单元格A1处于激活状态(见图2.1),Excel自动识别单元格A1所在的连贯区域“Sheet1!$A$1:$G$467”为数据源,然后指定数据透视表存放的位置,默认选项是“新工作表”,如图2.2所示。建议使用该默认选项,若选择存放在现有工作表,则需要指定单元格,但有覆盖原始数据的风险。
图2.2 创建数据透视表
因此,建议在单击“插入”→“数据透视表”之前,先单击数据区域中的某个单元格,这样就可全部使用默认选项。直接单击“确定”,即可跳转到Sheet2 。
此时,界面菜单栏中增加了“数据透视表分析”卡片,右侧窗格中罗列了Sheet1中原始数据的所有字段(变量名称)。拖曳字段到该窗格右下角的“行”框、“列”框、“∑值”框中,对数据透视表进行布局。“行”或“列”代表数据透视表中的行变量或者列变量。“∑值”代表数据透视表中间的单元格的属性。
将字段“性别”拖曳至“行”框中,将字段“序号”拖曳至“∑值”框中。此时,“∑值”框中显示“:求和项:序号”,意思是对满足“性别”条件的值对应的“序号”求和。因为在原始数据中“序号”是数值型字段,Excel对“∑值”框中字段默认的汇总方式是“求和”。但是,性别的频数分布表中需要罗列的是男性和女性的人数,所以需要修改默认的汇总方式。单击单元格B3,单击“字段设置”,弹出“数据透视表字段”对话框,在“汇总方式”下选择“计数”,如图2.3所示,单击“确定”。
图2.3 数据透视表布局
此时的数据透视表中,“男”“女”的上方显示为“行标签”,没有显示“性别”二字。单击菜单栏中的“数据透视表分析”,单击“选项”,弹出“数据透视表选项”对话框,在其中勾选“经典数据透视表布局”,如图2.4所示,单击“确定”即可将字段“性别”在表中显示出来。
图2.4 “数据透视表选项”对话框
将字段“序号”再次拖曳至“∑值”框中,先将汇总方式修改为“计数”。单击数据透视表中的“计数项:序号2”,然后单击“字段设置”,弹出“数据透视表字段”对话框。单击“数据显示方式”,单击下拉按钮,在列表中选择“总计的百分比”,如图2.5所示,单击“确定”。这样“计数项:序号2”下方即可显示出男性和女性占总人数的百分比。
图2.5 计算各组百分比
CEO的学历/学位是顺序数据,可以排序。如图2.6所示,将字段“学历/学位”拖曳到“行”框,生成学历/学位的频数分布表。在该表中,学历/学位按照汉语拼音排序,并没有按高低排序。
图2.6 CEO学历/学位的频数分布表
如图2.7所示,单击“中专及以下”单元格,单击鼠标右键,在弹出的快捷菜单中选择“移动”→“将‘中专及以下’移至开头”。然后按照类似的方法调整“博士”“大专”的位置,使学历/学位在表中由低至高排列。
图2.7 调整学历/学位的排列顺序
为了反映CEO中学历/学位低于某种层次的人数占比,可计算累积百分比。表中学历/学位排列已符合逻辑顺序,再次将字段“序号”拖曳至“∑值”框中。单击单元格D4,单击“字段设置”,在“数据透视表字段”对话框中将“数据显示方式”设置为“按某一字段汇总的百分比”,在“基本字段”下选择“学历/学位”,如图2.8所示,单击“确定”。
图2.8 累积百分比的计算
从图2.8中可以看出,CEO中学历/学位低于本科的占23.82%。中专及以下的有42人,大专的有69人,这两个学历/学位水平的CEO合计111人,111除以样本容量466,即得约23.82%。
综合前文分析,基于2021年上市公司466名CEO的数据,可以发现:男性占91.63%,女性占8.37%;博士占10.09%,硕士占36.70%,本科占29.40%,大专占14.81%,中专及以下占9.01%。
实操技巧
● 将定性变量拖曳到“行”框中或者“列”框中,将“序号”字段拖曳到“∑值”框中,即可生成频数分布表。
● 若拖曳到“∑值”框中的字段是数值型字段,如“序号”“编号”,需要将“汇总方式”设置为“计数”,这样才能生成频数分布表。
● 单击“计数项:序号”,单击“字段设置”,在弹出对话框的“数据显示方式”中可选择报告百分比、累积百分比等。
● 对于顺序数据,要注意数据透视表中各组排列顺序是否符合逻辑。若不符合,可移动某个组的位置。
● 若定性数据在某些组观测值的个数极少,可以将这些小类合并为一个大类,让频数分布表的形式更加简洁。