对于一些大型数据集,经常需要许多不同变量的频数分布。那么如何快速简单地实现这一目的呢?这就需要用到Stata的多表和多维列联表分析功能。下面就以实例的方式来介绍这一强大功能。
【例3.5】 某高校经济学院针对其研究生学生的持有证书情况进行了调查。证书分为3类,包括会计师证书、审计师证书、经济师证书。数据经整理汇总后如表3.7所示。试使用Stata 16.0对数据进行以下操作:①对数据中的所有分类变量进行单个变量汇总统计;②对数据中的所有分类变量进行二维列联表分析;③以是否持有会计师证书为主分类变量,制作3个分类变量的三维列联表。
表3.7 某高校经济学院的研究生学生持有证书情况
在用Stata进行分析之前,我们要把数据录入Stata中。本例中有4个变量,分别是性别、是否持有会计师证书、是否持有审计师证书以及是否持有经济师证书。我们把性别变量设定为gender,把是否持有会计师证书设定为account,把是否持有审计师证书设定为audit,把是否持有经济师证书设定为economy,变量类型及长度采取系统默认方式,然后录入相关数据。相关操作在第1章中已详细讲述过了。录入完成后数据如图3.19所示。
先保存数据,然后开始展开分析,步骤如下:
进入Stata 16.0,打开相关数据文件,弹出主界面。
在主界面的Command文本框中输入操作命令并按回车键进行确认。对应的命令分别如下:
· tab1 account audit economy:对数据中的所有分类变量进行单个变量汇总统计。
· tab2 account audit economy:对数据中的所有分类变量进行二维列联表分析。
· by account,sort:tabulate audit economy:以是否持有会计师证书为主分类变量制作3个分类变量的三维列联表。
图3.19 案例3.5的数据
在Stata 16.0主界面的结果窗口可以看到如图3.20~图3.22所示的分析结果。
图3.20所示是对数据中的所有分类变量进行单个变量汇总统计的结果。
从分析结果中可以看出本次调查所获得的信息:发现该学校经济学院的研究生学生中共有99人参与了有效调查,其中拥有会计师证书的有59位学生,在99名学生中占比59.6%;拥有审计师证书的有24位学生,在99名学生中占比24.24%;拥有经济师证书的有27位学生,在99名学生中占比27.27%。此外,结果分析表中Cum.一栏表示的是累计百分比。
图3.21所示是对数据中的所有分类变量进行二维列联表分析的结果。
图3.20 分析结果图
图3.21 分析结果图
从分析结果中可以看出本次调查所获得的信息:分析结果中包括3张二维列联表,第1张是变量audit与变量account的二维列联分析,第2张是变量economy与变量account的二维列联分析,第3张是变量audit与变量economy的二维列联分析。关于二维列联表的解读在上一节的实例中已经讲述过了,此处不再赘述。
图3.22所示是以是否持有会计师证书为主分类变量制作3个分类变量的三维列联表的结果。
图3.22 分析结果图
该分析结果是一张三维列联表,包括两部分:上半部分描述的是当account变量取值为no的时候,变量audit与变量economy的二维列联分析;下半部分描述的是当account变量取值为yes的时候,变量audit与变量economy的二维列联分析。
上述的Stata命令比较简洁,分析过程及结果已达到解决实际问题的目的。Stata 16.0的强大之处在于,它提供了更加复杂的命令格式以满足用户更加个性化的需求。
在这里介绍一个用于多维列联分析的Stata命令—table。这是一个多功能的命令,可以实现多种数据的频数、标准差数据特征的列联分析。例如,我们要进行简单的频数列联分析,那么操作命令就应该相应地修改为:
table account audit economy,contents(freq)
在命令窗口输入命令并按回车键进行确认,结果如图3.23所示。
图3.23 分析结果图
本结果分析图的解读方式与前面类似,这里不再赘述。
上述命令中contents括号里的内容表示的是频数,该括号内支持的内容与命令符号的对应关系如表3.8所示。
表3.8 contents括号内支持的内容与命令符号的对应关系