在上节中,我们讲述了单个分类变量进行概要统计的实例,本节将以实例的方式讲解两个分类变量是如何进行概要统计的,即二维列联表。
【例3.4】 为研究A市居民的身体情况,某课题组对A市居民的吸烟喝酒情况进行了调查研究,调查得到的数据经整理后如表3.6所示。试对该数据资料进行二维列联表分析。
表3.6 A市居民的吸烟喝酒情况
在用Stata进行分析之前,我们要把数据录入Stata中。容易发现本例中有3个变量,分别是性别、是否吸烟以及是否喝酒。我们把性别变量设定为gender,把是否吸烟变量设定为smoke,把是否喝酒变量设定为drink,变量类型及长度采取系统默认方式,然后录入相关数据。相关操作在第1章中已详细讲述过了。录入完成后数据如图3.16所示。
先保存数据,然后开始展开分析,步骤如下:
进入Stata 16.0,打开相关数据文件,弹出主界面。
在主界面的Command文本框中输入命令:
tabulate smoke drink
设置完毕后,按回车键,等待输出结果。
图3.16 案例3.4的数据
在Stata 16.0主界面的结果窗口可以看到如图3.17所示的分析结果。
从分析结果中可以看出本次调查所获得的信息:发现共有124位A市居民参与了有效调查,其中有68人吸烟,有56人不吸烟,有41人喝酒,有83人不喝酒,具体来说,既吸烟又喝酒的居民人数为29人,既不吸烟又不喝酒的居民人数为44人,只吸烟不喝酒的居民人数为39人,只喝酒不吸烟的居民人数为12人。
图3.17 分析结果图
上述的Stata命令比较简洁,分析过程及结果已达到解决实际问题的目的。Stata 16.0的强大之处在于,它提供了更加复杂的命令格式以满足用户更加个性化的需求。
延伸:显示每个单元格的列百分比与行百分比
在本节的例子中,操作命令应该相应地修改为:
tabulate smoke drink,column row
在命令窗口输入命令并按回车键进行确认,结果如图3.18所示。
图3.18 分析结果图
分析结果表中的单元格包括3部分信息,其中第1行表示的是频数,第2行表示的是行百分比,第3行表示的是列百分比。例如,最左上角的单元格的意义是:既不吸烟又不喝酒的样本个数有44个,这部分样本在所有不吸烟的样本中占比为78.57%,在所有不喝酒的样本中占比为53.01%。