在很多情况下,我们会用到分类变量(虚拟变量)的概念,分类变量的用途是通过定义值的方式对观测样本进行分类。例如,根据数据某一变量特征的不同把观测样本分为3类,就需要建立3个分类变量:A、B、C,如果观测样本属于A类,其对应的分类变量A的值就为1,对应的分类变量B和C的值就为0。定序变量的用途是根据数据的数值大小将数据分到几个确定的区间,其在广义上也是一种分类。下面我们用实例来讲解分类变量和定序变量的基本操作。
【例1.3】 某国际知名足球裁判自执法以来在各地区的执赛信息如表1.5所示。试使用Stata 16.0对数据进行以下操作:(1)试生成新的分类变量来描述比赛级别;(2)试生成新的定序变量对场数进行定序,分到3个标志区间。
表1.5 某国际知名足球裁判执赛情况
在用Stata进行分析之前,我们要把数据录入Stata中。本例中有3个变量,分别是地点、场数以及比赛级别。我们把地点变量设定为place,把场数变量设定为number,把比赛级别变量设定为type,变量类型及长度采取系统默认方式,然后录入相关数据。相关操作在1.2节已详细讲述过了。录入完成后的数据如图1.20所示。
图1.20 案例1.3的数据
先保存数据,然后开始展开分析,步骤如下:
进入Stata 16.0,打开相关数据文件,弹出如图1.21所示的主界面。
在主界面的Command文本框中输入操作命令并按回车键进行确认。
· tabulate type,generate(type):生成新的分类变量来描述比赛级别。
· generate number1=autocode(number,3,1,25):生成新的定序变量对场数进行定序,分到3个标志区间。
图1.21 主界面
设置完毕后,按回车键,等待输出结果。
图1.22所示是生成新的分类变量来描述比赛级别的结果。
图1.22 描述比赛级别的结果
选择Data|Data Editor|Data Editor(Browse)命令,进入数据查看界面,可以看到如图1.23所示的生成的分类数据type1和type2。
选择Data|Data Editor|Data Editor(Browse)命令,进入数据查看界面,可以看到如图1.24所示的生成的变量number1。该变量将number的取值区间划分成等宽的3组。图1.24所示是生成新的定序变量对场数进行定序,分到3个标志区间的结果。
图1.23 生成新的分类变量
图1.24 对场数进行定序
以本节中的案例为基础,试生成新的分类变量按数值大小对场数进行4类定序。
操作命令应该为:
sort number generate number2=group(4)
在命令窗口输入命令并按回车键进行确认,选择Data|Data Editor|Data Editor(Browse)命令,进入数据查看界面,可以看到如图1.25所示的生成的变量number2数据。该变量将number的取值按大小分成了4个序列。
图1.25 对场数进行4类定序