SPSS统计分析从入门到精通（第5版）最新章节_杨维忠著

2.6　变量的转换与运算

变量是SPSS数据结构中重要的组成部分，是统计分析的主要对象。本节对SPSS 26.0中有关变量的操作进行介绍。

2.6.1　插入与删除变量

有时我们需要增加新的信息，如由于对外开放，在工资统计中需要加入外资企业的信息，此时会用到插入新的变量操作，有时候也需要删除无用的变量。

与观测量的插入和删除一样，用户可以通过菜单命令插入变量，也可以通过工具栏和鼠标右键快捷菜单插入变量，系统默认插入的新变量为标准数值型变量，变量名为VAR0000X。具体操作方法可参照2.4.1节。

在SPSS数据编辑器的变量视图下，同样可以完成变量的插入和删除操作，方法与在数据视图下基本一致，只是操作对象变成了行。

2.6.2　根据已存在的变量建立新变量

在实际的数据分析过程中经常会利用多个变量之间的关系来生成新的变量。SPSS的变量生成过程可以方便实现这项功能。本节将以平均成绩的计算为例来讲解根据已存在的变量建立新变量的过程，按照“平均成绩=（数学成绩+物理成绩）/2”的公式计算学生的平均成绩。原始数据文件如图2-37所示。

图2-37　未产生新变量的数据文件

在菜单栏中选择“转换”|“计算变量”命令，打开如图2-38所示的“计算变量”对话框。

定制目标变量。在“目标变量”文本框中输入目标变量的名称，单击“类型和标签”按钮，在弹出的“计算变量：类型和标签”对话框中设置新生成变量的类型与标签。本例选中“标签”单选按钮，并在其后的文本框中输入变量标签“平均成绩”，如图2-39所示。

图2-38　“计算变量”对话框

图2-39　“计算变量：类型和标签”对话框

设置新变量的生成表达式。从源变量列表框中选择生成新变量所依据的变量，单击按钮将选中的变量选入“数字表达式”列表框中参与模型表达式的构建；然后从“函数组”列表框中选择相应的函数类型，“函数和特殊变量”列表框中会显示出具体的函数类型与特殊变量，用户可以选择相应的函数并单击按钮将其选入“数字表达式”列表框中参与表达式的构建。可以利用“数字表达式”下方的键盘进行数字与符号的输入，如图2-40所示。

设置个案选择条件。单击“如果”按钮，打开如图2-41所示的“计算变量：If个案”对话框。

图2-40　设置新变量的生成表达式

图2-41　“计算变量：If个案”对话框

如选中“包括所有个案”单选按钮，则表示变量中的全部个案均参与计算；选中“在个案满足条件时包括”单选按钮，则激活个案选择条件设置部分，该部分与新变量的生成表达式的设置方法基本相同，在此不再赘述。本例选中“包括所有个案”单选按钮。

单击“确定”按钮，就可以计算新变量了。新变量的生成结果如图2-42所示。

图2-42　产生新变量的输出结果

从图2-42中可以看出，数学和物理的平均成绩被计算出来并作为一个新变量被保存。

2.6.3　产生计数变量

有时我们需要统计满足某一个条件观测的个数，如对学生党员人数进行统计。计数变量的功能就是对变量中满足一定条件的个案数进行统计，并保存计数结果，本节以优秀人次的计算为例讲解产生计数变量的过程，本例要求计算考生的数学和物理成绩优秀人次，判定成绩为优秀的标准为成绩大于等于80分。未产生计数变量的原始数据文件如图2-43所示。

图2-43　未产生计数变量的原始数据文件

产生计数变量的过程如下所示：

（1）在菜单栏中选择“转换”|“对个案中的值进行计数”命令，打开如图2-44所示的“计算个案中值的出现次数”对话框。

（2）选择要进行计数的变量并设置计数变量。

在源变量列表框中选择要进行计数的变量，单击按钮将其选入“变量”列表框中，本例将“数学”变量和“物理”变量选入列表框，如图2-45所示。

图2-44　“计算个案中值的出现次数”对话框

图2-45　计数变量的选择

“目标变量”文本框：用于输入产生的计数变量的名称。

“目标标签”文本框：用于输入产生的计数变量的变量标签。本例在“目标变量”文本框中输入“优秀人次”。

（3）定义计数对象。单击“定义值”按钮，弹出如图2-46所示的“对个案中的值进行计数：要计数的值”对话框。用户可以在“值”选项组中选择计数对象，单击“添加”按钮将其选入右侧的“要计数的值”列表框中。

图2-46　“对个案中的值进行计数：要计数的值”对话框

“值”单选按钮：表示系统将以用户在下面文本框中输入的值作为计数对象。

“系统缺失值”单选按钮：表示将把系统指定缺失值作为计数对象。

“系统缺失值或用户缺失值”单选按钮：表示将把系统指定缺失值或用户指定缺失值作为计数对象。

“范围”单选按钮：表示系统将把用户在下面文本框中输入的数值范围内的观测量数作为计数对象。

“范围，从最低到值”单选按钮：表示系统将把负无穷到用户在下面文本框中输入的数值范围内的观测量数作为计数对象。

“范围，从值到最高”单选按钮：表示将把用户在下面文本框中输入的数值到正无穷范围内的观测量数作为计数对象。本例选中“范围，从值到最高”单选按钮，并在其下的文本框中输入80。

（4）然后单击“添加”按钮，再单击“继续”按钮，最后在“计算个案中值的出现次数”对话框中单击“确定”按钮，就可以生成计数变量。生成计数变量后的数据文件如图2-47所示。

图2-47　计数变量的生成

由图2-47可以看出，SPSS生成了名为“优秀人次”的计数变量，该变量统计了每个观测中符合条件的值的个数，通过生成计数变量我们可以了解学生的各科成绩情况。

2.6.4　变量的重新赋值

对于数值型变量，用户在数据编辑和整理过程中可以对某些变量一定取值范围内的观测量进行重新赋值。例如，在学生成绩中，由于统计的失误，导致一部分学生的成绩需要更正，此时我们将用到变量的赋值操作。变量的重新赋值有两种方式：一种是对变量自身重新赋值，另一种是赋值生成新的变量，这两种方法的具体实现过程下面都将介绍。

本节以对学生的成绩评分为例讲解对变量重新赋值的过程，该例要求将百分制成绩换算为优秀、及格与不及格3类，分别用数字1、2、3代替。优秀标准为成绩大于等于80分、及格标准为成绩小于80分大于等于60分，不及格标准成绩为小于60分。原始数据文件见图2-43所示。

1．对变量自身重新赋值

对变量自身的重新赋值不产生新变量，变量的新值直接在原来位置替代变量的原值。

（1）在菜单栏中选择“转换”|“重新编码为相同的变量”命令，打开如图2-48所示的“重新编码为相同的变量”对话框。

（2）选择要重新赋值的变量。选择要重新赋值的变量，单击按钮将其选入右侧的“数字变量”列表框中，本例将“数学”变量和“物理”变量选入数字变量列表框，如图2-49所示。

图2-48　“重新编码为相同的变量”对话框

图2-49　重新赋值变量的选择

（3）定义旧值和新值。单击“旧值和新值”按钮，弹出如图2-50所示的“重新编码为相同变量：旧值和新值”对话框。

图2-50　“重新编码为相同变量：旧值和新值”对话框

“旧值”选项组：该选项组用于设置要改变的值的范围，其中选项及其含义与图2-46中的“值”大致相同，只多出一个“所有其他值”选项。

“新值”选项组：该选项组用于设置变量的新赋值。如选中“值”单选按钮，表示由用户指定该值，用户可以在其后的文本框中输入变量的新赋值；如选中“系统缺失值”单选按钮，表示将把系统指定缺失值作为新赋值。

用户设置完旧值和新值的赋值配对后，可以单击“添加”按钮将其选入右边的“旧-->新”列表框中。对于该列表框中的对象，用户可以单击“更改”按钮进行修改，或者单击“删除”按钮删除。

（4）设置个案选择条件。个案选择条件的设置方法在前面章节已经介绍，在此不再赘述。

（5）单击“确定”按钮，就可以对变量重新赋值。重新赋值后的变量如图2-51所示。

由图2-51可以看出，原始分数均被表示级别的数字1、2和3代替，变量的新值直接在原来位置替代了变量的原值。

2．赋值生成新的变量

与变量自身重新赋值不同，赋值生成新的变量操作会将变量的新值作为一个新的变量进行保存。

（1）在菜单栏中选择“转换”|“重新编码为不同变量”命令，打开如图2-52所示的“重新编码为不同变量”对话框。

图2-51　变量自身重新赋值后的数据文件

图2-52　“重新编码为不同变量”对话框

（2）选择要重新赋值的变量。单击按钮将其选入“数字变量--＞输出变量”列表框中，并在“输出变量”选项组中输入输出变量的信息，单击“变化量”按钮。本例建立“数学→数学等级”和“物理→物理等级”两个变量转换，如图2-53所示。

（3）定义旧值和新值。单击“旧值和新值”按钮，弹出如图2-54所示的“重新编码为不同变量：旧值和新值”对话框。

图2-53　选择重新赋值的变量

图2-54　“重新编码为不同变量：旧值和新值”对话框

“新值”选项组：该选项组中较图2-50中多出一个“复制旧值”单选按钮，若选中该单选按钮，系统将不改变旧值。

“输出变量是字符串”复选框：若选中该复选框，系统将把新赋值生成的变量定制为字符串变量。

（4）单击“确定”按钮，就可以对变量重新赋值。赋值后产生新变量的结果如图2-55所示。

图2-55　赋值后产生的新变量

由图2-55可以看出，原始分数后面跟随的是科目成绩的等级，变量重新赋值后产生了新变量“数学等级”和“物理等级”。

2.6.5　变量取值的求等级

有时我们想知道某一个观测在已知条件下的观测中的位置，而又不希望打破数据现有的排序，此时将用到变量取值求等级的功能。所谓变量取值的等级就是变量在某指定条件下的排列中所处的位置，等级反映了变量在有序序列里的位置信息，本节以学生排名为例介绍变量取值求等级的操作方法，本例中要求按照学生的成绩得到学生的排名信息，如果成绩相同则并列名次。未进行求等级的原始数据文件如图2-56所示。

图2-56　未进行求等级的原始数据文件

变量取值求等级的具体操作方法如下：

（1）在菜单栏中选择“转换”|“个案排秩”命令，打开如图2-57所示的“个案排秩”对话框。

（2）选择要重新赋值的变量。选择要进行等级排序的变量，单击按钮将其选入“变量”列表框中。如果需要进行分组，则选择分组变量并单击按钮将其选入“依据”列表框中，本例将“成绩”变量选入“变量”列表框，如图2-58所示。指定了分组标准后，系统会对各个组分别计算和输出变量的等级。

图2-57　“个案排秩”对话框

图2-58　“个案排秩”对话框的变量选择

（3）进行相应的设置。

①“类型排秩”设置。单击“类型排秩”按钮，弹出如图2-59所示的“个案排秩：类型”对话框。该对话框用于设置等级排序的相关方法和参数，共有8个复选框。

秩：表示使用简单等级。

萨维奇得分：表示使用基于指数分布的Savage得分作为等级排序的依据。

分数排序：表示使用每个等级除以带有有效值的个案数，再乘以100的结果作为等级排序的依据。

百分比分数秩：表示使用等级除以非缺失观测量的权重和作为等级排序的依据。

个案权重总和：表示使用各观测量权重之和作为等级排序的依据。

Ntiles：表示使用百分位数作为等级排序的依据，选择该项后用户可以在其后的文本框中输入百分位数的个数。

比例估算：系统将估计与特定等级对应的分布的累积比例。

正态得分：系统将输出对应于估计的累积比例的Z得分。当选中了“比例估算”或“正态得分”复选框后，“比例估算公式”选项组被激活，用户可以选择要使用的比例估算方法。本例选中“秩”复选框。

②“绑定值”设置。单击“绑定值”按钮，弹出如图2-60所示的“个案排秩：绑定值”对话框。该对话框用于设置对等级取值相同的观测值的处理，共有以下4种方式。

图2-59　“个案排秩：类型”对话框

图2-60　“个案排秩：绑定值”对话框

平均值：表示以等级的平均值作为最终的结果。

低：表示以相同等级的最小值作为最终的结果。

高：表示以相同等级的最大值作为最终的结果。

顺序秩到唯一值：表示把相同的观测值作为一个值来求等级。

本例要求成绩相同者名称并列，故选中“高”单选按钮。

③将秩1赋予。该选项组用于设置等级的排列顺序，最小值表示使用升序；最大值表示使用降序，本例选中“最大值”单选按钮。

④显示摘要表。如选中该复选框，在结果窗口中将输出分析的摘要信息。

（4）单击“确定”按钮，就可以对变量取值求等级。个案等级排序的结果如图2-61所示。

由图2-61可以看出，变量的等级作为一个新的变量“R成绩”保存，这个变量给出了每个学生的排名情况，可以由表格中第13～15行看出，成绩相同的学生的排名是并列的。

图2-61　变量等级排序后的结果

2.6.6　缺失数据的处理

在数据分析的过程中，多种情况会导致缺失值的产生，例如某一年的观测资料丢失，缺失值的产生会给数据分析带来许多问题，这种情况下我们将用到缺失数据处理的功能。SPSS提供了多种手段进行缺失值的替代操作。本节以人均GDP的计算为例讲解缺失值的操作，数据文件中由于某种原因，没有获得1995年的人均GDP数据（GDP单位：亿元，人均GDP单位：元），因此我们需要对缺失值进行合理替代以便进行相应的分析。本例的原始数据文件如图2-62所示。

图2-62　人均GDP数据

缺失值替代的操作步骤如下：

在菜单栏中选择“转换”|“替换缺失值”命令，打开如图2-63所示的“替换缺失值”对话框。

选择要替换缺失值的变量。选中含有缺失值的变量，单击按钮将其选入“新变量”列表框中，系统会自动生成用于替代缺失值的新变量。如果用户希望自定义变量名称，可以在“名称”文本框中输入自定义变量名称，然后单击“变化量”按钮完成设置。本例将“人均GDP”变量选入列表框中，生成后的新变量命名为“人均GDP的缺失值替代”，如图2-64所示。