SPSS 22.0统计分析从入门到精通最新章节_李昕著

3.3 数据文件的合并

在进行数据处理和统计分析时，常常需要将多个数据文件合并成一个数据文件。合并方式分为个案合并和变量合并。

● 个案合并指在两个数据文件拥有共同变量时，将其中一个数据文件的个案合并到另一个数据文件中。

● 变量合并指在两个数据文件拥有共同个案时，将其中一个数据文件的变量合并到另一个数据文件相应的个案中。

3.3.1 个案合并

1 .参数设置

打开第一个数据文件，选择“数据”→“合并文件”→“添加个案”，此时弹出“个案合并”对话框，如图3-10所示，其中各个选项含义如下。

● 打开的数据集：指从当前打开的数据集选择合并文件，下面显示的是当前打开的可用数据集名称，由对话框显示可知当前还打开了可用数据文件“data03-03 （2）.sav”。

● 外部SPSS Statistics：指读取外部的数据文件进行合并，该项需要用户指定文件路径和文件名。

用户根据需要选择其中一种方式打开第二个数据文件即可。

单击按钮，弹出“添加个案”对话框，如图3-11所示，其中各选项含义如下。

图3-10 “个案合并”对话框

图3-11 “添加个案”对话框

● 非成对变量：该列表显示两个文件夹中不匹配的变量名，包括变量名不同的变量或变量名相同但变量定义不同的变量。显示在该列表的变量后面都有“*”或“+”，变量后带有“*”表示当前工作的数据文件中的变量，变量后带有“+”表示外部数据文件的变量。此时，可以对变量名进行更改后再选入“新的活动数据集中的变量”，操作方法为：单击按钮，在弹出如图3-12所示的对话框中输入新名称即可。

图3-12 “重命名”对话框

● 新的活动数据集中的变量：该列表显示合并后的新数据集所包含的变量，默认显示的是两个文件中都有的变量名。

● 将个案源表示为变量：表示合并后的数据集生成一个新变量，用以表示每个个案的来源，SPSS默认0代表个案来自源文件，1代表来自被合并的文件。选中该复选框，则可激活下面的输入框并指定该新变量的名称，系统默认名称为“源01”。

● 配对：该命令可以匹配来自两个数据文件中变量名不同、数据的含义和属性相同的变量。操作方法为：在“非成对变量”中选中这两个变量，激活并单击按钮，即可把强行合并后的变量选入“新的活动数据集中的变量”。

将需要在新数据文件中显示的变量选入“新的活动数据集中的变量”，未选入该列表的变量将不进行个案合并。

2.个案合并的SPSS实现

实例三：数据文件“data03-03（1）.sav”与“data03-03（2）.sav”分别为材料学院等7个学院、生物学院等6个学院的研究生课程信息，如图3-13所示，两个数据文件中包含相同的变量。现要求汇总所有学院的研究生课程信息，以便于后续数据分析。

图3-13 原始数据

（1）打开“data03-03（1）.sav”和“data03-03（2）.sav”两个数据文件。

（2）在“data03-03（1）.sav”数据文件中选择“数据”→“合并文件”→“添加个案”，此时弹出如图3-10所示对话框。选择“打开的数据集”中的“data03-03（2）.sav”。

（3）单击按钮进入下一步，弹出如图3-11所示对话框，同时选中左侧变量列表中的“academy”和“学院”两个变量，激活并单击按钮，将两者强行合并后选入“新的活动数据集中的变量”，显示为。

（4）勾选“将个案源表示为变量”复选框，采用默认名称“源01”。

（5）为了说明当只有一个数据文件包括的变量在合并后所呈现的结果，将只存在于一个数据文件的“课程性质”变量也选入“新的活动数据集中的变量”。

（6）完成所有设置后，单击按钮执行命令。

3.个案合并的结果分析

图3-14为合并后的部分结果。

第一列是“academy”和“学院”两个变量强行合并后所呈现的结果，因为两者仅变量名不一样，所以能顺利合并。

最后一列是“源01”变量，即表示每个个案来源，由此可以看出前部分是“data03-03（1）.sav”的数据，后部分是“data03-03（2）.sav”的数据。

同时，发现“课程性质”变量存在缺失值，这是因为只有“data03-03（2）.sav”数据文件有“课程性质”变量，而“data03-03（1）.sav”没有。

图3-14 个案合并后的部分结果

注意

①若用户要强行合并的两个文件中的某两个变量（即两个变量来自不同的文件）仅具有相同的变量名，而变量类型不同，那么强行匹配将失败。②合并后的数据放在当前打开的源数据文件中，保存后将直接更新此文件的内容，不可撤销；若用户希望保留源数据文件及保存合并后的数据文件，则选择“文件”→“另存为”而非“保存”即可。

3.3.2 变量合并

1.参数设置

（1）选择数据文件对话框的参数设置。

打开第一个数据文件，选择“数据”→“合并文件”→“添加变量”，弹出“变量合并”对话框，如图3-15所示，此界面各选项的含义与图3-10相似，此处不再赘述。用户根据需要选择其中一种方式打开第二个数据文件即可。

图3-15 “变量合并”对话框

（2）添加变量对话框的参数设置。

单击按钮，弹出“添加变量”对话框，如图3-16所示，其中各项设置的含义如下：

图3-16 “添加变量”对话框

● 已排除的变量：显示的是出现在两个初始文件中，但不出现在合并后的文件里的变量。

● 新的活动数据集：显示合并后的数据集包含的变量。

● 关键变量：显示用以标识和匹配不同文件的个案的变量，当两个数据文件的排列顺序不一致时，可以指定关键变量，但需要先将数据文件按照关键变量值进行升序排列。若未进行排序操作，SPSS将直接横向合并，这将导致合并错误。

● “匹配关键变量的个案”和“两个数据集中的个案都是按关键变量的顺序进行排序”复选框：选中这两个复选框，说明按关键变量选择个案，有以下三种可选项。

➢ 非活动数据集为基于关键字的表：表示关键变量只出现在源文件中，以当前源文件为基准，外部文件匹配源文件的关键变量；若匹配成功，外部文件的新变量就加入到合并后的数据集的新变量中，匹配不成功则不加入。

➢ 活动数据集为基于关键字的表：关键变量只出现在被合并的外部文件中，以外部文件为基准，源文件匹配外部文件的关键变量；如匹配成功，源文件的新变量就加入到合并后数据集的新变量中，匹配不成功则不加入。

➢ 两个文件都提供个案：表示关键变量同时出现在两个文件中。

● 将个案源表示为变量：勾选“两个数据集中的个案都是按关键变量的顺序进行排序”复选框后激活该对话框，其与图3-11的“添加个案”对话框相似。

用户在合并变量时，若两个数据文件没有共同的变量，此时不需指定关键变量，直接将所需合并的变量选入“新的活动数据集”，即可按观测量出现的顺序一对一地合并。

若两个数据文件拥有相同的变量，也有不同的变量，此时可以将相同的变量指定为关键变量，并指定当关键变量值不同时的观测量处理方法。

2.变量合并的SPSS实现

实例四：“data03-04（1）.sav”与“data03-04（2）.sav”分别为课程信息和任课教师信息，如图3-17所示，其中“data03-04（1）.sav”缺少“课程编号”为2和3的个案，“data03-04（2）.sav” 缺少“课程编号”为8和9的个案。现要求将后者中的部分变量合并到前者中，并使用三种方式处理关键变量值不同时的观测量。

图3-17 原始数据

● 第一种方式：选择“非活动数据集为基于关键字的表”选项。

（1）打开“data03-04（1）.sav”，选择“数据”→“合并文件”→“添加变量”，弹出如图3-15所示对话框，选择“打开的数据集”中的“data03-04（2）.sav”。

（2）单击按钮进入下一步，弹出如图3-16所示“添加变量”对话框。勾选“匹配关键变量的个案”和“两个数据集中的个案都是按关键变量的顺序进行排序”复选框，并选中“非活动数据集为基于关键字的表”，在“已排除的变量”列表中选中“课程编号”，然后单击下面的按钮，将“课程编号”变量选入“关键变量”列表中，同时“新的活动数据集”列表中的“课程编号”变量消失。

（3）单击按钮，此时，SPSS会弹出一个警告框，如图3-18所示，提示用户两个文件的数据必须已按关键变量进行了升序排列，否则关键字匹配将失败。因为在合并变量前，两个数据文件的“课程编号”均进行升序排列，所以单击按钮即可。结果如图3-19（a）所示。

图3-18 关键变量排序的警告框

● 第二种方式：选择“活动数据集为基于关键字的表”选项。

在图3-16对话框中选择并勾选“活动数据集为基于关键字的表”，其余步骤与第一种方式相同，结果如图3-19（b）所示。

● 第三种方式：选择“两个文件都提供个案”选项。

在图3-16对话框中选择“两个文件都提供个案”，勾选“将个案源表示为变量”并采用默认名称“源01”。其余步骤与第一种方式相同，结果如图3-19（c）所示。

3.变量合并的结果分析

图3-19（a）、（b）、（c）是分别选择“非活动数据集为基于关键字的表”、“活动数据集为基于关键字的表”和“两个文件都提供个案”选项处理关键变量值不同时的观测量的合并结果。

我们知道，“data03-04（1）.sav”缺少“课程编号”为2和3的个案，“data03-04（2）.sav”缺少“课程编号”为8和9的个案，所以，图3-19（a）图中个案8和9缺失“任课教师职称”和“任课教师所在学科”的观测量；图3-19（b）图中个案2和3缺失“学时”和“学分”的观测量；图3-19（c）图中个案2和3缺失“学时”和“学分”的观测量，个案8和9缺失“任课教师职称”和“任课教师所在学科”的观测量。

图3-19 变量合并的部分结果

①关键变量中不能有这样的缺失值，否则系统会以为关键变量的排注意

序是按照降序排列而非升序排列，导致无法完成变量合并。②合并后的数据放在当前打开的源数据文件“data03-03（1）.sav”中，保存后将直接更新此文件的内容，不可撤销；若用户希望保留源数据文件及保存合并后的数据文件，则选择“文件”→“另存为”而非“保存”即可。