购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

3.3 数据文件的合并

在进行数据处理和统计分析时,常常需要将多个数据文件合并成一个数据文件。合并方式分为个案合并和变量合并。

● 个案合并指在两个数据文件拥有共同变量时,将其中一个数据文件的个案合并到另一个数据文件中。

● 变量合并指在两个数据文件拥有共同个案时,将其中一个数据文件的变量合并到另一个数据文件相应的个案中。

3.3.1 个案合并

1 .参数设置

打开第一个数据文件,选择“数据”→“合并文件”→“添加个案”,此时弹出“个案合并”对话框,如图3-10所示,其中各个选项含义如下。

● 打开的数据集:指从当前打开的数据集选择合并文件,下面显示的是当前打开的可用数据集名称,由对话框显示可知当前还打开了可用数据文件“data03-03 (2).sav”。

● 外部SPSS Statistics:指读取外部的数据文件进行合并,该项需要用户指定文件路径和文件名。

用户根据需要选择其中一种方式打开第二个数据文件即可。

单击 按钮,弹出“添加个案”对话框,如图3-11所示,其中各选项含义如下。

图3-10 “个案合并”对话框

图3-11 “添加个案”对话框

● 非成对变量:该列表显示两个文件夹中不匹配的变量名,包括变量名不同的变量或变量名相同但变量定义不同的变量。显示在该列表的变量后面都有“*”或“+”,变量后带有“*”表示当前工作的数据文件中的变量,变量后带有“+”表示外部数据文件的变量。此时,可以对变量名进行更改后再选入“新的活动数据集中的变量”,操作方法为:单击 按钮,在弹出如图3-12所示的对话框中输入新名称即可。

图3-12 “重命名”对话框

● 新的活动数据集中的变量:该列表显示合并后的新数据集所包含的变量,默认显示的是两个文件中都有的变量名。

● 将个案源表示为变量:表示合并后的数据集生成一个新变量,用以表示每个个案的来源,SPSS默认0代表个案来自源文件,1代表来自被合并的文件。选中该复选框,则可激活下面的输入框并指定该新变量的名称,系统默认名称为“源01”。

● 配对:该命令可以匹配来自两个数据文件中变量名不同、数据的含义和属性相同的变量。操作方法为:在“非成对变量”中选中这两个变量,激活并单击 按钮,即可把强行合并后的变量选入“新的活动数据集中的变量”。

将需要在新数据文件中显示的变量选入“新的活动数据集中的变量”,未选入该列表的变量将不进行个案合并。

2.个案合并的SPSS实现

实例三:数据文件“data03-03(1).sav”与“data03-03(2).sav”分别为材料学院等7个学院、生物学院等6个学院的研究生课程信息,如图3-13所示,两个数据文件中包含相同的变量。现要求汇总所有学院的研究生课程信息,以便于后续数据分析。

图3-13 原始数据

(1)打开“data03-03(1).sav”和“data03-03(2).sav”两个数据文件。

(2)在“data03-03(1).sav”数据文件中选择“数据”→“合并文件”→“添加个案”,此时弹出如图3-10所示对话框。选择“打开的数据集”中的“data03-03(2).sav”。

(3)单击 按钮进入下一步,弹出如图3-11所示对话框,同时选中左侧变量列表中的“academy”和“学院”两个变量,激活并单击 按钮,将两者强行合并后选入“新的活动数据集中的变量”,显示为

(4)勾选“将个案源表示为变量”复选框,采用默认名称“源01”。

(5)为了说明当只有一个数据文件包括的变量在合并后所呈现的结果,将只存在于一个数据文件的“课程性质”变量也选入“新的活动数据集中的变量”。

(6)完成所有设置后,单击 按钮执行命令。

3.个案合并的结果分析

图3-14为合并后的部分结果。

第一列是“academy”和“学院”两个变量强行合并后所呈现的结果,因为两者仅变量名不一样,所以能顺利合并。

最后一列是“源01”变量,即表示每个个案来源,由此可以看出前部分是“data03-03(1).sav”的数据,后部分是“data03-03(2).sav”的数据。

同时,发现“课程性质”变量存在缺失值,这是因为只有“data03-03(2).sav”数据文件有“课程性质”变量,而“data03-03(1).sav”没有。

图3-14 个案合并后的部分结果

注意

①若用户要强行合并的两个文件中的某两个变量(即两个变量来自不同的文件)仅具有相同的变量名,而变量类型不同,那么强行匹配将失败。②合并后的数据放在当前打开的源数据文件中,保存后将直接更新此文件的内容,不可撤销;若用户希望保留源数据文件及保存合并后的数据文件,则选择“文件”→“另存为”而非“保存”即可。

3.3.2 变量合并

1.参数设置

(1)选择数据文件对话框的参数设置。

打开第一个数据文件,选择“数据”→“合并文件”→“添加变量”,弹出“变量合并”对话框,如图3-15所示,此界面各选项的含义与图3-10相似,此处不再赘述。用户根据需要选择其中一种方式打开第二个数据文件即可。

图3-15 “变量合并”对话框

(2)添加变量对话框的参数设置。

单击 按钮,弹出“添加变量”对话框,如图3-16所示,其中各项设置的含义如下:

图3-16 “添加变量”对话框

● 已排除的变量:显示的是出现在两个初始文件中,但不出现在合并后的文件里的变量。

● 新的活动数据集:显示合并后的数据集包含的变量。

● 关键变量:显示用以标识和匹配不同文件的个案的变量,当两个数据文件的排列顺序不一致时,可以指定关键变量,但需要先将数据文件按照关键变量值进行升序排列。若未进行排序操作,SPSS将直接横向合并,这将导致合并错误。

● “匹配关键变量的个案”和“两个数据集中的个案都是按关键变量的顺序进行排序”复选框:选中这两个复选框,说明按关键变量选择个案,有以下三种可选项。

➢ 非活动数据集为基于关键字的表:表示关键变量只出现在源文件中,以当前源文件为基准,外部文件匹配源文件的关键变量;若匹配成功,外部文件的新变量就加入到合并后的数据集的新变量中,匹配不成功则不加入。

➢ 活动数据集为基于关键字的表:关键变量只出现在被合并的外部文件中,以外部文件为基准,源文件匹配外部文件的关键变量;如匹配成功,源文件的新变量就加入到合并后数据集的新变量中,匹配不成功则不加入。

➢ 两个文件都提供个案:表示关键变量同时出现在两个文件中。

● 将个案源表示为变量:勾选“两个数据集中的个案都是按关键变量的顺序进行排序”复选框后激活该对话框,其与图3-11的“添加个案”对话框相似。

用户在合并变量时,若两个数据文件没有共同的变量,此时不需指定关键变量,直接将所需合并的变量选入“新的活动数据集”,即可按观测量出现的顺序一对一地合并。

若两个数据文件拥有相同的变量,也有不同的变量,此时可以将相同的变量指定为关键变量,并指定当关键变量值不同时的观测量处理方法。

2.变量合并的SPSS实现

实例四:“data03-04(1).sav”与“data03-04(2).sav”分别为课程信息和任课教师信息,如图3-17所示,其中“data03-04(1).sav”缺少“课程编号”为2和3的个案,“data03-04(2).sav” 缺少“课程编号”为8和9的个案。现要求将后者中的部分变量合并到前者中,并使用三种方式处理关键变量值不同时的观测量。

图3-17 原始数据

● 第一种方式:选择“非活动数据集为基于关键字的表”选项。

(1)打开“data03-04(1).sav”,选择“数据”→“合并文件”→“添加变量”,弹出如图3-15所示对话框,选择“打开的数据集”中的“data03-04(2).sav”。

(2)单击 按钮进入下一步,弹出如图3-16所示“添加变量”对话框。勾选“匹配关键变量的个案”和“两个数据集中的个案都是按关键变量的顺序进行排序”复选框,并选中“非活动数据集为基于关键字的表”,在“已排除的变量”列表中选中“课程编号”,然后单击下面的 按钮,将“课程编号”变量选入“关键变量”列表中,同时“新的活动数据集”列表中的“课程编号”变量消失。

(3)单击 按钮,此时,SPSS会弹出一个警告框,如图3-18所示,提示用户两个文件的数据必须已按关键变量进行了升序排列,否则关键字匹配将失败。因为在合并变量前,两个数据文件的“课程编号”均进行升序排列,所以单击 按钮即可。结果如图3-19(a)所示。

图3-18 关键变量排序的警告框

● 第二种方式:选择“活动数据集为基于关键字的表”选项。

在图3-16对话框中选择并勾选“活动数据集为基于关键字的表”,其余步骤与第一种方式相同,结果如图3-19(b)所示。

● 第三种方式:选择“两个文件都提供个案”选项。

在图3-16对话框中选择“两个文件都提供个案”,勾选“将个案源表示为变量”并采用默认名称“源01”。其余步骤与第一种方式相同,结果如图3-19(c)所示。

3.变量合并的结果分析

图3-19(a)、(b)、(c)是分别选择“非活动数据集为基于关键字的表”、“活动数据集为基于关键字的表”和“两个文件都提供个案”选项处理关键变量值不同时的观测量的合并结果。

我们知道,“data03-04(1).sav”缺少“课程编号”为2和3的个案,“data03-04(2).sav”缺少“课程编号”为8和9的个案,所以,图3-19(a)图中个案8和9缺失“任课教师职称”和“任课教师所在学科”的观测量;图3-19(b)图中个案2和3缺失“学时”和“学分”的观测量;图3-19(c)图中个案2和3缺失“学时”和“学分”的观测量,个案8和9缺失“任课教师职称”和“任课教师所在学科”的观测量。

图3-19 变量合并的部分结果

①关键变量中不能有 这样的缺失值,否则系统会以为关键变量的排注意

序是按照降序排列而非升序排列,导致无法完成变量合并。②合并后的数据放在当前打开的源数据文件“data03-03(1).sav”中,保存后将直接更新此文件的内容,不可撤销;若用户希望保留源数据文件及保存合并后的数据文件,则选择“文件”→“另存为”而非“保存”即可。 Z5ZeqfgcEuaFVU/FK2/QLaB6irqABOswvNf7/p6Dt1BhZm4BOR/W96cr47dgEFfI

点击中间区域
呼出菜单
上一章
目录
下一章
×