购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.8 数据合幵

下载资源:\video\第2章\2.8

下载资源:\sample\数据2\儿童生长发育指标数据A部分、儿童生长发育指标数据B部分、儿童生长发育指标数据C部分、儿童生长发育指标数据D部分

2.8.1 按照样本观测值合并数据文件

在进行数据处理时,我们往往需要将两个结构相同或部分结构相同的数据文件合并成一个文件。例如,两个公司发生了兼并,需要将这两家公司的员工信息表合并为一张信息表;又如,某公司领导想将员工的绩效考核数据和工资薪酬数据放在一起进行分析,这时就需要将员工绩效考核信息表和员工工资薪酬信息表合并。

SPSS中的数据合并分为两种:一种是观测值的合并,因为观测值在SPSS的数据视图中是以行来呈现的,所以又被称为纵向合并,也就是将两个有相同变量但不同观测值的数据合并;另一种是变量的合并,因为变量在SPSS的数据视图中是以列来呈现的,所以又被称为横向合并,也就是将描述同一组观测样本的不同变量合并为一个数据文件,新的数据文件将包含合并前的所有数据变量。

本节介绍如何按样本观测值合并数据文件,即纵向合并。这将增加观测量,即把一个外部文件中与源文件具有相同变量的观测量合并到当前工作文件中。这种合并要求两个数据文件至少应具有一个属性相同的变量,即使它们的变量名不同。下面以“儿童生长发育指标数据A部分”和“儿童生长发育指标数据B部分”数据文件的合并为例进行讲解。

选择“数据|合并文件|添加个案”命令,弹出“添加个案至儿童生长发育指标数据A部分.SAV”对话框,如图2.65所示。

图2.65 “添加个案至儿童生长发育指标数据A部分.SAV”对话框

在“从打开的数据集的列表中或者从文件中选择数据集,以便将其与活动数据集合并”选项组中,选中“外部SPSS Statistics数据文件”单选按钮,然后单击“浏览”按钮,弹出“添加个案:读取文件”对话框,如图2.66所示。

图2.66 “添加个案:读取文件”对话框

选定数据文件“儿童生长发育指标数据B部分.SAV”,单击“打开”按钮,打开“添加个案至儿童生长发育指标数据A部分.SAV”对话框,再单击“继续”按钮,弹出“添加个案自……”对话框,如图2.67所示。

● “非成对变量”列表框用于列出两个文件中的不成对变量,即变量名和变量类型不匹配的变量,其中用“*”标记的属于正在打开的活动数据集,本例中为“儿童生长发育指标数据A部分”,用“+”标记的属于外部文件,本例中为“儿童生长发育指标数据B部分”。

● “新的活动数据集中的变量”列表框用于列出两个数据文件中变量名和变量类型都匹配的相同变量。

● “指示个案源变量”复选框将在合并后的文件中建立一个名为source0l的变量。此变量仅有两个值:0和1,分别标记观测量属于当前工作文件和外部文件。

图2.67 “添加个案自……”对话框

本例中,“儿童生长发育指标数据A部分”和“儿童生长发育指标数据B部分”两个数据文件的变量是完全一致的,因此它们都进入“新的活动数据集中的变量”列表框。此时保持系统默认设置即可。如果这两个数据文件的变量类型相同,但变量名不同,可以同时选中它们,单击“配对”按钮,将它们移至“新的活动数据集中的变量”列表框。

在合并后的新文件变量列中,两个数据文件的观测值会被合并在一起。如果要为“非成对变量”列表框中的变量重命名,选中该变量并单击“重命名”按钮,打开“重命名”对话框,输入新名称,然后单击“继续”按钮返回主对话框。

对“非成对变量”列表框中分属两个文件的变量进行配对时,要求它们必须具有相同的变量类型。变量宽度可以不同,但属于工作文件(本例中为“儿童生长发育指标数据A部分”)的变量宽度应大于或等于外部文件(本例中“为儿童生长发育指标数据B部分”)中的变量宽度。若情况相反,则外部文件中被合并的观测量中相应的观测值可能无法显示,而会在单元格中以若干“*”标记。

如果希望变量名和类型变量均不匹配的变量出现在新数据文件中,那么选中该变量,单击 按钮,将它移到“新的活动数据集中的变量”列表框。设置完毕后,单击“确定”按钮执行合并,便可得到合并后的数据文件。需要注意的是,如果要将“非成对变量”列表框中分属两个文件的类型不同的变量配对,那么在合并后的新文件中,这两个变量将不会出现。本例中,可以保持系统默认设置。合并完成后的数据集如图2.68所示。可以发现,“儿童生长发育指标数据A部分”的样本观测值扩充到了67个,与“儿童生长发育指标数据B部分”完成了合并。

图2.68 合并后的数据

2.8.2 按照变量合并数据文件

按照变量合并数据文件是指将一个外部文件中的若干变量添加到当前工作文件中,这种方法也被称为横向合并。在按照变量合并数据文件时,要求参与合并的两个数据文件必须具有一个共同的关键变量,而且这两个文件中的关键变量还必须具有相等数量的观测值。所谓关键变量,指的是两个数据文件中变量名、变量类型、变量值排序完全相同的变量。本节以“儿童生长发育指标数据C部分”和“儿童生长发育指标数据D部分”数据文件的合并为例进行讲解。

选择“数据|合并文件|添加变量”命令,弹出“变量添加至儿童生长发育指标数据C部分.SAV”对话框,如图2.69所示。在“从打开的数据集的列表中或者从文件中选择数据集,以便将其与活动数据集合并”选项组中,选中“外部SPSS Statistics数据文件”单选按钮,单击“外部SPSS Statistics数据文件”下的“浏览”按钮,弹出“添加变量:读取文件”对话框,如图2.70所示。

图2.69 “变量添加至……”对话框

图2.70 “添加变量:读取文件”对话框

选定数据文件(此处以本书附带的“儿童生长发育指标数据D部分.SAV”为例),选中后单击“打开”按钮,返回“变量添加至儿童生长发育指标数据C部分.SAV”对话框,再单击“继续”按钮,弹出“变量添加自……”对话框。

选择“合并方法”。“合并方法”选项卡如图2.71所示。本例采取系统默认设置。

● 基于文件顺序的一对一合并:这是按关键变量匹配观测量的系统默认选项,表示按照“选择查找表”选项组中列出的顺序将两个数据文件的所有观测量合并。合并结果是凡是关键变量值相等的合并为一个观测量;如果在参与合并的文件中找不到相等的关键变量值,就将其合并为一个独立的观测量,即在新文件中单独作为一个观测量(相当于增加一个观测量),而缺少的变量值作为缺失值。

● 基于键值的一对一合并:表示将非活动数据文件作为关键表,即只将外部数据文件中与活动数据集中对应变量值相同的观测量并入新的数据文件。

● 基于键值的一对多合并:表示合并后保留当前外部文件中的观测量,且只有当前工作文件中与外部文件关键变量值相等的观测量才被合并到新文件中。

选择“变量”。“变量”选项卡如图2.72所示。本例采取系统默认设置。

图2.71 “合并方法”选项卡

图2.72 “变量”选项卡

● “排除的变量”列表框中列出的是外部文件(本例中为儿童生长发育指标数据D部分)与工作文件(本例中为儿童生长发育指标数据C部分)中重复的同名变量,本例中没有显示。

● “包含的变量”列表框中列出的是进入新的工作文件的变量,分别用“+”和“*”来标记外部文件(本例中为儿童生长发育指标数据D部分)和活动文件(本例中为儿童生长发育指标数据C部分)。

● “键变量”列表框中列出的是关键变量,指的是两个数据文件中变量名、变量类型、变量值排序完全相同的变量。

特别提示

如果两个文件含有相等的观测量,而且分类排序顺序一致,一一对应,就无须指定关键变量,直接单击“确定”按钮进行合并即可。

如果两个文件含有数目不等的观测量,且分类排序顺序不一致或没有一一对应关系,则需在合并之前先对数据文件按关键变量进行升序排序,然后在“排除的变量”列表框中选择一个关键变量,移至“键变量”列表框中。

本例中,默认合并方法为“基于键值的一对一合并”,表示将非活动数据文件作为关键表,即只将外部数据文件中与活动数据集中对应变量值相同的观测量并入新的数据文件。以上选项确定后,单击“确定”按钮,合并结果如图2.73所示。可以发现,相较于合并之前的儿童生长发育指标数据C部分文件,多了y2、y3两个变量,实现了与儿童生长发育指标数据D部分的合并。

图2.73 合并后的数据 qYXqijutFOslCbuwXOdlknjUZvQ3KqQ5+kq7UdZ3ZcNeZnVG2o62gGZRFbXdKGAL

点击中间区域
呼出菜单
上一章
目录
下一章
×