SPSS统计分析从入门到精通（第5版）最新章节_杨维忠著

2.5　数据文件操作

当输入数据建立数据文件后，根据统计分析的要求我们可能需要对数据进行分类等处理，或者对数据文件进行相应的转换。对数据文件的正确操作对于准确地进行分析具有重要的意义。

2.5.1　数据文件的打开与保存

要进行数据分析，必须先打开一个数据文件，数据文件的打开是进行数据分析的前提；在分析结束后，如果需要保存分析的结果，此时将用到数据文件的保存功能。

1．打开数据文件

打开数据文件的具体操作步骤如下：

在菜单栏中选择“文件”|“打开”|“数据”命令，或者单击工具栏上的按钮，打开如图2-10所示的“打开数据”对话框。

选择相应的文件。如果需要打开其他数据文件，可以在“文件类型”下拉列表框中选择相应的类型。关于数据文件的转换本书后面章节会做详细介绍，这里不做深述。

双击需要打开的文件或单击“打开”按钮即可打开文件。从SPSS 15.0开始，系统支持同时打开多个数据文件，这极大地方便了用户在不同的数据文件之间进行操作。

图2-10　“打开数据”对话框

2．保存数据文件

在菜单栏中选择“文件”|“保存”命令，或者选择“文件”|“另存为”命令，或者在工具栏中单击按钮都可以实现数据文件的保存操作。

如果用户保存的是新建的数据文件，当进行以上操作时，会弹出如图2-11所示的“将数据保存为”对话框。用户可以保存所有的变量，也可以单击“变量”按钮，在弹出的“数据保存为：变量”对话框（见图2-12）中只选择要保存的变量。

图2-11　“将数据保存为”对话框

图2-12　“数据保存为：变量”对话框

除保存为SPSS数据文件外，数据文件还可以用其他的数据格式保存，在“将数据保存为”对话框的“保存类型”下拉列表框中选择数据文件的保存类型即可。

2.5.2　数据排序

杂乱的数据显然不利于分析效率的提升，有时我们希望观测量能按照某一个顺序进行排列，例如我们在评比时希望按绩效的高低对员工进行排序，此时将用到数据排序的功能。

本节将以职工平均工资分析案例讲解数据排序的具体操作。本例中，我们希望了解不同地区职工的平均工资（单位：元）情况，利用数据排序功能对不同地区职工平均工资进行排序。排序前的数据文件如图2-13所示。

图2-13　进行数据排序前的工资数据文件

排序前的数据文件中观测量的排列是混乱的，我们无法从中看出不同地区职工平均工资的高低和某一个地区职工平均工资在全国所处的位置。

下面对工资数据进行排序，具体操作步骤如下：

在菜单栏中选择“数据”|“个案排序”命令，打开如图2-14所示的“个案排序”对话框。

选择排序依据变量，然后单击按钮将选中的变量选入“排序依据”列表框中，系统允许选择多个变量，在第一变量取值相同的情况下比较第二变量，以此类推。本例中我们将对不同地区的职工工资进行排序，故将“平均工资”变量选入“排序依据”列表框中。

在“排列顺序”选项组中选择按“升序”或“降序”排列，本例中，我们希望按照由高到低的顺序进行排列，故选中“降序”单选按钮。

单击“确定”按钮，即可完成排序操作。

排序完成后的工资数据文件如图2-15所示。

图2-14　“个案排序”对话框

图2-15　进行数据排序后的工资数据文件

由图2-15可以看出，观测量已经按照平均工资的降序进行了排列，通过数据排序可以看出，西藏、青海等经济欠发达地区与北京、上海等经济发达地区属于平均工资较高的地区，此外我们也可以看出各省市在平均工资排序中的大致位置。

2.5.3　数据文件的分解与合并

有时我们需要将变量按照指定的要求进行分组，例如按照地区分析销售人员的业绩，此时要用到数据的分解功能；有时我们需要将不同的数据文件组合形成一个新的数据文件，例如要将二班的成绩和一班的成绩放在一起形成总成绩表，或者把生物成绩追加到数学和物理成绩之后，此时我们将用到数据的合并功能。

1．数据文件的分解

所谓数据文件的分解，是指将该数据文件中的所有观测量以某一个或某几个变量为关键字进行分组，以便于集中对比和操作。本节将以销售人员的业绩分析为例讲解数据文件的分解操作，本例中我们按照地区划分销售人员的业绩，以分析不同地区的销售情况。分解前的数据文件如图2-16所示。

图2-16　分解前的销售业绩数据文件（销售量单位：万件）

通过图2-16我们可以看出，数据文件是按照销售量进行排序的，对各分区的业绩考核与排序则不够直观。

数据分解的具体操作步骤如下：

在菜单栏中选择“数据”|“拆分文件”命令，打开如图2-17所示的“拆分文件”对话框。

选择文件分解方式。选中“分析所有个案，不创建组”单选按钮，系统将不进行分组操作；选中“比较组”单选按钮，系统将把各组的分析结果放在同一个表格中比较输出；选中“按组来组织输出”单选按钮，系统将按分组单独输出分析结果。本例选中“按组来组织输出”单选按钮。

选择分组方式与显示方式。选中“比较组”或“按组来组织输出”单选按钮，分组方式列表和设置文件排序方式的两个单选按钮将被激活。在列表中选择排序依据变量，然后单击按钮将选中的变量选入“分组依据”列表框中。本例将按照地区进行销售业绩的评估，故选择“地区”变量输入“分组依据”列表框。

选择排序方式。如选中“按分组变量进行文件排序”单选按钮，系统会将观测量按分组文件的顺序进行排列；如选中“文件已排序”单选按钮，则表示文件已经排序，无须系统进行排序操作。本例中的数据文件未按“地区”变量进行分组，故选中“按分组变量进行文件排序”单选按钮。

单击“确定”按钮，即可进行文件分解操作。分解完成的数据文件如图2-18所示。

由图2-18可以看出，数据已经按照地区进行了划分，我们可以很方便地了解各个地区的销售情况并进行业绩评价。

图2-17　“拆分文件”对话框

图2-18　分解后的数据文件

2．数据文件的合并

数据文件的合并分为横向合并和纵向合并。横向合并是指从外部数据文件中增加变量到当前数据文件；纵向合并是指从外部数据文件中增加观测量到当前的数据文件中。

（1）数据文件的横向合并

数据文件的横向合并也分为两种情况：一种情况是将外部数据文件的变量追加到当前数据文件中；另一种是按共同的关键变量合并。本节以学生成绩添加为例讲解数据文件的横向合并。本例中，我们希望将学生的数学成绩添加到物理成绩之后形成学生的总成绩表。横向合并前的物理成绩与数学成绩的数据文件分别如图2-19和图2-20所示。

数据文件的横向合并的具体方法如下：

①在菜单栏中选择“数据”|“合并文件”|“添加变量”命令，打开如图2-21所示的“变量添加至”对话框。

用户可以选择已经打开的数据文件，或者从外部选择一个已经保存的SPSS数据文件作为与当前文件合并的文件，选择完后单击“继续”按钮。本例选中“外部SPSS Statistics数据文件”单选按钮，然后选择“数学成绩”文件，打开如图2-22所示的“变量添加自”对话框。

图2-19　学生的物理成绩

图2-20　学生的数学成绩

图2-21　“变量添加至”对话框

图2-22　“变量添加自”对话框

②选择合并后数据文件中的变量：“排除的变量”列表框用于显示不出现在新合并的数据文件中的变量以及当前数据文件和外部数据文件中的重名变量。

“包含的变量”列表框用于显示合并后的数据集中包含的变量。变量名称后面带有“+”的表示来自外部数据文件的变量，变量名称后面带有“*”的表示当前数据文件中的变量。如果用户希望将重名变量也加入合并后的文件，可以在“排除的变量”列表框中选择该变量并单击“重命名”按钮对其重新命名，再单击按钮将该变量选入“包含的变量”列表框中，本例无须对此进行操作。

③设置关键变量：如果两个数据文件具有相同的个案数且排列顺序相同，用户无须指定关键变量。否则，需要选择关键变量并以关键变量的升序对两个数据集进行排序。只有当前数据文件和外部数据文件中的重名变量才可以作为关键变量，选中“两个数据集中的个案都按键变量的顺序进行排序”复选框并选择该变量，单击按钮将其选入“键变量”列表框中，本例由于学生的成绩均按照学号进行排序，故不必指定键变量。

选中“两个数据集中的个案都按键变量的顺序进行排序”复选框将激活下面的3个单选按钮。

非活动数据集是键控表：表示将非活动数据文件作为关键表，即只将外部数据文件中与活动数据集中对应变量值相同的观测量并入新的数据文件。

活动数据集是键控表：表示将非活动数据文件作为关键表。

两个文件都提供个案：表示将两个数据文件的所有观测量合并。

④单击“确定”按钮，即可完成文件横向合并操作。由图2-23可以看出，数学成绩已经作为一个新的变量被添加到了学生成绩表中，我们得到了一个包含数学和物理成绩的成绩总表。

图2-23　横向合并后的数据文件

（2）数据文件的纵向合并

数据文件的纵向合并只能合并两个数据文件中相同的变量。本节同样以学生成绩添加为例讲解数据文件的纵向合并。与上一个例子不同，本例中我们希望将二考场学生的数学成绩添加到一考场学生的成绩之后形成学生的总数学成绩表，其中一考场为学号1~50号的学生，二考场为学号51~80号的学生。纵向合并前的两个考场学生的数学成绩数据分别如图2-24和图2-25所示。

图2-24　一考场学生的数学成绩

图2-25　二考场学生的数学成绩

数据文件纵向合并的具体方法如下：

①在菜单栏中选择“数据”|“合并文件”|“添加个案”命令，打开如图2-26所示的“添加个案至”对话框。

本例在“外部SPSS Statistics数据文件”下选择“二考场数学成绩”文件，然后打开如图2-27所示的“添加个案自　数据集2”对话框。

②进行相应的设置。“非成对变量”列表框中显示的是未能匹配的变量，“新的活动数据集中的变量”列表框中显示的是两个数据文件中文件名和数据类型都相同的变量。对于数据类型相同而名称不同的变量，用户可以通过选择这些变量后单击“配对”按钮来匹配两个变量。

③单击“确定”按钮，即可完成文件纵向合并操作。合并后的部分数据文件如图2-28所示。

图2-26　“添加个案至”对话框

图2-27　“添加个案自　数据集2”对话框

图2-28　纵向合并后的数据文件

由图2-28可以看出，一考场的数学成绩和二考场的数学成绩已经被合并了，学号为51~80号学生的数学成绩已经被合并到了一考场学生数学成绩的后面，形成了总数学成绩单。

2.5.4　数据文件的变换

不同的分析方法需要不同的数据文件结构，当现有的观测量和变量的分布与分析的要求不一致时，我们就要对数据文件进行变换。数据文件的变换是指将数据文件的观测量与变量互换。本节将讲解数据文件的变换操作，为简便起见，我们选取20名学生的数学成绩作为其产品调查中被调查者对该产品的评分，我们希望以学号作为变量，得分作为观测量，从而得到一个调查表。变换前的数据文件如图2-29所示。

数据文件的变换操作步骤如下所示：

在菜单栏中选择“数据”|“转置”命令，打开如图2-30所示的“转置”对话框。

图2-29　变换前的数据文件

图2-30　“转置”对话框

选择要变换的变量，单击按钮将其选入“变量”列表框中。如果一个变量的所有观测量的取值各不相同，则可以将其作为名称变量，单击按钮将其选入“名称变量”列表框，如图2-31所示。如果用户不指定名称变量，系统将默认以“VAR0000X”命名变量。本例将“数学”变量选入“变量”列表框中，将“学号”选入“名称变量”列表框中。

单击“确定”按钮，即可完成文件变换操作。转置后的数据文件如图2-32所示。

从图2-32中可以看出，k_加上学生的学号成为变量，每一个相应的学号都对应着这个学生的数学成绩。

图2-31　选择变量

图2-32　转置后的数据文件

2.5.5　观测量的加权

对数据进行加权处理是我们使用SPSS提供某些分析方法的重要前提。数据在进行加权后，当前的权重将被保存在数据中。当进行相应的分析时，用户无须再次进行加权操作。本节以对广告的效果观测为例，讲解数据的加权操作。本例给出了消费者购买行为与是否看过广告之间的联系，按“是否看过广告”和“是否购买商品”两个标准，消费者被分为4类，研究者对这4类消费者分别进行了调查。由于各种情况下调查的人数不同，如果将4种情况等同进行分析，势必由于各种情况的观测数目不同导致分析的偏误，因此我们需要对观测量进行加权。加权前的数据文件如图2-33所示。