SPSS统计分析从入门到精通（第5版）最新章节_杨维忠著

3.4　列联表分析

3.4.1　列联表分析简介

列联表是将观测数据按不同属性进行分类时列出的频数表。列联表分析常用于分析离散变量的名义变量和有序变量是否相关，在市场调查和分析中具有广泛的应用。

SPSS的交叉表分析过程可以对计数资料和某些等级资料进行列联表分析，并对二维和多维列联表资料进行统计描述和卡方检验，并计算相应的百分数指标。此外，SPSS的交叉表分析过程还可以进行费希尔精确检验、对数似然比检验等统计检验并输出相关的统计量。下面是在列联表分析中用到的一些统计量。

（1）总体分布检验时的卡方检验统计量。计算公式如（3-11）所示：

式中 k 为子集个数， f _i 为落入第 i 个子集的实际观测值频数， E _i 是落入第 i 个子集的理论频数，它等于变量值落入第 i 个子集的频率 p _i （按照假设的总体分布计算）与观测值个数 n 的乘积 E _i = np _i ，如果分布的假设为真，则统计量 χ ² 服从自由度为 k -1的卡方分布。注意：一般要求 E _i 大于5，如果不满足要求，可以与相邻子集合并。

（2）列联分析中的卡方检验统计量。计算公式如（3-12）所示：

式中 k 为列联表行数，为列联表列数， F _ij 为观测频数， E _ij 为期望频数。如果行列间的变量是相互独立的，则统计量 χ ² 服从自由度为( k -1)( r -1)的卡方分布。

（3）似然比统计量。似然比卡方统计量适用于名义尺度的变量，其统计量公式为（3-13）：

式中的字母含义同卡方统计量。当样本很大时，与卡方统计量接近，检验结论与卡方检验是一致的。

（4）列联系数。列联系数适用于名义尺度的变量，其统计量公式为（3-14）：

χ ² 含义见卡方检验统计量， n 为样本容量。列联系数趋于1时，两类变量相关程度越好。

（5） ph _i 系数。 ph _i 系数适用于名义尺度的变量，其统计量公式为（3-15）：

ph _i 系数是对 χ ² 统计量的修正。

3.4.2　列联表分析的SPSS操作

打开相应的数据文件或建立一个数据文件后，可以在SPSS Statistics数据编辑器窗口中进行列联表分析。

（1）在SPSS Statistics数据编辑器窗口的菜单栏中选择“分析”|“描述统计”|“交叉表”命令，打开如图3-32所示的“交叉表”对话框。

（2）选择变量。在源变量列表框中选择行变量，然后单击按钮将选中的变量选入右侧“行”列表框中，将列变量选入右侧“列”列表框中；如果有分层变量，则将其选入右侧的“层1/1”列表框中。

图3-32　“交叉表”对话框

“行”列表框：该列表框中的变量为交叉分析表的行变量，变量的属性一般为数值型变量或字符型变量。

“列”列表框：该列表框中的变量为交叉分析表的列变量，变量的属性一般为数值型变量或字符型变量。

“层1/1”列表框：该列表框中的变量为交叉表格分析中分层变量，该变量主要用于对频数分布表进行分层，对每一层都可以进行行和列的交叉表格分析。如果需要加入新的分层变量，单击“下一个”按钮；如果需要修改已经加入的分层变量，单击“上一个”按钮返回即可。

（3）进行相应的设置。

1．“精确检验”设置

单击“精确”按钮，弹出如图3-33所示的“精确检验”对话框。该对话框主要用于设置计算显著性水平的方法，有3种方法。

图3-33　“精确检验”对话框

①“仅渐进法”单选按钮：该方法适用于具有渐进分布的大样本数据，基于统计量的渐进分布计算相应的显著性水平（显著性），当输出的显著性水平低于临界值时，认为是显著的且可以拒绝原假设。

②“蒙特卡洛法”单选按钮：该方法不需要样本数据具有渐进分布的前提假设，为精确显著性水平的无偏估计，是非常有效的计算确切显著性水平的方法。在“置信度级别”文本框中输入置信水平来确定置信区间的范围（默认为99%），在“样本数”文本框中输入样本的抽样次数（默认为10000次）。

③“精确”单选按钮：该方法表示给定时间限制下计算统计量的显著水平（显著性），一般在给定时间限制的情况下，使用精确方法代替蒙特卡洛估计法。另外，对于非渐进方法，计算检验统计量时，总是将单元格计数四舍五入或舍位。系统默认的精确检验方法为“仅渐进法”。

2．“统计”设置

单击“统计”按钮，弹出如图3-34所示的“交叉表：统计”对话框。该对话框用于设置输出的统计量。各选项（统计量）（组）含义介绍如下：

①“卡方”复选框：选中该复选框，表示对行变量和列变量的独立性进行卡方检验。

②“相关性”复选框：主要对变量进行相关系数检验，包括斯皮尔曼相关系数检验和Person相关系数检验。Person相关系数检验是按区间检验，斯皮尔曼相关系数检验则是按照顺序检验。

图3-34　“交叉表：统计”对话框

③“Kappa”复选框：主要通过输出Cohen’s Kappa统计量来衡量对同一对象的两种评估是否具有一致性，取值范围为0～1，1表示完全一致，0表示完全不一致。该统计量仅仅适用于行变量和列变量取值个数和范围一致时的情况。

④“风险”复选框：用来衡量某事件（行变量）对某因素（列变量）的影响大小。建议仅对无空单元格的二维表计算。

⑤“麦克尼马尔”复选框：该复选框通过输出麦克尼马尔-Bowker统计量来对二值变量的非参数检验，利用卡方分布对响应变化进行检验，例如可以用来检验车祸前和车祸后，司机对安全意识的变化。该检验仅仅在行变量和列变量相等时才可以使用。

⑥“柯克兰和曼特尔-亨塞尔统计”复选框：该复选框是对一个二值因素变量和一个二值响应变量的独立性进行检验，在“检验一般比值比等于”文本框中输入一个正数（默认为1）。

⑦“名义”选项组：该选项组主要用于名义变量统计量的定制，包括4个复选框。

列联系数：表示基于卡方检验的相关性的检验，取值在0~1，0表示完全不相关，1表示完全相关。

Phi和克莱姆V：同样是两个表示相关性的检验统计量。

Lambda：对有序变量相关性的度量，取值在-1~1，-1表示完全负相关，1表示完全正相关，0表示完全不相关。

不确定性系数：表示用一个变量预测其他变量时的预测误差降低比例，取值在0~1，0表示完全不能预测，1表示预测完全准确。

⑧“有序”选项组：该选项组用于有序变量统计量的定制，包括4个复选框。

Gamma：该统计量是对两个有序变量相关性的对称度量，取值在-1~1，-1表示变量之间完全负相关，1表示完全正相关，0表示完全无关。

萨默斯d：该统计量是对两个有序变量相关性的非对称度量，取值在-1~1，-1表示变量之间完全负相关，1表示完全正相关，0表示完全无关。

肯德尔tau-b：该统计量是对有序变量相关性的非参数检验，取值在-1~1，-1表示变量之间完全负相关，1表示完全正相关，0表示完全无关。

肯德尔tau-c：该统计量同样是对有序变量相关性的非参数检验，不过计算时不考虑相同的观测值，取值同样在-1~1。

⑨“按区间标定”选项组：该选项组用于检验一个连续变量和一个分类变量的相关性，仅有一个Eta复选框，输出的是两个值，分别将列变量和行变量作为因变量进行计算，取值在0~1，0表示完全不相关，1表示完全相关。

图3-35　“交叉表：单元格显示”对话框

3．“单元格”设置

单击“单元格”按钮，弹出如图3-35所示的“交叉表：单元格显示”对话框。该对话框用于设置输出的统计量。

①“计数”选项组：该选项组用于对输出的观测值数量进行设置，包括3个复选框：

“实测”复选框：表示按照变量观测值的实际数目显示。

“期望”复选框：表示输出的是期望的观察值数目。

“隐藏较小的计数（H）”复选框：表示且在“小于”文本框中输入数字，将隐藏小于该数的计数。

②“百分比”选项组：该选项组用于对百分比进行设置，包括3个复选框：

“行”表示要输出行方向的百分比。

“列”表示要输出列方向的百分比。

“总计”表示要输出行或列方向总的百分比。

③“Z-检验”选项组：该选项组用于检验表中每列的比例是否相等，可设置输出拜弗伦尼校正后的检验显著性。

④“残差”选项组：该选项组用于对残差进行设置，包括3个复选框：

“未标准化”表示输出的残差没有经过标准化处理，为原始残差。

“标准化”表示输出的残差是经过标准化处理后的残差，即原始残差除以标准差后的残差。

“调整后标准化”表示输出的是经过标准误差调整之后的残差。

⑤“非整数权重”选项组：该选项组用于对加权处理的非整数频数进行取整的设置，有5种方法：

单元格计数四舍五入：表示对加权处理后的频数进行四舍五入取整。

个案权重四舍五入：表示对加权处理前的频数进行四舍五入取整。

截断单元格计数：表示对加权处理后的频数进行截断舍位取整。

截断个案权重：表示对加权处理前的频数进行截断舍位取整。

不调整，表示不对频数做任何调整。

4．“格式”设置

单击“格式”按钮，弹出如图3-36所示的“交叉表：表格式”对话框。该对话框用于设置输出结果的显示顺序。设置完毕后，单击“确定”按钮，就可以在SPSS Statistics查看器窗口得到交叉表格分析的结果。

图3-36　“交叉表：表格式”对话框

3.4.3　实验操作

下面以数据文件“3-4”为例，说明交叉表格分析的具体操作过程。

1．实验数据描述

数据文件“3-4”来源于山东人民出版社出版的《常用统计分析方法》。调研人员为了调查男性和女性购车者在购车方面的观点，调查了一百名购车人，分析性别对安全措施的偏好是否有联系。其中，数据文件提供的安全措施有“ABS刹车”“改良悬架”“气袋”“自动门锁”和“电路控制”。原始Excel数据文件如图3-37所示。

在SPSS的变量视图中，建立“安全措施”与“性别”变量，分别表示购车者最注重的安全措施和购车者的性别，如图3-38所示。

图3-37　数据文件“3-4”的原始数据

图3-38　数据文件“3-4”的变量视图

在SPSS活动数据文件中的数据视图中，把相关数据输入到各个变量。其中，在“安全措施”变量中将“ABS刹车”“改良悬架”“气袋”“自动门锁”和“电路控制”分别赋值为“1”“2”“3”“4”和“5”；在“性别”变量中将“男”和“女”分别赋值为“1”和“0”。输入完毕后的部分数据如图3-39所示。

图3-39　数据文件“3-4”的数据视图

2．实验操作步骤

打开数据文件“3-4”，进入SPSS Statistics数据编辑器窗口，在菜单栏中选择“分析”|“描述统计”|“交叉表”命令，打开“交叉表”对话框。

将“性别”变量选入“行”列表框，将“安全措施”选入“列”列表框。

单击“精确”按钮，在弹出的“精确检验”对话框中选中“仅渐进法”单选按钮；单击“统计”按钮，在弹出的“交叉表：统计”对话框中选中“卡方”复选框；单击“单元格”按钮，在弹出的“交叉表：单元格显示”对话框中选中“实测”复选框和“单元格计数四舍五入”单选按钮；单击“格式”按钮，在弹出的“交叉表：表格式”对话框中选中“升序”单选按钮。

在“交叉表”对话框中选中“显示簇状条形图”复选框，然后单击“确定”按钮即可输出交叉表格分析的结果。

3．实验结果及分析

SPSS Statistics查看器窗口的输出结果如图3-40~图3-43所示。

图3-40给出了交叉表格分析中的变量样本数据的有效个数和百分比、缺失个数和百分比及总计个数和百分比。从图中可以看出本实验中无数据缺失。

图3-41给出了性别对安全措施的二维交叉表格，每个单元格中都给出了每种组合的实际频数，即对原始数据的表示。通过“性别*安全措施交叉表”可以看出样本数据中女性有5人选择了ABS刹车，男性有15人选择了ABS刹车，总共有20人选择了ABS刹车。

图3-40　个案处理摘要

图3-41　性别*安全措施交叉表

图3-42给出了对行变量和列变量是否独立的卡方检验。对于本实验而言，卡方检验的原假设是：不同性别对选择安全措施无显著影响。“值”表示检验统计量的值，“自由度”表示检验的自由度，“渐进显著性（双侧）”表示双侧检验的显著水平。从“卡方检验”中可以看出，皮尔逊卡方检验、似然比、线性关联检验都显示为0.001，显然拒绝原假设，即认为性别对选择安全措施有显著的影响，女性和男性在选择安全措施方面显著不同。

图3-43给出了按性别分类的频数分布条形图，条形图中给出了相应性别选择不同安全措施的频数。通过“条形图”可以看出不同的性别对安全措施的选择显著不同，如女性选择最多的安全措施是自动门锁，而男性选择自动门锁的人数则最少。

图3-42　卡方检验

图3-43　条形图

3.4 列联表分析

3.4.1 列联表分析简介

3.4.2 列联表分析的SPSS操作