在考虑变量之间的关系时,我们通常计算摘要变量之间的相关程度。对于数值型变量,通常计算相关系数和进行回归分析,而对于定类型变量则采用列联表过程进行分析。列联表给出了多个变量在不同取值下的数据分布,从而确定摘要变量之间的相互关系。
对于数值型变量,我们考虑其相关关系的通常办法是计算相关系数和进行回归分析,如果要研究离散变量的名义变量和有序变量有无相关,最常用的检验办法是列联表独立检验。列联表独立检验的零假设是两个变量X和Y相互独立,计算一个χ统计量,与列联表中频数取值和零假设下期望取值之差有关,当χ很大时否定零假设。
调用列联表分析过程可进行计数资料和某些等级资料的分析,一个行变量和一个列变量可以形成一个二维列联表,再指定一个控制变量就形成一个三维列联表,如果指定多个行、列、控制变量,就会形成一个复杂的多维列联表。在分析中,可对二维和多维列联表(RC表)资料进行统计描述和χ检验,并计算相应的百分数指标。此外,还可计算四格表确切概率且有单双侧(One-Tail、Two-Tail)、对数似然比检验(Likelihood Ratio)及线性关系的Mantel-Haenszel χ检验。
在数据窗口建立或打开一个数据文件后,就可进行列联表分析了。
在主菜单栏中选择“分析”菜单,选择“描述统计”子菜单,然后选择“交叉表”命令,即可打开“交叉表”对话框,如图3-24所示。
图3-24 “交叉表”对话框
“交叉表”对话框的中间为“行”列表框,该框中为分布表中的列变量,列变量必须是数值型或字符串型等分类变量。
“行”列表框下方为“列”列表框,该框中的变量作为分布表中的行变量,和行列表框的要求一样,必须是数值型或字符串型等分类变量。
“层1/1”组中的变量作为控制变量,将决定频数分布表中的层。可以有多个控制变量,如果要增加一个新的控制变量,可单击“下一个”按钮,然后再选入一个变量;如果要修改已经选入的变量,单击“上一个”按钮即可。
“交叉表”对话框的下方有两个复选框:“显示簇状条形图”复选框表示显示每一组中各变量的分类条形图;“禁止显示表”复选框表示只输出统计量,不输出多维列联表。
单击“精确”按钮即可打开如图3-25所示的“精确检验”对话框,该对话框用于定义确切概率的计算。“仅渐进法”表示只计算近似概率;“蒙特卡洛法”表示用蒙特卡洛法计算精确概率,可自行设置置信度级别和样本数;“精确”表示在给定时间内计算精确概率的值,如果超出给定时间则停止计算。
图3-25 “精确检验”对话框
下面对“统计”“单元格”“格式”3个按钮进行简单介绍。
I 统计对话框
单击“统计”按钮即可打开如图3-26所示的“交叉表:统计”对话框,该对话框用于设置列联表输出的内容和形式。
图3-26 “交叉表:统计”对话框
(1)“卡方”复选框。该框表示是否进行卡方检验。通常情况下显示皮尔逊卡方检验、似然比卡方检验、线性相关卡方检验、费希尔精确检验、耶茨校正卡方检验的检验结果。
这几种检验的作用是不同的。皮尔逊卡方检验常用在二维表中对行变量和列变量进行独立性假设检验,似然比卡方检验可以用于对数线形模型的检验。费希尔精确检验和耶茨校正卡方检验也存在差别,当样本数小于40或一个单元格中的期望频数小于3时,使用费希尔精确检验;当样本数大于或等于40,至少有一个单元格中的期望频数小于3时,使用费希尔精确检验;当样本数大于或等于40,至少有一个单元格中的期望频数大于3时,使用耶茨校正卡方检验。
(2)“相关性”复选框。选中该框将进行相关系数的检验,有两项结果显示:Pearson相关系数(r)用来检验两个变量的线性相关程度;Spearman相关系数用来检验秩序之间的关联程度。其值都在-1到1之间,-1表示完全负相关,1表示完全正相关,0意味着不相关。
(3)“名义”栏。该栏适用于定义分类变量的相关性指标,共有4个复选框。
①“列联系数”复选框。该复选框表示基于卡方检验基础的相关性的检验。其数值在0和1之间,但不可能达到1,其值为0时表示行和列变量之间不相关,其值越靠近1,表明变量间的相关性越强。其值的大小与表中行列数目有关。计算公式为
其中,N为样本数量。
②“Phi和克莱姆V”复选框。该复选框也是用来刻画相关性的,Phi系数是基于卡方检验基础的,其计算公式为
克莱姆系数的计算公式为
其中,k为行变量、列变量水平数中较小的一个。
③“Lambda”复选框。当用自变量预测因变量时,Lambda系数反映这种预测降低错误的比率。Lambda系数为1时,表明自变量完全预测因变量;Lambda系数为0时,表明预测完全没有效果。
④“不确定性系数”复选框。选中该框将显示不确定性系数,表示用一个变量来预测其他变量时降低错误的比率。例如,不确定性系数为83%时,用一个变量预测其他变量时,可以减少83%的错误。不确定性系数有对称和不对称两种。
(4)“有序”栏。该栏适用于有序变量,用于定义有序变量的相关性系数,共有4个复选框。
①“Gamma”复选框。Gamma系数反映两个有序变量间的对称相关性,其值在-1到1之间。当Gamma系数的绝对值靠近1时,两个变量有很强的关联;当Gamma系数的值靠近0时,两个变量有很小的相关性或没有相关性。在二维列联表中,显示0阶Gamma值;在高维列联表中,显示条件Gamma值。
②“萨默斯d”复选框。该检验是Gamma检验的非对称推广,二者的不同之处仅在于根据自变量配对的成对数据的含量。和Gamma检验一样,该值在-1到1之间。当其绝对值靠近1时,两个变量有很强的关联;当值靠近0时,两个变量有很小的相关性或没有相关性。
③“肯德尔tau-b”复选框。该复选框是对有序变量或秩变量相关性的非参数检验,把有相同值的观测量也列入计算过程中。该系数的符号表明相关性的方向,绝对值表明相关性的大小,绝对值越大,相关性越大;绝对值越小,相关性越小。取值范围在-1到1之间,只有在正方形列联表中才有可能取1或-1。
④“肯德尔tau-c”复选框。该检验和肯德尔tau-b检验的不同点在于,采用该检验时将相同的观测值从计算中剔除。取值范围在-1到1之间,符号表明相关性的方向,绝对值表明相关性的大小,绝对值越大,相关性越强;绝对值越小,相关性越弱。只有在正方形列联表中才有可能取1或-1。
(5)“按区间标定”栏。该栏只有一个复选框“Eta”,用于检验相关性,其值在0到1之间,值为0表明没有相关性,值越接近似1表明相关性超强。该检验适用于因变量是区间变量(如收入),而自变量取有限分类值(如性别)的相关性分析。有两个Eta值可用,一个适用于行变量为区间变量,另一个适用于列变量为区间变量。
(6)“Kappa”复选框Cohen's Kappa系数用来检验内部一致性,即两个评估人对同一对象的评估是否具有一致性,其值在0到1之间,1表明两种评估完全一致,0表明两种评估没有共同点。仅适用于两个变量使用同一个分类变量且分类值一样的情况。
(7)“风险”复选框。该复选框用于检验某事件发生和某因子之间的关系,如可以检验肺癌和吸烟的关系。
(8)“麦克尼马尔”复选框。选中该框将进行两个相关的二值变量的非参数检验,例如,用卡方分布检验响应的变化,该检验只有在行列数相等时才能用。在“实验前和实验后”的因素设计中,该检验对探测由于实验干扰而产生反应的变化十分有效。一般情况下,显著水平小于0.03即被认十分有效。
(9)“柯克兰和曼特尔-亨塞尔统计”复选框。选中该框将进行一个二值因素变量和一个二值相应变量的独立性检验和齐次性检验,在“检验一般比值比等于:”框中只能输入正数,系统默认值为1。
设置完毕后单击“继续”按钮,确认选择并返回“交叉表”主对话框。
II 单元格对话框
单击“单元格”按钮,打开如图3-27所示的“交叉表:单元格显示”对话框。在该框中可以选择在列联表中输出的统计量,包括计数、百分比、残差、z-检验和非整数权重。
图3-27 “交叉表:单元格显示”对话框
(1)“计数”栏。用于定义输出频数,包括实测、期望和隐藏较小的计数3种。选择“实测”表示输出观测值的实际数量;选择“期望”表示如果行、列变量在统计上是独立的或不相关的,将在单元格中输出期望的观测值的数量;选择“隐藏较小的计数”表示可以设置将小于某数的计数隐藏,便于显示。
(2)“百分比”栏。该栏用于定义需要计算的百分数,包括行、列和总计。
选择“行”表示输出单元格中观测量的数目占整行观测量数目的百分比;选择“列”表示输出单元格中观测量的数目占整列观测量数目的百分比;选择“总计”表示输出单元格中观测量的数目占全部观测量数目的百分比。
(3)“残差”栏。
①“未标准化”复选框。选中该框,表示计算非标准化残差。残差是观察值和期望值之差,由此可见,正的残差意味着行、列变量相互独立时,单元格中的观测值比应该出现的值要大。
②“标准化”复选框。选中该框表示计算标准化残差,即上述残差除以标准差,其均值等于0,标准差等于1。
③“调节后标准化”复选框。选中该框,表示计算调整后残差。
(4)“z-检验”栏。选中“比较列比例”复选框可以调整文件列的比例。
(5)“非整数权重”栏。当频数因为加权而变成小数时,选择该选项可以对频数进行取整。其中包括5种取整方法:“单元格计数四舍五入”表示对加权处理后的频数进行四舍五入取整;“个案权重四舍五入”表示对加权样本在使用前进行四舍五入取整;“截断单元格计数”表示对加权处理后的频数进行舍位取整;“截断个案权重”表示对加权样本在使用前进行舍位取整;“不调整”表示不进行调整。
设置完毕后单击“继续”按钮,确认选择并返回“交叉表”主对话框。
III 表格式对话框
单击“格式”按钮,即可打开“交叉表:表格式”对话框,如图3-28所示。
图3-28 “交叉表:表格式”对话框
在“行顺序”栏中可以决定各行的排列顺序:“升序”表示将各行变量值按升序排列;“降序”表示将各行变量值按降序排列。
设置完毕后,单击“继续”确认选择并返回“交叉表”主对话框。完成所有设置后,单击“确定”按钮执行列联表分析。
四格卡方检验和R×S卡方检验是“交叉表”过程中最常用的功能,下面以数据文件“吸烟与气管炎.sav”为例进行简单说明。
“吸烟与气管炎.sav”数据文件来源于339名50岁以上的人的吸烟习惯与患慢性气管炎病的数据,数据来源于复旦大学出版社出版的《概率论》,以此数据文件为例探讨吸烟者与不吸烟者患慢性气管炎的概率的不同,说明吸烟与患慢性气管炎之间的关系。
在进行相关分析之前,首先建立如图3-29所示的数据文件。
图3-29 吸烟与气管炎的SPSS数据文件
I 操作步骤
先对数据进行预处理。单击“数据”菜单,选择“加权个案”选项,弹出“加权个案”对话框,选中“加权个案”单选框,单击
按钮将变量“count”放入“频率变量”框中,单击“确定”按钮完成加权。
然后按“分析”→“描述统计”→“交叉表”顺序单击,打开“交叉表”主对话框。
将“smoke”变量选入行框中,作为行变量,然后将“result”变量选入列框中,作为列变量。同时选中“显示簇状条形图”复选框,选择绘制分组条图。
然后单击“统计”按钮,打开“交叉表:统计”对话框,选中“卡方”,然后单击“继续”按钮,确认选择并返回主对话框。
设置结束,单击“确定”按钮完成设置并执行列联表分析。
II 输出结果及分析
上述操作的语法程序语句如下所示。
执行操作后,产生了4个图表,包括统计摘要表、列联表、卡方检验表和分组条图。下面对生成的结果进行分析。
表3-13给出了数据的基本情况。
表3-13 统计摘要表
表3-14给出了数据的2×2列联表,与原始数据在形式上基本是一致的。
表3-14 列联表
表3-15给出了数据的卡方检验结果,共使用了5种检验方法,计算的统计量主要包括检验统计量(Value)、自由度(df)、双侧近似概率(Asymp.Sig.2-sided)、双侧精确概率(精确Sig.2-sided)、单侧精确概率(精确Sig. 1-sided)。
表3-15 卡方检验表
a.仅对一个2×2表格进行计算
b. 0单元格的期望值小于5,表格最小期望值为22.14
从表3-15中可以看出,各种检验方法的显著水平都远小于0.05,所以有理由拒绝吸烟与患支气管炎是独立的原假设,认为吸烟与患支气管炎是相关的。
表3-15下方注释b为“0单元格的期望值小于5,表格最小期望值为22.14”,主要用于决定选择何种卡方检验方法的结果。
图3-30所示相当于表3-14的直观表示。本例虽然不能直接从图形中得出结论,但图形还是明确而且直观地说明了很多问题。
图3-30 分组条图