卡方检验的目的就是通过样本数据的分布来检验总体分布与期望分布或某一理论分布是否一致,零假设是样本的总体分布与期望分布或某一理论分布无显著差异。
卡方检验基本思想是,如果从一个随机变量X中随机抽取若干个观察样本,当这些样本落在X的k个互不相关的子集中的观察频数服从一个多项分布,当k趋于无穷时,这个多项分布服从卡方分布,根据这个思想,对变量X总体分布的检验可从各个观察频数的分析入手。
在零假设成立的前提下,如果变量值落在第i个子集中的概率为p i ,相对应的期望频数为n p i ,期望频数的分布代表了零假设成立时的理论分布,可以采用卡方统计量来检验实际分布与期望的分布之间是否存在显著差异。典型的卡方统计量是Pearson统计量,定义为:
X 2 服从 k-1 个自由度的卡方分布。当X 2 值越大,说明观测频数分布与期望分布差距越大。SPSS会自动计算X 2 值,并依据卡方分布表计算对应的概率p值。
如果p值小于显著性水平,拒绝零假设,认为总体分布与期望分布或某一理论分布有显著差异;反之,如果p值大于显著性水平,接受零假设,认为总体分布与期望分布或某一理论分布一致。
(1)打开数据文件,选择“分析”→“非参数检验”→“旧对话框”→“卡方”,弹出“卡方检验”对话框,如图6-1所示,各项含义如下。
● 检验变量列表:将左侧的变量列表中的变量选入其中。
● 期望全距。
➢ 从数据中获取:表示选择的检验变量的所有数据都参与检验。
➢ 使用指定的范围:自定义一个取值范围,在下限和上限输入框中输入整数值,只有在这个范围内的数据参与检验。
● 期望值。
➢ 所有类别相等:所有类别都具有相等的期望值,表示期望分布为均匀分布。
➢ 值:用户可以在框中输入期望频数值,通过 、 、 按钮来自定义一个期望分布,如1:2:3:1:2,值的顺序很重要,该顺序与检验变量的类别值的升序相对应。
图6-1 “卡方检验”对话框
(2)单击 按钮,弹出“精确检验”对话框,如图6-2所示,各项含义如下。
● 仅渐进法:适用于样本数据服从渐进分布或样本较大。
● Monte Carlo:适用于样本不满足渐进分布或样本很大。
● 精确:适用于小样本,系统默认的每个检验的时间限制为5分钟。
图6-2 “精确检验”对话框
(3)单击 按钮,弹出“卡方检验:选项”对话框,如图6-3所示,各项含义如下。
● Statistics:设置输出的统计量。
➢ 描述性:输出检验变量的描述统计量。
➢ 四分位数:输出检验变量的第25、50、75百分位数。
● 缺失值:设置缺失值处理方式。
➢ 按检验排除个案:在分析过程中,仅剔除在该变量上为缺失值的个案。
➢ 按列表排除个案:剔除含有缺失值的所有个案。
图6-3 “卡方检验:选项”对话框
实例一:“data06-01.sav”数据文件是把骰子掷30次后点数的统计,如图6-4所示。现要求利用卡方检验对骰子的点数是否是均匀分布进行检验。
图6-4 “data06-01.sav”数据
(1)打开“data06-01.sav”数据文件,选择“分析”→“非参数检验”→“旧对话框”→“卡方”,弹出如图6-1所示的“卡方检验”对话框。
(2)在左侧的变量列表中选中“骰子点数”变量,单击 按钮,将其选入“检验变量列表”。
(3)单击 按钮,弹出如图6-2所示的“精确检验”对话框,勾选“仅渐进法”,单击 按钮返回主对话框。
(4)单击 按钮,弹出如图6-3所示的“卡方检验:选项”对话框,在“Statistics”选项栏中勾选“描述性”复选框和“四分位数”复选框,在“缺失值”栏中勾选“按检验排除个案”选项,单击 按钮返回主对话框。
(5)完成所有设置后,单击 按钮执行命令。
从表6-1和表6-2可以看出,样本共42个数据,筛子点数从1到6观测次数分别7、6、7、6、8、8,期望次数均是7,残差为0、-1、0、-1、1、1。
表6-1 描述统计
表6-2 骰子点数
从表6-3可以看出,卡方值为0.571,显著性为0.989,大于0.05,所以不能拒绝零假设,可以认为样本的数据分布与期望分布没有显著差异,即筛子点数的次数是均匀分布。
表6-3 检验统计
a.0 个单元格 (0.0%) 的期望频率小于5。最少的期望频率数为 7.0。