心理与行为定量研究手册最新章节_王孟成著

3.5 模型拟合与模型比较

陈孚、辛涛、刘彦楼、刘拓和田伟（2016）总结了CD中的模型数据拟合检验可大致分为3类。

①模型数据的全局拟合检验（global fit），用以考查整个测验数据与所选诊断模型的匹配程度。全局拟合检验又可进一步分为相对拟合（relative fit）检验和绝对拟合（absolute fit）检验。前者是考查多个模型对同一批测验数据拟合情况的比较，从而判断哪个模型是用于分析该批数据的最优模型；后者是考查所选定的模型与测验数据的拟合情况，报告出拟合指标即可。

②题目水平（item-level）检验，是指考查测验中的每道题目是否与所选模型拟合。通常来说，题目水平是绝对拟合检验。

③个人拟合（person fit）检验，是指考查个体的作答数据是否与所选模型拟合的检验。除此之外，CD中还有一项重要的工作，即对Q矩阵的识别和修订，可被理解为对Q矩阵的拟合检验。本章内容主要介绍全局拟合、题目水平拟合检验及Q矩阵拟合检验。

3.5.1 CDM的全局绝对拟合检验

CDM的全局拟合检验是在固定了诊断模型后，仅对该模型是否拟合全部数据进行的检验，目的是考查所选模型的适用性及诊断的准确性。在CD中使用卡方类检验由于样本量较小，较多数量的期望作答模式会很容易得到一个稀疏列联表，即很多单元格中不存在观测值，这样会使卡方类检验所犯一类错误急剧膨胀。因此，卡方类检验基本无法用于CDM的全局绝对拟合检验中（陈孚等，2016）。

此时，主要选用M2 统计量（Jurich，2014；Liu et al.，2016），它使用两个题目构成的题目对（item pairs）信息进行拟合检验。具体来说，M2统计量反映的是观察的和期望的边际频数之间的差异，通过计算观察的和期望的二阶边际残差得到M2统计量（具体推导及计算参见MaydeuOlivares et al.，2006）。绝对拟合统计量具有拟合临界点，用于判断通过模型和数据计算出的统计量是否达到显著性。

3.5.2 CDM的全局相对拟合检验

与绝对拟合检验不同，相对拟合检验是通过统计量数值的比较，从若干个备选模型中选择出最适合分析该批数据的模型，因此它们没有绝对的拟合临界点。通常来说，相对拟合统计量取值越小，说明模型越匹配数据。常用的相对拟合统计量有：-2LL、AIC、BIC、DIC、贝叶斯因子BF。这些统计量在结构方程模型以及项目反应理论中均是常用指标，故本章不再赘述。

3.5.3 题目水平的拟合检验

常见的题目水平拟合检验方法为卡方类检验，主要包括如下统计量：χ ² 、G ² 、Q ₁ 、PD、、PD*等（Stone，2000；Wang et al.，2015；Yen，1981）。除此之外，Chen、de la Torre和Zhang（2013）从属性后验分布中采用抽样技术可以得到充分大样本的KS，使用这些KS和估计得到的模型参数，便可以生成题目j的期望作答模式。基于此，作者提出了三个题目水平的拟合统计量：基于题目的正确作答比例P _j 、基于题目对的对数发生比l _jj ′、基于题目对的相关系数r _jj ′。详细计算过程参见Chen等人的论文。本章操作部分将会介绍Chen等提出的方法。

3.5.4 Q矩阵的拟合

认知诊断的根基在于Q矩阵，若Q矩阵界定不好，会直接影响个体的诊断效果。因此，许多学者从各个角度提出了许多修订或估计Q矩阵的方法，主要包括：δ法（de la Torre，2008）、ς ² 法（de la Torre et al.，2016），RSS法（Chiu，2013），基于残差的方法（Chen，2017）、数据驱动法（Liu，2012）、基于EM算法的方法（Wang et al.，，2018）、RMSEA方法（Kang et al.，2018），γ法（涂冬波等，2012），D2 统计量方法（喻晓锋，2015），以及基于海明距离的方法（汪大勋，2018）等。感兴趣的读者可以参考上述文献。本章操作部分将会介绍ς ² 法。ς ² 法本质上是一种搜索算法（search algorithm），该算法首先计算出 2 ^K -1 个q向量的ς ² 估计值，记作。然后计算每个q向量的值（为遍历题目j所有K个属性计算得到的ς ² 估计值），满足 ≥ε（ε为事先规定的方差占比，通常取 0.95）的q向量即为该题目的考查模式。若不止一个q向量满足条件，则由的大小来决定。