陈孚、辛涛、刘彦楼、刘拓和田伟(2016)总结了CD中的模型数据拟合检验可大致分为3类。
①模型数据的全局拟合检验(global fit),用以考查整个测验数据与所选诊断模型的匹配程度。全局拟合检验又可进一步分为相对拟合(relative fit)检验和绝对拟合(absolute fit)检验。前者是考查多个模型对同一批测验数据拟合情况的比较,从而判断哪个模型是用于分析该批数据的最优模型;后者是考查所选定的模型与测验数据的拟合情况,报告出拟合指标即可。
②题目水平(item-level)检验,是指考查测验中的每道题目是否与所选模型拟合。通常来说,题目水平是绝对拟合检验。
③个人拟合(person fit)检验,是指考查个体的作答数据是否与所选模型拟合的检验。除此之外,CD中还有一项重要的工作,即对Q矩阵的识别和修订,可被理解为对Q矩阵的拟合检验。本章内容主要介绍全局拟合、题目水平拟合检验及Q矩阵拟合检验。
CDM的全局拟合检验是在固定了诊断模型后,仅对该模型是否拟合全部数据进行的检验,目的是考查所选模型的适用性及诊断的准确性。在CD中使用卡方类检验由于样本量较小,较多数量的期望作答模式会很容易得到一个稀疏列联表,即很多单元格中不存在观测值,这样会使卡方类检验所犯一类错误急剧膨胀。因此,卡方类检验基本无法用于CDM的全局绝对拟合检验中(陈孚 等,2016)。
此时,主要选用M2 统计量(Jurich,2014;Liu et al.,2016),它使用两个题目构成的题目对(item pairs)信息进行拟合检验。具体来说,M2统计量反映的是观察的和期望的边际频数之间的差异,通过计算观察的和期望的二阶边际残差得到M2统计量(具体推导及计算参见MaydeuOlivares et al.,2006)。绝对拟合统计量具有拟合临界点,用于判断通过模型和数据计算出的统计量是否达到显著性。
与绝对拟合检验不同,相对拟合检验是通过统计量数值的比较,从若干个备选模型中选择出最适合分析该批数据的模型,因此它们没有绝对的拟合临界点。通常来说,相对拟合统计量取值越小,说明模型越匹配数据。常用的相对拟合统计量有:-2LL、AIC、BIC、DIC、贝叶斯因子BF。这些统计量在结构方程模型以及项目反应理论中均是常用指标,故本章不再赘述。
常见的题目水平拟合检验方法为卡方类检验,主要包括如下统计量:χ 2 、G 2 、Q 1 、PD、 、PD*等(Stone,2000;Wang et al.,2015;Yen,1981)。除此之外,Chen、de la Torre和Zhang(2013)从属性后验分布中采用抽样技术可以得到充分大样本的KS,使用这些KS和估计得到的模型参数,便可以生成题目j的期望作答模式。基于此,作者提出了三个题目水平的拟合统计量:基于题目的正确作答比例P j 、基于题目对的对数发生比l jj ′、基于题目对的相关系数r jj ′。详细计算过程参见Chen等人的论文。本章操作部分将会介绍Chen等提出的方法。
认知诊断的根基在于Q矩阵,若Q矩阵界定不好,会直接影响个体的诊断效果。因此,许多学者从各个角度提出了许多修订或估计Q矩阵的方法,主要包括:δ法(de la Torre,2008)、ς 2 法(de la Torre et al.,2016),RSS法(Chiu,2013),基于残差的方法(Chen,2017)、数据驱动法(Liu,2012)、基于EM算法的方法(Wang et al.,,2018)、RMSEA方法(Kang et al.,2018),γ法(涂冬波等,2012),D2 统计量方法(喻晓锋,2015),以及基于海明距离的方法(汪大勋,2018)等。感兴趣的读者可以参考上述文献。本章操作部分将会介绍ς 2 法。ς 2 法本质上是一种搜索算法(search algorithm),该算法首先计算出 2 K -1 个q向量的ς 2 估计值,记作 。然后计算每个q向量的 值( 为遍历题目j所有K个属性计算得到的ς 2 估计值),满足 ≥ε(ε为事先规定的方差占比,通常取 0.95)的q向量即为该题目的考查模式。若不止一个q向量满足条件,则由 的大小来决定。