心理与行为定量研究手册最新章节_王孟成著

4.3 CAT的研究方向

4.3.1 具有认知诊断功能的CAT（CD-CAT）

传统的教育测验一般只能为被试提供考试分数或能力分数。但仅仅通过分数，既无法显示被试具体掌握或未掌握哪些知识，也不能反映出被试错误作答的原因。对于相同分数的被试，更无法准确得到他们在知识状态或认知结构上可能存在的差异。认知诊断测验（cognitive diagnosis tests）是对被试属性（个体知识结构、加工技能或认知过程）层面的评价，因此解决传统测验的上述不足。CD-CAT将认知诊断与CAT结合起来，能够更高效地评价被试的知识状态，帮助教师进行补救教学以及学生自我学习。

1）CD-CAT的特点

图4.2 CD-CAT测验过程的流程图

作为具有认知诊断功能的自适应测验，CD-CAT与传统CAT存在以下不同：

首先，“自适应”（adaptivity）的含义发生了相应的变化。在传统CAT测验中，“自适应”体现在基于被试当前的能力估计值选择难度与之匹配的题目施测被试。但是在CD-CAT中，“自适应”则体现在以最快的速度使得对被试知识状态的估计达到稳定或者高效、准确地得到被试知识状态估计值。

其次，在一些具体的细节上，CD-CAT也发生了很大变化。传统CAT基于单维的IRT模型，而CD-CAT基于认知诊断模型（Cognitive Diagnostic Model，CDM）；在传统CAT中，待估计的被试能力θ是一维的连续变量。而在CD-CAT中，待确定的被试知识状态（Knowledge State，KS）是多维的离散变量。正是由于CD-CAT具有多维结构，其各个组成部分较传统CAT更为复杂。例如，CD-CAT的题库除了要求题目参数已知，还要求对各题目所测属性进行标识；CD-CAT中的选题策略除了可以从传统CAT选题策略中拓广而来，还可以采用其他的方法进行构建；等等。

一个CD-CAT测验实例的流程图如图4.2所示。

2）CD-CAT的构成

和传统CAT一样，CD-CAT也由本章第二部分所介绍的5个重要部分组成。但是，在具体操作上，CD-CAT的各个部分又有别于传统的CAT。

（1）CD-CAT题库

较传统CAT的题库建设，CD-CAT的题库建设除需要编制新题和估计新题的题目参数外，还需要标识每个新题测量的属性或者说构建与新题对应的Q矩阵。这就涉及CDM的参数估计以及Q矩阵的估计。

针对不同的CDM，研究者采用不同的参数估计方法进行参数估计。例如，de la Torre（2009a，2009b，2011）使用将边际极大似然估计/期望最大化算法（Marginal MLE with an Expectation Maximization Algorithm，MMLE/EM）和MAP/EAP相结合的方式估计“确定性输入，噪音‘与’门”模型（the Deterministic Inputs，Noisy “and”Gate，DINA）、多项选择DINA模型（Multiple -Choice DINA，MC-DINA）以及广义DINA模型（Generalized DINA，G-DINA）的参数；de la Torre和Douglas（2004）采用马尔可夫链蒙特卡洛方法（Markov Chain Monte Carlo，MCMC）估计HO-DINA模型的参数。对于Q矩阵的估计，则可由专家讨论确定和/或根据数据驱动的方法确定（Liu et al.，2012）。

（2）CD-CAT初始题目的选择方法

在测验开始时，系统对被试的属性掌握情况一无所知，此时可以通过以下几种思路为被试选取适当的初始题目：① 随机生成初始KS（如假设每名被试有 50%的概率掌握每个属性），然后基于选题策略选择第一个题目（Chen et al.，2012；Cheng，2009）；② 随机选择几道（如5道）固定题目作为初始题目施测被试（Xu et al.，2003）；③ 如果被试会参加一系列的诊断测验（如前测/正式测验/后测），可根据之前的分类结果选择初始题目（Huebner，2010）；④ 选择可达矩阵（Reachability Matrix）“题目类”对应的题目作为初始题目（涂冬波等，2013）。

（3）CD-CAT知识状态估计方法

CD-CAT中的被试KS估计方法主要有MAP和EAP两种。这里仅简单介绍MAP方法的计算公式，关于EAP方法感兴趣的读者可以参考Huebner和Wang（2011）。

MAP方法将具有最大后验概率的知识状态α _l 作为被试知识状态的估计，即

其中K表示测验所测属性个数；P（α _l |X _i ）为后验概率，表示为

（4）CD-CAT选题策略

CD-CAT的常用选题策略包括随机化选题策略、库尔贝克-莱布勒信息量选题策略（Kullback-Leibler，KL；Xu et al.，2003）、香农熵选题策略（Shannon Entropy，SHE；Xu et al.，2003）、后验加权KL选题策略（Posterior Weighted KL，PWKL；Cheng，2009）以及混合KL选题策略（Hybrid KL，HKL；Cheng，2009）。陈平，李珍和辛涛（2011）对上述各种选题策略的特点进行总结，如表4.3所示。

表4.3 CD-CAT测验中各种常用选题策略的特点

接下来以KL和PWKL选题策略为例进行介绍。对于其他选题策略，感兴趣的读者可以参考相关文献。假设被试i已经作答t道题目，其作答反应为 = （x _i1 ,x _i2 ,…,x _it ），被试i当前的知识状态估计值用来表示。另外，将被试i作答完t道题目后的可用题目集合记为（也称为剩余题库），KSα _c 的后验概率记为（α _c ）。

①KL信息量选题策略：KL信息量是用于度量两个概率分布之间差异的大小。两个概率分布间的差异越大，则KL信息量也就越大。因此，KL信息量方法的实质是在当前知识状态估计下，从剩余题库中选择具有最大KL信息量的题目进行施测，即选择最能将当前KS估计与其他所有可能的潜在KSα _c 进行区分的题目对被试进行施测。记（c=1,2,…,2 ^K ）为条件分布和之间的KL距离

则剩余题库中的题目h的KL指标为

基于此，选择的第t + 1道题目为使得KL指标最大的题目，即

②PWKL选题策略：KL选题策略中KL指标的计算公式（即 = D _h 是对所有的KL距离（c=1,2,…,2 ^K ）进行等权求和。Cheng（2009）认为等权求和不太合理，因为随着被试作答的题目数越来越多（被试作答反应能够提供的信息越来越多），各种可能KSα _c （c=1,2,…,2 ^K ）的后验概率的差异也会越来越大，也即各种可能KS的相对重要性也会有所不同。因此，她对KL指标进行修改，将KSα _c 的后验概率作为KL距离的权重然后加权求和，得到后验加权的KL指标：

于是，PWKL选题策略可表示为

（5）CD-CAT终止规则

与CAT的终止规则一样，CD-CAT的终止规则也可以分为静态终止规则和动态终止规则两大类。其中，静态终止规则是指在测验长度达到预定长度（如 20道题）测验就结束。动态终止规则主要包括：

①后验的香农熵或邻近香农熵的变化合理地小，即

②邻近两次后验的KL距离变得足够小，即

③基于最大后验概率的终止规则（如π _i , _t （α _c ）> 0.9）。

4.3.2 多维的CAT（MCAT）

传统的CAT测验需要满足单维性假定，即测试题目仅仅考查被试单一维度的能力。而在实际测验中，被试为完成测验任务往往需要使用多种能力。MIRT是在因子分析和单维项目反应理论（Unidimensional IRT，UIRT）基础上发展起来的测量理论，打破了UIRT对潜在特质的单维假定，能够从多个维度表征题目与被试能力之间的关系（Reckase，2009）。MIRT的出现恰恰顺应实际情况的需求，更准确地反映题目和被试之间相互作用的复杂性（康春花等，2010）。MCAT是指采用多维项目反应理论（Multidimensional IRT，MIRT）为测量模型的CAT测验。

1）MCAT的特点

与传统CAT相比，MCAT的特点体现在以下几个方面：

首先，也是最明显的是，MCAT可以用于多维测验（Frey et al.，2011），同时测量被试在多个维度上的表现，为被试提供更多、更详细的诊断信息。

其次，在满足相同甚至更高的测量精度的情形下，MCAT所需的题目数量比传统CAT少1/3左右（Segall，1996）。因此，使用MCAT将进一步缩短测验时间，提高测验效率。

最后，MCAT可以自动地平衡内容覆盖度，而不需要使用内容平衡策略（Segall，1996）。例如，在科学测验中，可能需要为每名被试提供足够数量的物理、化学以及生物科目的题目，因为这些题目往往是限制在某个学科之内的。在传统CAT中，一种常见的选题策略是要求在每个学科中选择固定数量的题目。但是，当题目内容与难度相关时（例如，化学科目的题目比生物或物理更难），该方法就可能会产生问题。将化学学科的题目强加给一个能力较低的被试，将无法提供有关其科学水平的信息，并导致测量效率的下降。而对于采用MCAT的选题策略，则可将这三个学科视作独立、但高度相关的维度，通过同时整合多方面信息（包括题目的特征信息、能力的先验联合分布等），原则上可以提供一个有效的选题策略。

2）多维项目反应理论（MIRT）

作为MCAT的理论基础，不同的MIRT模型可以构建出不同的MCAT测验。目前，根据不同能力维度之间的关系，MIRT模型主要可以分为补偿模型（compensatory models）和非补偿模型（non-compensatory models）两类。

补偿模型是指模型中不同维度的能力以线性组合的形式出现，因此被试在某个维度上能力的不足可以由其他维度的能力弥补。也即当一个维度上的能力值θ较低时，其他维度上较高的能力值θ可以维持其整体的总和不变。下面给出的是二值计分的多维两参数逻辑斯蒂克模型（M2PL；Reckase，2009）

式中，y _ij 是取值为 0或 1的伯努利随机变量，θ _i = （θ _i1 ,θ _i2 ,…,θ _ip ） ^T 表示被试i的p维能力向量，T表示转置；a _j = （a _j1 ,a _j2 ,…,a _jp ） ^T 为题目j在p个维度上的区分度向量，标题d _j 与题目难度b _j 存在线性关系，也即b _j = 。 = 。

非补偿模型又称部分补偿模型（partially compensatory models），它是指模型中不同维度的能力之间不可互相弥补。也即若被试在某一个维度上的能力值较低，即使他/她在其他某个维度上有较高的能力值，正确作答概率也不会很高。例如，在GRE数学部分的测试中，即使被试英语水平很高，但若未掌握相应的数学知识依旧无法正确作答题目。由此，Sympson（1978）提出非补偿的多维三参数模型：

在上式中，连乘中的每一项表示成功完成题目中某一维度的概率，题目中的各个维度相互独立。注意每个题目只有一个猜测参数，而非各个维度都有各自的猜测参数。

4.3.3 满足非统计约束条件的CAT

一个有效的CAT测验除了考虑统计优化，还应当充分考虑各种非统计约束条件，例如：①题目曝光率控制。题目曝光率应该控制在一个较低的阈值以下（如0.2），这是因为如果题目的曝光率过高，被试可以通过先接受测验的被试提前获得关于题目的信息（Chang et al.，1999；Davey et al.，1995；Lunz et al.，1998；Stocking et al.，1998；Sympson et al.，1985）。②内容均衡。应从不同内容区域按比例选取题目构成测验。③题目类型均衡。按预设比例生成不同类型的题目（如多项选择题与建构反应题）。④正确答案分布均衡。正确答案的选项应该大致均匀分布在各个选项上。⑤在测试中应当只使用有限个“特殊”题目，例如“下面哪个选项是不正确的”（Cheng，2008）。

1）满足非统计约束条件的方法概览

研究者提出多种方法以满足CAT中的非统计约束条件，这些方法可以被分为两类：数学规划（mathematical programming）方法和启发式（heuristic）方法。其中，数学规划方法又包括网络流规划方法（Armstrong et al.，1998）和影子测验法（van der Linden et al.，1998）。影子测验法创建影子测验并将其作为题目选择的一部分，然后将焦点集中在全局最优选择而非仅对某个题目的最优选择。这类方法在管理非统计约束条件时非常有效，但是当约束条件较多时计算强度会比较大。值得注意的是，当所有约束条件不能同时得到满足时，数学规划方法将不提供解决方案。

启发式方法则可以避免计算强度过大、灵活性不足的问题。这类方法的优点是允许测验开发者完全控制题目的选择过程、容易实现且具有较高的非统计约束条件输入效率，缺点则包括：①由于题目选择是逐个进行，因此所得结果可能并不一定“最优”，即有时并不能保证所有约束限制都能够得到满足；②方法的具体实现通常依赖于商业软件（Chang，2007）。这类方法的典型代表是Stocking和Swanson（1993）提出的加权离差建模方法（Weighted Deviation Modeling，WDM）。在WDM中，约束不需要被严格满足，目标函数是约束偏差和当前测试信息与目标信息值的距离的加权和，并通过最小化目标函数来选择下一题。通过启发式算法，CAT可以快速地进行题目选择，更为关键的是，该算法总能提供一种解决方案。但是在选择题目之前，研究者可能需要经历一个比较耗时的过程来调整权重（Leung et al.，2005）。为了解决WDM方法中存在的不足，Cheng（2008）提出最大优先级指标方法（Maximum Priority Index，MPI），将一系列约束条件直接整合到需要最大化的指标中。下面将详细介绍该方法。

2）最大优先级指标法（MPI）

MPI方法可以看成MFI方法的一种变式。具体地讲，MPI方法是通过将一个乘数加在题目费舍尔信息量前来构建指标，并通过最大化这个指标值来选择后续题目，而不只是将题目费舍尔信息量最大化。指标中的乘数衡量题目对满足约束条件的贡献度，而题目费舍尔信息量衡量的只是题目对能力估计的贡献。因此，两者相乘后的指标可被看成在约束条件下题目选择过程中对题目整体“吸引力”的度量。题目的指标值越大，说明该题目的优先级就越高。

假设 C 是大小为J × K的约束关联矩阵，其中J为题库中的题目数，K为约束条件的个数。C _jk =1表示约束k与题目j相关，否则C _jk =0。 C 矩阵通常在题目选择之前由内容专家和心理测量学家进行标识。每个约束k都有一个权重ω _k ，而且在实际应用中，一般对主要的约束条件设置较大的权重，而对其他约束设置较小的权重。由此，题目j的优先级指标可按以下方式进行计算：

式中，I _j 是当前被试能力估计值θ̂处的题目费舍尔信息量，f _k 表示约束k的剩余配额（the scaled‘quota left ’ ）。对于内容约束k，假设测验中必须包括指定内容领域的X _k 道题目、被试已作答符合该条件的x _k 道题目。于是，剩余配额可表示为

接下来，再考虑使用该方法来控制题目曝光率。假设约束k′要求每道题目的曝光率控制在r以下，而且在已经参加测验的N名被试中有n名被试已经作答题目j，那么

式中，n/N表示题目j的临时曝光率。由此，可以按照上述方法计算题库中每道题目的优先级指标PI值，并选择优先级指标最大的题目给被试作答。值得注意的是，当有多道题目的PI值相同时，选取题目费舍尔信息量最大的题目作为下一题。

4.3.4 允许检查并修改答案的CAT

如前文所言，传统CAT一般不允许被试返回检查并修改答案，这主要是因为修改答案有可能会影响CAT的估计精度以及测验公平等。但是在现实情境中，允许修改答案是被试迫切希望的功能，如何解决这一矛盾成为CAT领域的一项研究热点。

1）允许修改答案对传统CAT的影响

在CAT中，允许题目检查导致的一个主要问题是会降低能力估计的精度。大多数的CAT选题策略是通过最优化某种特定的指标来选择与被试当前的能力估计值相匹配的题目。当被试对作答进行修改后，被试的一系列能力估计值就会发生变化，进而与选题策略在选择题目时所依据的能力估计值产生差异。因此，选题策略选出的一系列“最优”题目对修改答案后的能力估计值来说并非最优。换句话说，题目修改导致选题策略的不精确定位，造成题目信息量减少，降低能力估计的精度（Lord，1983）。在CAT实施过程中，完全精准的选题定位是不可能实现的，因为初始几个题目总是根据先验的能力值或不精确的能力估计值来选择。所以，探究允许题目检查对能力估计精度的影响也就变得更加复杂。研究表明：允许题目检查的CAT较传统CAT会产生更大的误差（Bowles，2001；Olea et al.，2000；Wise，1996）。尽管研究者研发不同方法来实现允许题目检查的CAT，但目前仍然无法避免能力估计精度的降低，而只能保证能力估计精度的降低在相对合理的范围内（Han，2013；Olea et al.，2000；Papanastasiou et al.，2007；Stocking，1997；Vispoel，1998；Vispoel et al.，2000；陈平等，2008）。

允许CAT题目检查引起的另一个主要问题是学生可能会使用作弊策略，如前文所提到的Wainer策略（Wainer，1993）和Kingsbury策略（Kingsbury，1996），它们的使用会严重影响测验效度和测验公平性。Stocking（1997）的研究表明：Wainer策略不仅会使被试的能力估计值产生较大的误差，还会使具有低、中能力的被试从中获益。她还指出Wainer策略极大地影响测验的公平性，也让CAT的分数解释变得毫无意义。Kingsbury作弊策略是另一种常见的CAT作弊策略：当被试在某种程度上了解每个题目难度都依赖于前一个题目的作答反应时，他们可以通过感知当前题目与前一个题目的难度变化来获得前一个题目是否作答正确的线索，进而对之前答案进行纠正。通过这个策略，被试有可能答对根据自身能力本无法答对的题目，从而影响测验的公平性与效度。

2）允许修改答案的必要性

对被试而言，返回检查并修改答案是有必要的。如果不允许修改答案，被试在P&P中的一些常用答题策略（例如，有些被试偏好先按顺序依次答题，作答完毕后进行检查，发现错误再进行修改；还有一些被试会将不能确定答案的题目先搁置，作答完其他题目后再返回作答搁置题目）不能应用到CAT中，这样会给他们带来压力。另外，对于不允许修改答案的CAT，若某个被试完全有能力答对某个题目但因笔误而答错，他/她的能力会被低估。相反，若某个被试没有能力答对某个题目却猜对了，若不允许修改，他/她的能力会被高估。此外，CAT的自适应算法本身就决定被试只能答对一半左右的题目，这同样会增加被试的焦虑水平并影响他们的测验表现。

总之，不允许题目检查不仅使CAT的效度受到测验无关因素的影响、阻碍P&P向CAT的转化（Stocking，1997），而且会影响被试能力估计的准确性（Benjamin et al.，1984；McMorris，1991）。Wise、Finney、Enders、Freeman和Severance（1999）认为如果允许题目检查可以排除或减少其对CAT估计精度的影响，那么允许题目检查对被试和测验开发者来说都很有意义。

3）允许修改答案的CAT

为防止出现上述的两个主要问题，研究者从不同角度提出多种允许CAT题目检查的方法。例如，研究者从限制修改的角度提出的方法包括连续区块方法（successive block method；Stocking，1997）、题目袋方法（item pocket method；Han，2013）、区块题目袋方法（block item pocketmethod；林喆等，2015）等。下面对其中几种方法进行简单介绍。

Stocking（1997）提出连续区块方法。根据这种方法，研究者在测验过程中人为设置一串连续的区块，为每个区块分配合理的题目数量和时间。被试可以在区块内进行题目检查和修改，直到时间用尽或主动跳入下一个区块。当进入下一个区块后，被试就无法再对先前区块内的题目进行修改。这种方法可以有效应对Wainer策略，因为被试无法通过答错所有题目来操纵CAT的选题。研究结果表明：只要每个区块内的题目数量保持在较小范围内，被试的能力估计精度就不会显著降低；连续区块方法不仅能够有效应对Wainer策略与Kingsbury策略，而且能使能力估计精度的减少在合理的范围内（Vispoel et al.，1999，2000；Vispoel et al.，2005）。但是，连续区块方法也存在一些不足（Han，2013）：①被试无法像参加P&P那样随时跳过某个题目，而且只能检查并修改当前区块内的题目，一旦跳过区块就无法检查之前的题目。②为保证能力估计精度，连续区块方法往往需要设置大量的区块，而每个区块包含少量的题目（Stocking，1997；Vispoel et al.，1999）。这种设置不仅增加了检查的限制，还增加了被试对时间决策的负荷，也为测验开发者如何分配区块时间带来了额外的负担。

针对连续区块方法的不足，Han（2013）提出题目袋方法。该方法是在测验中加入一个固定容量的题目袋作为缓存。被试可以将之后想进行检查的题目或想暂时跳过的题目放入题目袋中供其随时检查和修改。当题目袋装满后，被试需要替换题目袋中的某一题目或选择放弃放入，被替换的题目必须完成作答而且无法再修改。当达到终止规则后，被试需要答完题目袋中的所有题目，这些题目也会纳入最终的能力估计中，不答则视为错误作答。这种方法的优点在于：放入题目袋的题目不参与当前能力的估计，使得选题策略在整个CAT过程中都是基于根据最终作答得到的能力估计值来选题，可保证选题的精确性；此外，它给被试更充分的自主性，被试可以在CAT过程中随时修改和替换题目袋中的题目，也可以跳过某个题目，从而更加符合P&P的作答习惯。Han（2013）发现当题目袋容量较小时，题目袋方法的估计精度与无修改条件下的估计精度差异不大。而且题目袋方法不仅可以有效地应对Wainer策略，更是对Kingsbury策略天然免疫，因为题目选择与题目袋中的题目无关，两者之间不存在任何联系。

此外，还有研究者从能力估计、模型以及选题策略等角度出发来实现具有题目检查功能的CAT。Bowles（2001）认为当题目修改后，最大信息量选题策略的定位是不准确的，但可以采用特定信息量的选题策略（Specific Information Item Selection，SIIS），这种选题方法通过为当前能力估计值选择一个特定信息量而不是最大信息量的题目，从而减少作答修改对选题定位产生的影响。Papanastasiou和Reckase（2007）提出题目重排序的方法，在估计最终能力时有选择地跳过一些不匹配的题目，防止这些不匹配的题目对能力估计造成偏差，从而提高能力估计精度。陈平和丁树良（2008）通过建立新的评分模型来“修复”能力估计的精度和偏差，同时能有效地应对Wainer策略。van der Linden、Jeon和Ferrara（2011）基于“被试的能力越高，初始作答的正确率越高，并且将错误答案修改为正确的概率也越高”的假设，提出一个两阶段的联合模型，将修改前后的答案同时纳入能力估计模型中估计被试的最终能力。van der Linden和Jeon（2012）使用该模型来检验P&P中的异常修改行为，结果显示通过模型残差分析可以在一定程度上诊断出异常修改行为。还有研究者从整合的视角，将连续区块方法，题目重排序方法与4PL模型相结合来减少允许题目检查对估计精度的干扰（Yen et al.，2012）。

4.3.5 计算机化分类测验

在很多情况下，测验的目的是将被试分为两个（掌握和未掌握）或多个（如合格、良好和优秀）类别。这类测验称为计算机化分类测验（Computerized Classification Testing，CCT），也称计算机化掌握性测验。CCT与CAT的区别主要体现在以下两方面：（1）CAT的最终目的是获得精确的被试能力估计值，而CCT则是为了将被试划分为两个或多个不同的类别；（2）在CAT中，系统选择的题目需要在当前能力估计值处提供尽可能多的信息，而且当能力估计稳定后，终止测验。而在分类测验中，系统选择的题目应有利于区分被试的能力位于分界线哪一侧，当分类决策稳定后，停止测试。CCT的主要构建过程分为以下几大步骤：选取IRT模型、题库构建、题目选取规则、能力参数的估计方法以及终止规则。

与CAT类似，根据被试能力维度的数量，CCT可以分为单维CCT（Unidimensional CCT，UCCT）和多维CCT（Multidimensional CCT，MCCT）。下面以终止规则为例，分别对UCCT与MCCT进行介绍。

1）单维CCT的终止规则

研究者在单维IRT的基础上，建立了以似然比和贝叶斯决策为核心的一系列终止规则，如Wald（1947）提出的序贯似然比检验（Sequential Probability Ratio Test，SPRT），Lewis和Shehan（1990）提出基于贝叶斯决策理论的终止规则。随后，Finkelman（2003，2010）还在SPRT的基础上开发随机缩减的序贯似然比检验（Stochastic Curtailment SPRT，SCSPRT）以及有预测能力的序贯似然比（SPRT with Predictive Power，PPSPRT）。此外，Bartroff，Finkelman和Lai（2008）以及Thompson（2009）提出广义似然比（Generalized Likelihood Ratio，GLR）的方法，Huebner和Fina（2015）提出基于GLR的随机缩减方法（SCGLR）。各种方法的具体定义以及优缺点描述如下：

（1）序贯似然比检验（SPRT）

SPRT使用两个简单假设来判断被试的分类

式中，δ是一个小的常量，使得H ₀ 恰好被划入未掌握的一类，H ₁ 则恰好被划入掌握的一类。由于此时θ是一维的，可以用一个数轴来形象地展示上述两个假设。

对上述假设检验，构建的检验统计量为

记犯第一类错误的概率为α、犯第二类错误的概率为β，令A=β/（1 -α），B = 。被试i作答完任一题目j后（作答反应为y _i , _j ），计算C _i , _j 。假设D表示在测验结束后系统根据规则对被试所属类别做出的判断，D=m表示被试属于掌握类，D=n表示被试属于未掌握。

式中，J表示测验的最大长度。该方法存在的不足主要在于：实际测验中，相当一部分被试无法在达到最大测验长度前被分类。这将造成一部分不影响最终判断的题目被不必要暴露，既增加题库泄露的风险又增加测验时间。

（2）随机缩减的序贯似然比准则（SCSPRT）

当存在最大题目数J时，SPRT并不是效率最高的终止规则，这种低效会导致题目不必要的暴露。随机缩减的思路是解决这一问题的一种方法：如果被试未来的作答反应在较大概率上不会改变当前对被试的分类判断，而仅在一个可以接受的小概率上会改变当前判断，那么此时便结束测验是合理的。SCSPRT是一种结合了SPRT和随机缩减方法的终止规则，在尽可能不降低精度的前提下可减少测验题目的数量，是对SPRT的完善和发展。

被试i完成第j个题目后，设D _i ,j表示在此时系统根据规则对被试所属类别做出的判断。若此时能够按照上述SPRT的规则结束测验，则停止测验并做出对被试的判断；若按照SPRT规则需要继续测试，则计算

设定两个错误率∈ ₁ ,∈ ₂ ，若D _i , _j = m且P（D _i , _J =m|C _i , _j ）≥ 1 -∈ ₂ 或D _i , _j = n且P（D _i , _J =n|C _i , _j ）≥1 -∈ ₁ 则同样停止测验，被试被分为掌握或未掌握。

该方法的主要缺点在于计算P（D _i , _J |C _i , _j ）时需要知道j + 1到J的题目顺序，否则只能通过中心极限定理计算渐进值。

（3）广义似然比规则（GLR）

GLR在分类的过程中使用基于作答反应得到的被试能力估计值。也即，当被试i答完j个题目后，将其能力参数的估计值记为，则构建的检验统计量为

得到C _i , _j 后，对被试的判断方法与SPRT一致。该方法与SPRT的缺点都在于仅考虑已作答题目，而未将剩余题目考虑在内。

2）多维CCT的终止规则

MCCT建立在MIRT基础之上，这方面的研究开始得较晚，数量也较少。但是，MCCT不管是在精度上还是在效率上较UCCT都有一定的提升。Glas和Vos（2010）基于多维Rasch模型（MRasch model）以及Bayesian终止规则建立一种MCCT算法，结果显示MCCT的效率要高于UCCT。Nydick（2013）提出几种基于MIRT的MCCT终止规则。

（1）序贯似然比规则

约束的序贯似然比（Constrained SPRT，C-SPRT）将在约束分类函数上的极大似然估计点作为似然比检验中所使用的定点。首先，定义一条分类边界函数，g （θ）。在被试i作答完第j个题目后，C-SPRT算法将计算在边界函数上的极大似然估计，即

式中， := {θ:g （θ）= 0 }。

由g （θ）可得在处与其正交的单位向量，记为θ _δ ，则θ _δ = 在处，g （θ）= 0的法向上构造δ邻域，故 - = + δθ _δ ，并由此按照SPRT的方法给出判断。

投影的序贯似然比（Projected SPRT，P-SPRT）通过将能力估计值投影在g （θ）= 0所刻画的边界上来进行似然比的计算。在被试i作答完第j个题目后，其投影的能力估计值为

式中，表示欧几里得范数。在确定后，P-SPRT的判断过程与C-SPRT完全一致。

（2）多维广义似然比规则

多维广义似然比（Multidimensional GLR，M-GLR）的方法同样要求定义g （θ），并由此划分出掌握类别的区域以及未掌握类别的区域。检验统计量为

确定C _i , _j 后，M-GLR的判断过程与SPRT一致。