对于CAT的所有形式,不论是传统的CAT还是CD-CAT或者MCAT,其主要包括以下五个重要组成部分:
①标定的题库(calibrated item bank);
②初始题目的选择方法(starting point for entry);
③能力估计方法(ability estimation method);
④选题策略(item selection strategy);
⑤终止规则(stopping rule)。
Wainer和Mislevy(2000)将整个CAT过程概括为三个步骤:
①如何开始;
②如何继续;
③如何结束。
图4.1 CAT的流程图
图4.1呈现的是一个CAT实例的流程图。接下来,依次对CAT的五个重要组成部分进行简要介绍。
题库是CAT的重要组成部分,也是CAT顺利实施的重要前提。题库本身并不是对大量题目的简单堆积,而需要依托专业的团队使用科学的方法进行构建(陈平 等,2013)。构建CAT题库一般包括“明确题库大小”“确定题库结构”“开发题目与标定参数”与“题库管理与维护”等核心步骤。每个步骤的完成质量都会影响题库质量,进而影响在后续评分过程中对被试能力进行估计的准确性(陈平,2016)。
对于CAT而言,题库的大小是影响测验质量的重要因素。若题库过小,不仅会导致经常找不到与被试能力相当难度的题目,而且可能会导致部分题目的曝光率过高,危及题库安全。同时,由于构建题库需要耗费大量的人力、物力和财力,一味拓展题库也不现实。因此,确定合适的题库大小十分关键。但是对于“题库具体需要多少题目,才能保证对每名被试的能力有准确的估计、才能保证测验的安全性”这个问题,并没有确切的数量可供参考。学者对题库大小给出的建议如下:
①对于0-1评分CAT,建议题库超过100题;对于要求内容均衡的CAT或高风险CAT(如资格考试),则要求题库大小在500~1000(Dodd et al.,1995)。
②对于多级评分CAT,题库大小在 30左右就可得到比较准确的能力估计值且迭代不收敛情况较少(Dodd et al.,1989)。这主要是因为多级评分题目(polytomously scored item)相对于0-1评分题目(dichotomously scored item),能够提供更多的信息量。本质上,多级评分题目的相邻两个等级或类别(category)就相当于一个0-1评分题目。
③Stocking(1994)建议题库大小至少是测验长度的12倍,Way(1998)称之为一种经验法则。
题库应该合理覆盖所考查的整个能力范围和内容范围。如果测验目的是在整个能力范围内进行测量,理想的题库就应当是包含大量的高区分度题目、而且题目难度分布于整个能力范围,否则就会导致“在CAT中,无法为部分能力水平(特别是两端能力水平)的被试提供足够的、合适的题目”。题库结构还依赖于被试总体。如果被试总体中大部分是高能力水平被试,那么题库应该包括较大数量的难题。因此,在实际操作过程中,应当根据测验的目的、被试的情况来合理确定题库的结构。
另外,对于0-1评分CAT,Reckase(1981)建议题库中题目难度参数服从均匀分布。陈平等人(2006)通过模拟实验也发现:在多级评分CAT中,题目等级或类别难度参数服从均匀分布所产生的迭代失败次数会明显少于它们服从正态分布时的结果。
这个步骤具体包括以下几个核心环节:
题目编写基于创建好的编题计划(题目的题型、目标要求和试题分布等)以及双向细目表(test specification),在每个内容/能力维度上编写数量足够多的、多样的以及难度分布较广的题目。需要特别注意的是,在编写题目时,应当编写的题目数量要多于题库需求的题目数量,这是因为在题库建立的过程中还会删减一些不满足IRT标准和其他测验要求的题目。
题目编写完成后应对题目的质量进行检查。具体来说,质量检查包括测验专业性检查(test specialist review)和测验敏感性检查(test sensitivity review)两方面。前者的目的是保证题目的高质量(如防止题目与编题计划出现偏差、题目表述歧义或含义不明、题目出现明显的功能性差异等),而后者是为了避免出现对被试子样本(如少数族裔)有偏或有冒犯性的内容或材料。
对新编写的题目进行预试,有两个目的:一是收集预试数据用于接下来的题目分析;二是检查测验题目是否测量它们想要测的内容,还可以帮助发现题目核查者没有发现的错误。这时主试应该提前告知被试:预试并不是为了评价被试,而是为了研究题目的性能。
基于预试数据,采用CTT和IRT方法对题目进行分析,并根据CTT和IRT的相关标准决定是删除还是修改不合适的测验题目。
题库中的题目一旦确定,需要将它们存入计算机题库。例如,借助大型数据库软件(Oracle、SQL Server、MySQL和SyBase等)将题目转化成计算机呈现形式,对题目题干(item stem)、题目选项(item option)、题目正确答案(item key)以及题目参数值等重要信息进行存储。
CAT在使用一段时间后,对题库的高质量管理与维护就显得愈发重要。因为随着时间的推移,题库中的部分题目可能会因存在缺陷(flawed)、过时(obsolete)或者过度曝光(overexposured)等原因不再适合被继续使用(Wainer et al.,1990),这时就需要定期对题库进行更新和扩充。在更新和扩充题库的过程中,对新增题目(称为新题)的准确标定既是研究重点也是技术难点。
对新题进行标定,既可采用基于P&P的离线标定技术(offline calibration),也可采用基于CAT的在线标定技术(online calibration)。在线标定技术是指在CAT实施过程中将新题以随机或自适应的方式分配给被试作答,然后在线收集被试在新题上的作答反应并估计新题参数的过程。与离线标定技术相比,在线标定技术具有很多优点,例如:①在通过CAT对被试能力进行准确、高效评价的同时,还能够对新题进行准确标定;②不需要进行事后链接(post hoc linking)就可自动将新题与旧题置于同一量尺上,不仅实现CAT题库的在线扩充,而且为大型题库建设中复杂的等值问题提供一种有效的解决方案(Chen et al.,2012)。目前,在线标定技术已被广泛应用于各种CAT形式的新题标定中,包括单维CAT(Ban et al.,2001;van der Linden et al.,2015)、CD-CAT(Chen et al.,2015;陈平 等,2011a,2011b;汪文义 等,2011)和MCAT(Chen,2017;Chen et al.,2016;Chen et al.,2017)。
另外,在线标定包括在线标定设计(online calibration design)和在线标定方法(online calibration method)两个重要环节(Chen et al.,2014)。其中,前者负责的是在CAT过程中应如何将新题分配给被试作答才能获得准确的标定结果,而后者则关注如何根据收集的被试作答反应对新题参数进行准确估计。关于这两方面的最新研究进展,可参见He和Chen(2020),He、Chen和Li(2020)以及He、Chen、Li和Zhang(2017)。
CAT题库一旦确定,接下来需要考虑的问题是CAT如何开始,也即初始题目的选择问题。在CAT开始时,由于系统对被试的能力一无所知,因此系统在为被试选择第一道题目时的方法就有别于之后基于被试能力估计值以匹配题目的选题策略。一般而言,初始题目的选择方法有以下几种:
①从题库或题库的某个特定题目集中随机选择一道题目作为初始题目(Cheng,2008)。
②如果假设被试能力服从正态分布,那么被试的能力分布关于均值对称,由此可以假定被试能力初始值处于中等水平(如-0.5 < θ < 0.5)。为满足自适应的要求,可选择与被试能力初始值最接近的题目(即中等难度的题目)作为初始题目。
③如果在测验开始前,能够获得关于被试能力的先验信息(如上学期的期末成绩),就不必随机选题或对被试能力进行假定。此时,研究者可以考虑基于先验信息选择初始题目(Embretson et al.,2000)。
另外,有些主试设计以一个相对容易的题目开始CAT,这使被试在有成功经验后可以减轻测验焦虑等问题(Embretson et al.,2000)。
与P&P相比,CAT的一个最大不同在于对被试能力的估计上。CAT在被试作答完每道题目后都要对其能力进行估计或更新。一般来说,能力参数的估计方法分为两类:极大似然估计方法(Maximum Likelihood Estimation,MLE)和贝叶斯估计法(Bayes estimation method)。其中,贝叶斯估计法又分为期望后验方法(Expected A Posteriori,EAP)和最大后验方法(Maximum A Posteriori,MAP)两种。
为介绍MLE,读者不妨先从下面这个例子对其进行直观的感受。假设现在有3道题目且参数已知,被试能力已知为θ α 。现在想预测该被试在这三道题目上的作答模式。首先可以肯定的是,被试的作答反应模式来自以下2 3 = 8种作答模式中的一种。
表4.2 被试在3道题目上的所有可能作答模式
在表4.2中,后3列代表题目,行代表被试所有可能的作答模式。若表中后3列的值为1,说明被试在对应的题目上作答正确;若为0,则说明作答错误。由于题目和被试能力参数都已知,所以可以计算该被试分别得到这8种作答模式的可能性。例如
表示能力为θ α 的被试正确作答所有3道题目的概率。而
则表示该被试错误作答所有3道题目的概率,其中Q=1 - P。
类似地,被试分获其他 6种作答模式的概率也容易得出。因此,最大似然函数值所对应的作答模式最有可能成为该被试的实际作答模式,因为这样做的风险最小。
在上述例子中,由于被试能力已知,因此通过计算其获得各种作答模式的概率值可预测被试的实际作答模式。如果被试能力未知,但能够获得被试的作答模式,该如何反过来估计被试能力呢?很自然地,我们发现当作答模式给定时,上述的概率就变成关于能力θ的函数。那么能力为多少的被试最有可能得到这种已知作答模式呢?一种直观的想法是,使这个函数达到最大的θ即为被试的能力估计值。在给定观测X时,我们将关于参数θ的函数称为似然函数L(θ|X),它在数值上等于给定参数θ后变量X的概率。
用X=(x 1 ,x 2 ,…,x t )表示被试在t个题目上的作答情况 [x j ∈ {0,1}(j=1,2,…,t)],则似然函数可以表示为:
为便于计算,一般对似然函数取自然对数,得到对数似然函数lnL。要求使L(θ|X)达到最大的θ,可令lnL对θ的导数为0,即
对于不同的IRT模型, 会有不同的表达形式,相应地h(θ)也就有不同的表达形式,具体如下:
对于1PLM
对于2PLM
对于3PLM
由于上述方程都是非线性方程,因此需要使用数值方法进行求解。这里简单介绍一种求解方法,即Newton-Raphson迭代法(简称“N-R迭代”),其基本步骤如下:
对h (θ)在θ 0 处作泰勒展开,有
略去二阶及以上各项,于是可以得到h (θ)的近似线性估计式h (θ)≈ h (θ 0 )+ h′(θ 0 )(θ -θ 0 )。因此,可得到方程h (θ)= 0的近似根
由此构造出的迭代式称为牛顿迭代公式,即
当θ k 收敛到值α时,α即是非线性方程的数值解,记为 。
贝叶斯方法是另一种广泛使用的统计学方法,它与MLE最大的区别在于需要提前知道或假设能力的先验分布(prior distribution)。有了先验分布,结合总体信息和样本信息根据贝叶斯公式(Bayes’formula)就可得到能力的后验分布(posterior distribution),然后基于后验分布再进行统计推断。贝叶斯学派认为先验信息对统计推断是有帮助的。
被试作答t个题目后,能力θ的后验分布通过贝叶斯公式可表示为
式中,g (θ)表示能力θ的先验分布。
EAP方法是将p (θ|X)的期望作为被试的能力估计,其具体的计算方法是
式中,x k 表示第k个积分节点,q为积分节点数。A(x k )为权重系数,A(x k )= 。当被试能力的先验分布为标准正态分布时,g (x k )= exp (- )。
MAP方法是将p (θ|X)的最大值作为被试的能力估计。本质上,MAP方法是对MLE方法的拓展,但不同的是,MAP方法融入了能力的先验分布信息。因此,MAP方法可以看成规则化的MLE方法。
在后验分布p (θ|X)的计算公式中,由于分母部分已经对θ进行积分,因此不再含有θ,故
于是,可通过“对L(X|θ)g (θ)求自然对数,再对θ求导后并令之为零”来计算 ,即̂
假设θ的先验分布为标准正态分布,即
由此可得到,
对于不同的IRT模型,由于L(X|θ)有不同的表达形式,故m(θ)也具有不同的表达形式,具体如下:
对于1PLM
对于2PLM
对于3PLM
容易知道,当被试能力的先验分布是均匀分布时,
这时,MAP方法等价于MLE方法。
另外,上述三种能力估计方法(即MLE、EAP和MAP方法)的估计标准误分别为:
MLE方法作为一种经典的参数估计方法,具有渐近一致性(asymptotic consistency)和渐近正态性(asymptotic normality)等优点,但是它却不能够为具有全0或全1作答模式的被试提供能力估计。这是因为如果被试正确作答所有题目,似然函数是若干个正确作答概率(关于θ的单调递增函数)的乘积,没有最大值;如果错误作答所有题目,似然函数则是若干个错误作答概率(关于θ的单调递减函数)的乘积,同样也没有最大值。这时(特别指CAT的初始阶段,因为CAT初始阶段容易出现全 0或全 1的作答模式),可以临时采用EAP方法估计被试能力。因为即使被试只作答一个题目,EAP方法也能给出能力估计结果。
但是,有些研究者认为先验信息可能会影响被试能力的估计。例如,能力估计由于受到先验分布均值的回归效应的影响,EAP方法会有一个向内的偏差模式,即高估低能力水平被试、低估高能力水平被试(Kolen,2006;Vispoel et al.,1999)。因此,在CAT的初始阶段,有研究者采用固定步长法(fixed step)(如假设步长为 0.20,如果正确作答,新的能力估计值为原值加上 0.20;如果错误作答,新的能力值为原值减去0.20)估计被试能力(Dodd et al.,1995,陈平 等,2008),这个过程一直进行下去直到MLE能力估计方法可用为止。
尽管MLE方法具有“不能估计全 0或全 1的作答模式”和“具有向外的偏差模式(对于具有正值能力水平的被试,MLE会高估其能力值;对于具有负值能力水平的被试,MLE会低估其能力值)”(Lord,1983)等缺点,但是在MLE方法可用的前提下一般还是尽量使用MLE方法。这主要是因为在一般的正则条件(regularity condition)下,一些大样本结论(如渐近一致性和渐近正态性)可以保证MLE能力估计值收敛于真值(Chang et al.,1996),也即 是θ的无偏估计。
针对MLE方法的缺点,研究者提出多种修改方案,如Warm(1989)提出使用加权的极大似然估计方法(Weighted MLE,WMLE),即通过极大化加权的似然函数得到 。对于 1PLM和2PLM,WMLE方法选用测验信息函数的平方根作为权重。Warm(1989)认为当使用相同的渐近方差时,WMLE产生的偏差小于MLE,更为重要的是WMLE适用于元素全为 0和全为 1的作答模式。
除了上述方法,其他的一些方法都是基于测验总分(number-correct score)而不是基于作答反应模式进行构建。尽管测验总分仅仅在1PLM情境下是最优估计值(对于1PLM,测验总分是能力的充分统计量),但是基于这些分数的方法更容易向被试解释,更易于在实践中被接受(Meijer et al.,1999)。
选题策略负责CAT过程中“如何继续”的问题,也即负责根据被试当前的能力估计值从题库中选择最适合被试作答的题目施测被试。因此,选题策略是CAT测验中一个非常重要的环节,它的优劣直接关系到测验的准确性、效率与安全性(陈平 等,2006)。Chang和Ying(1996)认为今后在CAT中,最有可能得到进一步发展的理论研究应该是在选题策略领域。另一方面,CAT的选题策略除了应该满足统计上的最优(即最大限度地提高能力估计精度)之外,还应该尽可能地满足实际测验情境中经常需要考虑的一些非统计约束条件(non-statistical constraints),如题目曝光控制(即控制每道题目被选中的频率,行业标准是将曝光率控制在0.2以下)、内容均衡(即从每个要考查的内容领域都要选择一定比例的题目)、题目类型均衡(即不同类型题目的出现频率应符合一定比例)以及正确答案分布均衡(即正确答案出现在各个选项的频率应大致相当)等。这些非统计约束条件往往是一个CAT测验有效的保障(Cheng et al.,2009)。
选题策略的发展已经比较成熟,代表性的选题策略包括:MFI方法(Lord,1980)、近似贝叶斯选题策略(Owen,1975)、最大后验加权信息量方法、最大期望信息量方法和最小期望后验方差方法等(van der Linden,1998)、库尔贝克-莱布勒(KL)全局信息量方法(Chang et al.,1996)、按a分层选题策略(Chang et al.,1999)、b分块的按a分层方法(Chang et al.,2001)、内容分块的按a分层方法(Yi et al.,2003)、SH概率方法(Hetter et al.,1997)、最大优先指标方法(Cheng,2008;Cheng et al.,2009;潘奕娆,2011)等。
这里我们只对MFI方法、按a分层方法以及b分块的按a分层方法进行简单介绍,读者如果对其他方法感兴趣,可以参考相关文献。
在正式介绍MFI方法前,首先需要引入测验或题目费舍尔信息量(test/item Fisher information)的概念。在统计学上,费舍尔信息量被定义为“对数似然函数对未知参数θ的一阶导的平方的期望”,它反映的是可观察的样本数据X所携带的关于θ的信息数量。将测验层面的和题目层面的费舍尔信息量分别记为I(θ)和I j (θ),在局部独立性假设成立的情况下有
对于3PLM下的题目j而言,将正确作答概率P j (θ)代入其中,有
对于CAT,费舍尔信息量反映了不同题目在测量不同能力被试时对被试能力信息的贡献程度。因此,MFI是从剩余题库中选择在当前的能力估计值处能够提供最大信息量的题目作为下一个题目施测被试。
MFI方法的优点是:
①每一步都选择具有最大信息量的题目,可提供高效的、统计最优的能力估计。
②测验信息量具有可加性。在局部独立性假设成立的前提下,测验信息量等于测验包含题目的题目信息量之和。这一点对CAT特别重要,因为它允许单独计算每个题目的信息量,将它们求和即可得到每个阶段的最新测验信息量。
③测验信息量不直接依赖于被试在题目上的作答反应。
④θMLE处测验信息量的平方根的倒数是MLE估计结果的测量标准误的理论下界。
然而,MFI方法也存在不少缺点:
①在CAT初始阶段,对被试能力的估计不准确(即 与θ相差较大),因此根据 选择的题目对能力估计效率可能并不高。
②青睐高区分度题目而忽视使用低区分度题目,从而导致“高区分度题目过度曝光、低区分度题目曝光不足”。整个题库的使用不均衡,影响测验安全以及题库的使用效率。
③选题过于确定。因为它只选择具有最大信息量的题目,即使其他题目的信息量值与最大信息量值比较接近。
④未考虑被试能力参数和题目参数估计的不确定性。换句话说,计算得到的信息量值并不是100%的准确。
⑤MFI仅考虑测验的统计属性,忽略现实测验情境中需要考虑的非统计约束条件,如题目曝光控制、内容均衡、题目类型均衡以及正确答案分布均衡等。
由于MFI方法存在“题目曝光度不均衡”的缺陷,Chang和Ying(1999)通过对“区分度a对真实的题目信息量和估计的题目信息量的影响”进行分析后认为:高a题目固然很有价值,但是当这些题目施测于能力真值θ与题目难度b不接近的被试时,该题目的价值并不能得到体现。作者还认为当对被试能力真值θ的认识有限时,应该尽量避免使用高a题目,而且发现“在CAT的初始阶段使用低a题目、测验后期使用高a题目”的方式是合理的。基于此,他们提出按a分层的选题策略,步骤如下:
步骤1 :将整个题库按照题目区分度a值升序排列。
步骤2 :根据a值将题库分成K个水平。
步骤3 :相应地将测验也分成K个阶段。
步骤 4:在测验的第k(k=1,2,…,K)个阶段,基于题目难度b与能力估计值 的接近程度依次从第k个题库水平选择n k 个题目,然后施测这些题目(注意n 1 + n 2 + …+ n k 等于测验长度)。
步骤5 :重复步骤4。
例如,整个题库共有400个题目,分成4个水平,那么每个水平有100题;又假设测验长度为40,测验相应地分成4个阶段,每个阶段从相应的题库水平中选择10个题目。
按a分层的方法解决了MFI方法中题库使用不均衡的问题,而且在题目曝光和测验效率等方面有很好的均衡。但是,现实测验情境中题目区分度a和题目难度b经常呈现正相关(Chang et al.,2001),由于按a分层的方法要求每层中题目区分度a要相近,从而导致每层中题目难度分布不广。例如,由高a题目组成的分层一般具有较高的b值,在这些分层中由于缺少低b题目,导致低b题目被经常使用。所以在分层的时候,有必要同时考虑a和b。于是,Chang等人(2001)提出b分块的按a分层选题策略(a-stratified with b blocking)。
这种方法的基本想法是使每个分层内的题目难度分布尽可能广,能够匹配不同被试的能力值 。b分块的按a分层可以看成a分层方法与Weiss(1973)所提出b分层方法的结合,它对题库进行两次分层:第一次分层基于b值,第二次基于a分层。该方法的详细步骤如下:
步骤1 :根据b值将题库划分为M块,所有分块应含有相同数量的题目(当题库中题目数量不可被M整除时,各分块间题目的数量最多相差1)。所有M个分块按照b值升序排列,第一个分块中所含题目的b值最小,而第M个分块中所含题目的b值最大。
步骤 2 :将每个分块按照a值划分为K层。因此,对于第m(m=1,2,…,M)个分块,第 1层中包含a值最低的题目,第K层包含a值最大的题目。这种分层方法与Chang和Ying(1999)的方法基本相同,不同之处在于它是在b分块内进行的。
步骤 3 :对于k=1,2,…,K,将M个分块中每个分块的第k层重新组合成一个层,即可得到K个层。
步骤4 :将测试分为K个阶段。
步骤5 :在第k阶段,为当前考生从第k层中选择具有与其能力估计值 最接近的难度b的题目。
步骤6 :对k=1,2,…,K,重复步骤5。
b分块按a分层后的题库有两个特点:(1)每层内题目难度的分布接近于整个题库难度的分布;(2)平均而言,区分度随分层序号的增大而增大。即第 1个分层的平均题目区分度最小,最后1个分层的平均题目区分度最大。注意,当a和b不相关时,b分块的按a分层方法等价于按a分层的方法。Chang等人(2001)的模拟研究(基于真实的题库)表明:b分块的按a分层方法在降低题目的过度曝光率、提高题库题目使用率以及改善测量精度等方面都优于按a分层的方法。
在CAT中,被试每作答完一个题目后,其能力估计值及能力估计的标准误(可通过计算测验信息量获得)都会被及时更新,接着CAT根据选题策略选择下一个题目施测被试并循环往复。但是这个过程不会一直进行下去,CAT提供一些规则用于终止测验。目前,CAT终止规则主要包括两大类:动态终止规则(dynamic stopping rule)和静态终止规则(static stopping rule)。其中,动态终止规则下的CAT测验长度并不固定,也被称为变化长度的终止规则;而对于静态终止规则,CAT给每名被试施测相同数量(如30道)的题目,因此也被称为固定长度的终止规则。
常见的动态终止规则有3种:①标准误阈限值终止规则。即不断施测题目直到测量标准误落在可以接受的范围内(如测量标准误低于阈限值0.2)。这就要求题库中的题目能够提供充分的测验信息量以满足终止规则。②最小信息量终止规则。即当剩余题库中所有题目的题目信息量都低于某个预设水平时,结束测验。③稳定性终止规则。连续估计得到的能力值之差小于某个预设值时(即能力估计值达到稳定),结束测验。
此外,还可以交错使用多种类型的终止规则,如在“达到预设测验长度”和“达到预设测量精度”两个条件中只要满足1个,CAT就终止结束(Cheng,2008)。理论上,变化长度的终止规则更能体现CAT的优点。但是如果每个被试参加CAT时作答的题目数不同,可能会让被试或公众感到不公平,所以几乎所有重要的大规模CAT都采用固定长度终止规则(Thompson,2007)。Kingsbury和Houser(1993)的研究表明,不管是在多级评分CAT还是在0-1评分CAT中,动态终止规则在能力估计准确性、测验效率和能力估计的收敛等方面均优于静态终止规则,而且“标准误阈限值终止规则”要优于“最小信息量终止规则”。
上述5个组成部分不是相互独立的,当我们在构建CAT时需要综合考虑以上5个方面。例如,如果可以在测验开始前获得关于被试总体的充分信息(基于之前的测验施测或有用的协变量,如平均分或GPA等等),那么就可以给定能力的先验分布并使用EAP或MAP等贝叶斯参数估计方法。同时,与被试总体相关的知识也有助于题库建设和维护。另外,如果测验是高风险的,应该考虑使用具有曝光控制功能的选题策略。
CAT的所有这些方面共同影响CAT的结果。例如,对于同一个被试,即便使用相同的选题策略,不同的能力估计方法也可能会得到不同的参数估计值,从而选择不同的题目。因此,为了研究某个因素(这里的因素指参数估计方法、选题策略和终止规则等)的不同水平对CAT结果的影响,需要控制其他的因素。例如,如果希望研究不同选题策略对CAT结果的影响,则需要固定参数估计方法和终止规则等其他因素。