从古至今,随着时代的发展,测验的形式也随之改变,从纸笔测验(Paper & Pencil,P&P)发展为计算机化固定题目测验(Computerized Fixed-Item Testing,CFIT),再发展到计算机化自适应测验(Computerized Adaptive Testing,CAT)以及多阶段测验(Multistage testing,MST)。在对CAT下定义之前,我们首先对P&P和CFIT两种测验形式的特点进行简单回顾。
最为传统的P&P要求所有被试使用笔作答同一批题目或一组平行测验(如AB卷),其题目呈现在纸质试卷中,测验结束之后由老师手工阅卷。而CFIT则借助计算机的优点,将P&P“原封不动”地照搬到计算机上实施。两者的相同点在于固定题目(即在测验前所有题目以及题目的呈现顺序都已经确定),而不同点则在于CFIT的整个测验过程都在计算机上完成。表4.1对两者的优缺点以及应用进行了概括。
表4.1 P&P与CFIT的优缺点以及应用
随着计算机技术与测量理论的飞速发展,CAT自20世纪70年代早期被引入测验领域,目前已经成为一种非常流行的测验模式(Cheng,2008)。CAT以项目反应理论(Item Response Theory,IRT)或认知诊断理论(Cognitive Diagnostic Theory,CDT)为指导,基于被试在已作答题目上的表现(称为作答历史)估计或更新他/她的能力水平,并根据选题策略依次地从剩余题库中选择最适合被试作答的题目施测被试,直至满足测验终止规则(Chang et al.,1996)。
Embretson和Reise(2000)认为:难题不易准确测量低能力被试,易题不易准确测量高能力被试。只有采用对于被试能力水平而言难度适中的题目(正确作答概率为50%),才能达到准确、高效测量被试能力的目的。而“量体裁衣、因人而异”的CAT恰恰可以有效避免被试作答与其能力水平相差较大的题目,从而可为每位被试提供最合适的、最优的、最个性化的测验。
从另外一个角度看,CAT实际上也是一种测验生成的形式,不同于P&P和CFIT是在被试作答之前就已经生成测验,CAT是在测验过程中逐步选择最适合被试作答的题目。介绍到这里,大家可能会问:在CAT中,不同被试作答的题目难度不同,作答题目数量也可能完全不同,那么它们的能力估计结果是否直接可比?回答这个问题可以结合IRT的性质进行解释:在IRT中,只要所有题目的参数在同一量尺上,对它们或部分题目进行作答得到的分数就可比,即使它们的难度水平不同或数量不同。而在经典测验理论(Classical Test Theory,CTT)中,只有平行测验之间的分数才能够进行合理比较,而理论上完美的平行测验是不存在的。
在对CAT有初步了解后,本章接下来依次对CAT的优缺点、CAT的国内外应用、CAT的重要组成部分以及CAT的发展新方向进行详细介绍,而且还提供一个具有CAT系统的计算机模拟实现程序以帮助读者更好地理解上述内容。希望读者通过本章的学习,对CAT有较为系统、全面的认识,并对这种测验形式产生兴趣。
CAT根据被试能力自适应地选择题目,具有差异化、个性化和自适应的测试特征,为现代教育测量带来巨大的变化。CAT具有传统测验形式不可比拟的优点。
CAT的能力估计效率高于P&P和CFIT,即使用相同数量的题目,CAT可以达到更高的估计精度(Wainer et al.,1990)。换句话说,CAT在不损失测量精度的情况下,可以缩短测验长度(相当于节省主试和被试的时间),从而提高测验效率。Weiss(1982)的研究表明,CAT只需要大概一半的题目就能够达到与P&P相同的估计精度。
由于CAT以计算机作为测量媒介,相比于P&P,其题目的内容与形式得以大大丰富。CAT与多媒体技术结合可以创设各种生动、形象的测验情境。例如,可以呈现一些音频和视频片段以及其他不可能或很难在P&P中实施的新颖题目类型(Cheng,2008),像短时记忆题和空间记忆题。如果有语音合成器的话,还可进行听力和口语测试。
CAT与认知诊断相结合得到的认知诊断计算机化自适应测验(Cognitive Diagnostic CAT,CDCAT),可以测量新的技能类型(如学生对各个知识点或属性的掌握情况);与多维项目反应理论相结合构建的多维计算机化自适应测验(Multidimensional CAT,MCAT),可以提供学生在各个能力维度上的精细信息;与多级项目反应理论相结合,可以提供基于表现的题目类型(如简答题和计算题)。另外,通过计算机记录学生在每道题目上的作答反应时间或是在问题解决过程中的一举一动,并对这些结构化/非结构化的数据进行分析,可以更全面、更准确地评价学生的能力(如高阶思维能力/21世纪能力)。
相对于P&P和CFIT,基于自适应算法的CAT可以降低某些题目的曝光率,CAT由于采用自适应算法选题使得不同被试作答不同的题目集,因此可以减少某些试题的重复出现。另外,由于CAT施测的题目是通过依次从剩余题库中选取而最终确定,因此在测验开始之前不论是主试还是被试都无法知晓这些题目,从而可降低考试作弊的可能性,增强测试的保密性和公平公正性。而且,任意两名被试在同一时间不太可能作答相同题目,所以抄袭的收益不大。
当题库得到良好维护时,CAT可以连续施测(即连续测验),于是被试可以选择他们方便的时间参加测验。另外,相比大规模的P&P测验,CAT不受考场限制,测验环境更为舒适且周围人数更少,因此受影响程度更低(Cheng,2008)。
尽管CAT存在诸多优点,但是在具体实施的过程中也存在一些不足或缺点。
使用CAT的前提是需要构建一个题库,而且要求题库中所有题目的参数是已知的。为了获得稳定的题目特征(如区分度、难度和猜测度),所有题目都必须预先施测于某个较大的、有代表性的被试样本。因此,构建CAT题库的初期费用就会比较高(需要相当的人力、物力和财力),而且CAT题库不可能由完全崭新的、被试从未见过的题目组成。另外,题库建好后,在连续使用CAT的过程中还需要定期对题库进行管理和维护,如定期淘汰质量不好的题目、“休眠”曝光率较高的题目(陈平 等,2011a,2011b;陈平 等,2013)。
大多数CAT不允许被试返回检查并修改答案,这主要是因为考试机构担心允许修改答案会带来诸多现实问题。例如,一些“聪明”的被试或“聪明”的备考机构所指导的被试通过使用Wainer“作弊”策略(Wainer,1993)和Kingsbury策略(Kingsbury,1996)获得能力高估值,从而影响测验的公平性、公正性和准确性;允许修改答案还会增加测验时间,相应地增加测验费用。但是从被试的角度来看,不允许修改答案使得他们在P&P中惯用的答题策略不能应用于CAT,这样会给他们带来压力(陈平 等,2008;林喆 等,2015)。另外,CAT的自适应算法本身就决定“被试只能答对一半左右的题目”,这样同样会增加被试的焦虑水平并影响被试的测验表现(Olea et al.,2000)。所以在参加CAT时,被试都希望得到返回检查并修改答案的机会。
题库的安全性一直是个巨大的挑战。1994年,美国Kaplan教育中心多次派出雇员参加美国研究生入学考试(Graduate Record Examination,GRE),让他们尽可能多地记住题目并反馈给Kaplan。在短短的时间内,Kaplan发现其雇员记住的题目已经占到GRE题库的相当大比例,为此美国教育考试服务中心(Educational Testing Service,ETS)被迫暂停GRE机考。此次事件属于一次有组织的大规模偷题事件,这也暴露出CAT连续施测存在的严重安全隐患(张华华 等,2005)。而在国内,新东方曾在未经授权或多次版权磋商未果的情况下,大规模使用或复制ETS的试题,结果两者产生纠纷,ETS把新东方告上法庭。2002年,ETS以考题泄密为由,宣布暂停在东亚一些国家的GRE机考,改为笔考。
对部分被试来说,参加CAT的得分可能会低于参加P&P的得分(Chang,2004)。Chang和Ying(2008)针对此现象分析其低估原因,结果表明,常用于CAT的最大费舍尔信息量(Maximum Fisher Information,MFI)选题策略倾向于使用高区分度题目,这使得CAT在测验初期对被试能力的估计会产生较大的步长。具体来说,如果被试在测验初期错误作答一些题目且测验长度不太长时,他/她的能力会被低估;如果被试在测验初期能够通过猜测正确作答一些题目,那么其能力会被高估。另外,要准确分析上述现象可能也涉及另一个研究主题——测验模式效应,即当同一批题目用不同的测验形式(如P&P和CAT)进行呈现时是否会出现功能性差异(代艺,2020)。
CAT在测验领域的发展历史大约有 40年,直到现在还可以看到CAT的各种衍生产品不断出现,之所以这样经久不衰肯定有它的迷人之处。上述的诸多优点使CAT在国内外大规模选拔性和资格性考试中得到广泛应用(Chang,2004;Cheng,2008;陈平 等,2006;陈平,2016)。
在国内,一些机构已经开始使用或者计划使用CAT进行教育、心理测验以及人才测评。
从20世纪90年代初开始,全国大学英语考试(College English Test,CET)委员会一直致力于CAT的研发。2008年以来,CET委员会进行多次远程网络考试的实验,并将IRT用于CET分数的等值处理中,但尚未开发出成熟的自适应测验(柴省三,2013)。国内的大规模语言测验中,除CET委员会外,中国汉语水平考试(HSK)中心也在积极研究将CAT用于考生汉语水平的测评。目前,HSK的考点遍布全球百余个国家,使用计算机化测验能在相当程度上提高测评效率、节约成本。
在军队征兵系统中,我国每年的全国征兵心理检测系统也已开始应用CAT的方式,其实用性和准确性得到广泛认证(谢敬聃 等,2012)。第四军医大学也已开发考查应征公民空间能力的CAT拼图测验(田建全 等,2009)。而在人才测评方面,许多人才测评公司也致力于开发与应用CAT版本的笔试,使CAT在我国企事业单位的人才选拔与测评中得到广泛应用。
另外,CAT技术还被应用于英语以及其他学科的教学中,如某些单词学习软件为用户制订个性化的学习方式,提高用户的学习体验和学习效率。
在国外,对CAT的研究及应用则开展得更早,其应用的规模也相对更大。由于军队常常需要在短时间内对大量候选者的能力水平进行评估从而实现人和岗位的良好匹配,因此在CAT出现之初,美国的军队人力资源管理部门就对其表现出浓厚的兴趣。1995年,美国正式推出历经15年研发的计算机化自适应军事服役职业能力倾向成套测验(CAT-ASVAB),目前该测验已在西方国家征兵心理检测过程中被广泛采用。
而在教育领域,国外测评机构已将CAT应用于多项大型测验。1993年,美国大学入学考试委员会(ACT)在COMPASS项目中使用计算机化自适应数学阅读和写作测验(Dodd et al.,1995)。1993年,ETS全面投入使用GRE的自适应版本。随后在 1997年,美国商学院研究生入学考试(GMAT)开始使用自适应版本测验。此外,美国临床病理学家协会(ASCP)考试、美国医生护士资格考试(NCLEX)也先后推出CAT版本。在美国的K-12教育中,奥巴马政府于2009年推出“竞争卓越”(Race to the Top)教育改革计划,重点推动改造低绩效的学校。以此为背景,美国 25 个州组成智慧均衡测评联盟(Smarter Balanced Assessment Consortium,SBAC),并为 3 至 8年级以及高中学生在英语语言艺术/读写、数学能力等方面开展CAT测验,对每位学生进行总结性评价、可选择的临时评价以及形成性评价。其中每项测验分为CAT部分与表现任务部分,对其CAT部分算法感兴趣的读者可以参考Jon Cohen和Larry Albright(2014)撰写的 Smarter Balanced Adaptive Item Selection Algorithm Design Report。 此外,犹他州“学生成长与卓越评价”(student assessment of growth and excellence)亦采用CAT的形式开展。