心理与行为定量研究手册最新章节_王孟成著

2.1 引言

2.1.1 经典测量理论与项目反应理论

众所周知，测量是按照一定的规则与标准，对研究对象进行定量描述并赋予其确定数值的过程。而心理测量则是以一定的心理学理论为假设前提，通过实验、量表、问卷、数字记录等多源、客观的测量和数据采集手段，基于量化分析模型，对个体的心理特质或能力水平进行定量和分类的过程。20世纪初，随着能力测验的普及，经典测量理论（Classical Test Theory，CTT）名声大噪，并为心理测量学的发展与应用做出了重大贡献（郑日昌，1987）。直至今日，经典测量理论仍在心理与教育测量领域占据着重要地位。然而，由于经典测量理论存在一些理论体系上的缺陷，研究人员不得不寻找可以弥补其局限性的更优质的测量理论，而项目反应理论（Item Response Theory，IRT）的出现恰好为突破此困境提供了更优的解决方案。IRT作为现代测量理论在心理与教育测量领域的新发展（漆书青等，1992），弥补了经典测量理论的不足之处，逐渐显示出了其优势所在。

1）经典测量理论及其缺陷

经典测量理论的理论体系是建立在随机抽样理论的基础上的，其理论假设为：个体的观测分数（Observed score）等于真实分数（True score）和测量误差（Error）的总和，即X=T+ε（戴海崎等，2018）。CTT在此理论假设的基础上，成功地将测量误差从个体的观测分数中分离了出来，而这种假设背后存在的最大问题在于误差的模糊性和不可知性。模糊性体现在个体的观测分数中可能包含了某些与心理特质的测量无关却的确会对观测分数的数值产生影响的因素（如测量工具选择不当等），而这些因素往往会导致不同程度的测量误差。在此基础上使得测量误差变得不可知，进而导致无法准确估计出被试的真实心理特质水平。因此，CTT在应用过程中逐渐暴露出了多方面的缺陷：

（1）观测分数等权重线性累加的不合理性

CTT中的许多指标都是基于观测分数的累加原则而获得的，但这种累加方法在很多情况下是不合理的，因为项目与项目间的难度、区分度并不相同，答对不同的项目就应该赋予不同权重的分数，然后再进行累加（Baker et al.，2004）。假设在 0、1计分的项目中，一个低能力水平的被试答对一个较为简单的项目与一个高能力水平的被试答对一个较为困难的项目所获得的权重是一样的，这种等权重的累加方式并不能很好地体现出被试真实的能力差异。虽然CTT也可以进行加权计分，但是其加权的过程非常粗糙。也有一些测验在编制时会对不同难度的项目进行不同的赋分，但由于CTT本身的缺陷，其赋分的准确性并不高。

（2）对被试特质水平的评估依赖测验项目

CTT中对被试特质水平的评估指标主要为测验总分，而测验总分是被试观测分数之和（Brown，1985；Magno，2009）。在使用测验总分进行评估时，不同被试特质水平之间的比较只能在被试接受了相同测验的前提下才能进行，当被试接受了项目数量不同或内容不同的测验时，是无法进行比较的，除非两个测验是严格平行的测验，而严格平行的测验在实际中几乎不可能实现，所以在CTT框架下，被试特质水平的评估对于测验项目本身有着很强的依赖性。

（3）对测验与项目性能的估计依赖被试样本

CTT有一系列的参数指标，例如测验的信效度、项目的难度、区分度等。该理论采用相应样本统计量去估计总体参数，但这些参数的估计对样本的依赖性极大（Baker et al.，2004）。例如，对于项目难度来说，若作答同一项目的样本整体的特质水平偏低，则依据该样本所计算得出的难度值偏高；反之，则偏低。同样，由于区分度是被试项目得分与总分之间的相关系数，而相关系数会受样本全距的影响。测验的信效度也主要是计算相关系数，因此也会受到影响。一般情况下，为了避免抽样误差过大而导致参数估计偏差过大的情况发生，CTT强调在抽样时要尽量保证样本能够很好地代表其所在总体，故基于CTT的研究一般采用随机抽样的方法来进行样本选择，但在实际情况下几乎无法得到真正随机的样本（罗照盛，2012）。在这种情况下，找到对被试样本依赖性较小甚至不依赖被试样本的参数指标在CTT框架内是很难办到的。

（4）被试特质水平与项目难度含义之间的非统一性

一般而言，当研究人员使用某个测验去评估被试的特质水平时，往往希望能够挑选出难度与被试特质水平最为匹配的试题。在CTT中，项目难度的参照系是被试群体，项目的难度为0.8表示“通过”该项目的被试占比80%，而被试特质水平则是通过被试的卷面得分来反映（Baker et al.，2004）。被试卷面得分的参照系是全部试题，在百分制测验中获得 80分表示被试在此测验上的得分率为 80%，但我们无法推测出难度为 0.8的项目是否与得分为 80分的被试相匹配，更无法预测该被试在此项目上的精准作答概率（罗照盛，2012）。在CTT的框架下，虽然被试的特质水平与项目难度的含义界定都很清晰，但二者在不同的尺度上，很难将二者定义在同一参照系内，在测验的实际应用过程中也无法将二者较好地匹配、统一起来。

（5）测量误差估计的不精确和笼统性

测量的目的是获得目标对象的准确的真实值。但由于在任何测量中都无法避免误差的产生，所以在测量过程中对于误差的估计也非常重要。在CTT中，随机误差是通过估算测验信度来间接估计的。CTT中的信度是基于“平行测验”假设，通过估计相关系数而得到的，然而，所谓的“平行测验”本身可能并不是十分“同质”，故信度的估计可能会存在较大的误差（Eisinga et al.，2013）。另外，在CTT中仅可根据所有被试的作答反应获得一个误差估计值，但实际上，不同被试在接受同一测验时，其产生的误差是不一样的（Jackson，1973）。这些因素均导致了信度估计本身就具有不精确性和笼统性（DeVellis，2006）。因此，以同一个误差估计值来评价所有被试测验结果的准确性是非常笼统和不精确的。

经典测量理论的局限性限制了其在实际应用中的持续推广，随着人们对经典测量理论局限性认识的逐渐深化，研究人员认为必须建立一套更为优质的测量理论，以满足心理测量相关研究的实际发展需要。项目反应理论就是在此背景下发展起来的一种新的现代测量理论。

2）项目反应理论及其优势

项目反应理论（Item Response Theory，IRT）是依据一定的项目反应模型，评估被试的作答反应与其潜在特质水平之间关系的一种心理测量理论。“潜在特质”和“项目特征曲线”是该理论中极为重要的两个概念，故其也被称为“潜在特质理论”或“项目特征曲线理论”。目前，IRT已被广泛应用于指导测验的编制、修订以及项目的改编、筛选，通过估计模型参数，可以确定测验项目是否能够很好地反映出被试的潜在心理特质水平（Embretson et al.，2000；Thomas，2011）。IRT作为心理与教育测量理论的新发展，具有超越CTT的优势。

一般而言，影响被试作答结果的因素有两个方面：被试本身的特质水平以及项目的测量学特性（项目难度、区分度、猜测度等）。例如，在同一个项目上，高能力水平的被试正确作答此项目的可能性更大；而对于同一个被试来说，被试正确作答“简单”项目的可能性更大。总而言之，项目反应理论的基本思想是依据被试在各个项目上的实际作答反应，经过项目反应模型估计出被试的能力水平或潜在心理特质水平，以及项目参数，从而建立起被试心理特质水平与其正确作答概率之间的关系（Embretson et al.，2000；Fraley et al.，2000）。其中，用来描述被试特质参数与被试正确作答概率之间关系的数学模型被称为项目特征函数（Item Characteristic Function，ICF），以图形的形式表示为项目特征曲线（Item Characteristic Curve，ICC）。

图2.1为典型项目特征曲线ICC的实例。其中，横轴表示被试的特质水平，纵轴表示被试的正确作答概率。曲线上的5个坐标点A—E分别代表了5位拥有不同特质水平的被试正确作答某项目的概率。如图2.1所示，随着被试特质水平θ的升高，其在项目上的正确作答概率值P也在逐渐增加。从图2.1中所呈现的ICC中也可发现被试在某特定项目上的正确作答概率仅受被试的目标潜在特质水平的影响，而与样本数量和项目参数无关。

图2.1 典型的项目特征曲线

事实上，在心理学所研究的各种心理现象中，个体的潜在特质水平与外部行为表现之间的关系大多是非线性的，所以在描述被试的潜在特质水平与其作答反应之间的关系时，相比于CTT的线性表达，基于概率的IRT模型更能契合心理现象的本质规律。具体而言，IRT具有以下几个方面的优势：

（1）项目参数、被试特质参数的不变性

CTT中各参数估计值对于样本的依赖性较大，但在IRT中，项目参数的估计具有跨群体不变性，也就是说IRT的项目参数估计独立于被试样本（戴海崎等，2018）。只要测量同一潜在特质的测验中的项目参数分布广泛，充分覆盖了不同难度水平的项目，即测验中既包含较困难的项目，也包含中等难度和较为简单的项目，而项目参数的估计不会依赖于被试样本。

此外，IRT还具有“被试特质参数估计独立于项目样本”的优点。理论上，被试特质水平估计的原理是：将项目按照难度从低到高排序，被试的特质水平应该高于其正确作答项目中可达到的最高难度参数值，而低于其错误作答项目中所达到的最低难度参数值，但实际中，由于猜测或失误等原因，此分界点可能并没有那么明确，但仍可通过一定方法加以确定（van der Linden et al.，1997；Parkin et al.，2018）。即使在不同的项目样本中，仍可依据此原理找到被试的特质水平值。由此可见，能否准确得知被试的潜在特质水平仅与项目难度的分布是否已有效覆盖该被试所具备的潜在特质水平值以及项目能否精细区分具有不同潜在特质水平的被试有关，而与项目数量、项目具体内容无关。

总而言之，在IRT中，项目参数的估计几乎不会受到被试潜在特质水平的影响，而被试潜在特质水平的估计亦不会受到项目特征的影响。

（2）潜在特质量尺的可选择性

项目参数的跨群体不变性只有在已经确定了潜在特质量尺的前提下才能显现出来。一旦潜在特质θ的度量系统改变，项目参数就会随之改变，因此，当我们在施测不同被试群体时，要使其项目参数保持不变，就要使群体间的潜在特质量尺保持一致。可选择性是指量尺的参照点和度量单位可以任意选择，而其回归函数值保持不变。IRT中可以任意选择潜在特质量尺以满足此要求（Embretson et al.，2000）。也就是说，当特质参数θ的参照点发生改变时（加上或减去某常数），只需将项目难度参数β作相同变化，P（θ）仍会保持不变；同样地，当θ的测量单位发生改变时（乘以某常数），只需将项目难度参数β的测量单位作相应变化，并将项目区分度参数α的测量单位作相应的逆向变化（除以此常数），即可使P（θ）保持不变。利用这一性质，可将不同测验、不同被试的潜在特质参数与项目参数定义在同一度量系统上。IRT的这一优良性质也为测验等值提供了理论基础（Matlock et al.，2016）。

（3）项目参数设计的科学性

项目反应理论参数设计的科学性体现在以下几点：首先，项目难度参数β与被试潜在特质参数θ定义在了同一度量系统上（van den Berg et al.，2007），为选择与被试特质水平相匹配的测验提供了条件。其次，区分度参数α与难度参数β相互独立（DeVellis，2006），为在任意难度水平上编制高区分度项目提供了保证。此外，项目参数设计的科学性还体现在猜测参数的实证性中（DeVellis，2006；罗照盛，2012）。在CTT中猜测参数是根据理论概率估计得出的，并不考虑实际是否有猜测，而IRT测验中的猜测参数可根据观测数据计算得出，体现出了一定的实证性。

2.1.2 项目反应理论的发展简史

作为测量理论的一大重要分支，IRT现已经过了很长一段时间的发展与变迁。时至今日，IRT已具有了十分清晰的理论框架与基础，被大众所接受且应用较为广泛。

自20世纪30年代末、40年代初，IRT便逐步发展出了最初的理论框架。1936年，Richardson澄清了IRT的模型参数与经典测量理论CTT模型参数之间的关系，为IRT的参数估计提供了初步的方法支持。之后，Lawley（1943，1944）提出了更加完善的参数估计方法。1946年，Tucker首次使用了项目反应理论领域的核心概念“项目特征曲线”一词（1916年，Binet和Simon最先研究ICC），为后来IRT模型的建立奠定了一定的基础。其后，美国心理测量学家Lord于1952年首次提出双参数正态卵形模型（Two-parameter Normal Ogive Model）的公式，标志着项目反应理论的正式诞生。1957年至1958年，美国数理统计学家Birnbaum用更为简洁的Logistic模型逐步取代了Lord的正态卵形模型，力求在数学运算方面提供一些便利。在此之后，丹麦数学家和统计学家Rasch于 1960年提出著名的单参数模型——Rasch模型，Rasch模型的诞生是项目反应理论领域的又一重要的里程碑。在Rasch模型的发展过程中，研究者Wright起到了不可忽视的推动作用，使该模型得到了广大研究人员的认可与重视，推动了IRT模型在测验开发和实际评估中的应用。

随着计算机的不断发展和逐渐普及，高级语言开始迅速发展，计算机软件的出现使复杂的IRT模型参数的估计难度大大降低。1969年，Samejima在前人研究的基础上，实现了二级计分模型到多级计分模型的转变，并将IRT模型拓展至二参数模型，这是项目反应理论发展史中的重大突破之一。其后，IRT模型继续扩展，并不断复杂化、多样化。1980年，Lord在“Applications of Item Response Theory to Practical Testing Problems”中提供了三参数模型的理论发展与应用的详细介绍，自此被试对于项目的猜测因素也列入了IRT模型参数估计的考虑之中。自 20世纪80年代开始，随着个人计算机的全面普及，项目反应理论迅速发展，广泛应用于测验的开发、项目的分析以及测验质量监测等各个环节中，并推动了计算机化自适应测验的蓬勃发展。

近些年来，随着参数估计方法的逐步完善以及参数估计程序的不断精进，项目反应理论已经有了长足的发展。为了更好地测量项目特征和被试潜在特质之间的联系，研究者对以往的Rasch模型进行了拓展，衍生出了多侧面Rasch模型（Many-Facet Rasch Model，MFRM）。MFRM不仅可以实现对项目参数和被试特质水平的估计，还可考虑如评分者的评分标准的宽严程度等因素对研究结果的影响，在评估被试特质水平时体现出了一定程度的公平性（Linacre，1989；Linacre et al.，2002）。另外，传统的Rasch模型也可被视为多水平项目反应模型的特例，多水平项目反应模型可结合项目水平、被试水平甚至更高水平的层面来进行分析。Rasch模型中的参数项目和能力参数可与多水平项目反应模型中的参数相互对应（刘红云等，2008）。

除此之外，考虑测验数据本身的多维性以及个体在完成一项测验任务时往往需要多种能力相互配合的情况，IRT的单维性假设往往与许多心理或者教育测验的实际需求并不相符（康春花等，2010）。出于以上原因，开发能够同时考查多种能力或特质的测验模型的需求与日俱增，研究者们逐渐把目光放在将传统的项目反应理论扩展为多维项目反应理论（Multidimensional Item Response Theory，MIRT）的研究领域上。1981 年，在前人研究的基础上，Bock和Aitkin建立了项目反应理论（IRT）和因素分析（Factor Analysis，FA）之间的直接联系，从而产生了真正意义上的多维项目反应理论的雏形，多维项目反应理论逐渐出现在人们的视野中。与此同时，考虑一些项目在实际测量中非常重要但却无法满足IRT强假设的原因，研究者们提出了非参数项目反应理论（Non-parametric Item Response Theory，NIRT），以期对参数项目反应理论（Parametric Item Response Theory，PIRT）起到一些补充作用，或将其用于探索数据结构的工作中（陈婧等，2013；Meijer et al.，2014）。

随着人们对研究人类高级心理过程的求知欲望逐渐加深以及测量手段的不断精进，近三十年来，心理测量领域迎来了新一代测验理论——认知诊断理论（Cognitive Diagnostic Theory）。它将测量手段与个体的认知过程相结合，把认知心理学的理论巧妙地融入测验模型中，可以做到定量地考查被试的认知结构和个体差异（涂冬波等，2008）。认知诊断理论是基于项目反应理论发展起来的（余娜等，2009）。由于认知诊断模型是基于项目水平的反应概率模型，因此也被视为广义的项目反应模型。总而言之，认知诊断模型不仅充分应用了心理学的理论知识，该理论模型的产生还极大地推动了测量理论向前发展。

2.1.3 项目反应理论的应用

在实际应用中，人们不断对测量结果的精确性提出更高的要求，所以测量理论和模型表现出越来越复杂的趋势，以IRT为核心的现代测量理论取代了CTT的核心地位，在现代测量实践中发挥着重要的作用（辛涛等，2012）。基于IRT的项目功能差异、测验等值、计算机化自适应测验等被广泛应用到了实际测量中。

1）项目功能差异

项目功能差异（Differential Item Functioning，DIF）指的是，对于同一道测试项目，如果两组能力水平相同的被试答对该项目的概率不等，那么就称该项目存在功能差异。首先，将被试人为地划分为两组，具体以何种标准分组取决于研究的具体问题，常见的分组依据有性别、地域、民族、社会经济地位等。一般而言，在测验项目上的作答相对不利的那组被试被称为目标组，而在测验项目上的作答可能存在优势的被试组被称为参照组。分组完成后，需要依次找到两组中能力相同的所有被试，然后分析他们的作答反应是否存在差异。如果有差异则说明该项目存在DIF，反之则不存在DIF。通过前面的介绍，我们了解到IRT的优点之一在于它对被试潜在特质水平的估计和项目参数的估计是互相独立的，根据这一特性，我们可以直接运用根据IRT模型所得到的被试潜在特质水平来衡量两组被试的能力高低。在IRT的框架下，DIF的定义为：如果参照组和目标组之间的项目参数或项目特征曲线存在差异，则该项目有DIF；如果不存在差异，则该项目没有DIF（曾秀芹等，1999）。分组完毕后，先分别计算参照组和目标组的项目参数，然后把参数放在同一个尺度上，比较两者之间的差异。常运用的检验方法有项目特征曲线（ICC）区域面积测量法（Raju，1990）以及Lord卡方检验（Lord，1980）。DIF在实际应用中往往会呈现出两种模式：一种是某一项目在整个能力范围上，一致性地偏向参照组被试；另一种是在部分能力范围内，该项目偏向于参照组被试，而在另一部分能力范围内偏向于目标组被试。前者称为一致性DIF，后者则称为非一致性DIF。此外，IRT框架下不仅可以对 0、1计分的项目进行项目参数的估计，还可以对多级计分的项目进行分析，因此，基于IRT的项目功能差异还可被用于人格测验中进行不同群体之间的比较（曹亦薇，2003）。

2）等值

测验等值（Equating）是对测量同一心理构念的多个不同测验作出测量分数系统的转换，进而使得通过不同测验得到的分数之间具有可比性的过程。Holland 和Dorans（2006）把一个测验上的分数转换到另一个测验分数所在的量尺上的过程叫作链接（Linking），主要包含预测（Predicting）、量尺化（Scale aligning）和等值（Equating）。预测的目的是根据被试在某个测验上的作答来推断出该被试在其他测验上的得分情况。等值是为了得到可互换的分数，而量尺化的目的则是得到可比较的分数。在三者之中，等值的假设最为严格，量尺化次之，预测的假设最为宽松；故而水平测验（同一测验的不同形式）之间的链接往往被认为是等值，而垂直测验（同一测验系列的不同水平）间的链接往往被认为是量尺化（叶萌等，2015）。良好的数据收集设计是分数得以转换的前提，常见的设计类型有锚题设计、等组设计、锚测验设计以及这些设计类型之间互相结合的设计等。数据收集完成后，通过链接的载体（锚题或者锚人）实现分数的相互转换。在CTT的框架下得到的分数转换关系往往会随着样本的变化而发生改变，所以不同的研究者很难得出统一的结果。IRT取向的测验等值是一种应用趋势（王烨晖等，2011）。在IRT框架下，在施测锚题后，同一个项目参数（如难度）可得到两个参数估计值，由于相同能力的被试答对锚题的概率是一定的，故可以得到一个关于同一个项目参数的不同参数估计值之间的关系等式，最终得出具体的转换关系。近年来，多维项目反应理论也逐渐被应用于测验等值中（辛涛等，2012）。

3）个人拟合

在心理测验或教育测验中，经常会出现被试的真实特质水平无法被准确评估的现象，这一现象往往归咎于被试的异常作答行为。例如，成就测验中的猜测、抄袭、创造性作答，以及人格测验中的随机作答、无动机、社会赞许性等（Meijer，1996；Reise et al.，1996）。而被试的这些异常作答往往会导致对于测验信效度的低估或其他不良影响（Liu et al.，2019；刘拓等，2011）。为了更好地鉴别和筛除测验中存在的异常作答被试，个人拟合（Person-Fit）研究逐渐进入了人们的视野（王昭等，2007；刘拓等，2011a，2011b）。

IRT作为个人拟合研究的理论基础之一，其基于对项目参数与被试特质参数的估计，将被试的实际作答模式与某种特定的IRT模型进行匹配（Meijer et al.，2001），根据个人拟合指标（Person-Fit Statistics，PFS）或曲线图形法（Graphical Person-Fit Analysis）等方法来判断被试的实际作答模式与假设模型的匹配程度（Liu et al.，2019；王昭等，2007）。需要指出的是，在不同IRT模型的背景下，不同个人拟合指标的检测能力可能会存在差别（Karabatsos，2003），但总的来说，基于项目反应理论lz簇的个人拟合指标是当前检测能力较强且应用较为广泛的个人拟合指标之一（曹亦薇，2001；Nering et al.，1998）。

4）计算机化自适应测验

20 世纪 50 年代，IRT的发展为计算机化自适应测验（Computerized Adaptive Testing，CAT）提供了测量理论基础（van der Linden et al.，2000）。CAT根据被试的能力水平自动化地为之选择测验项目，不仅大大缩短了测验长度，还极大地提高了测量准确性（毛秀珍等，2011）。CAT研究需要考虑以下六个关键环节：研究所选用的项目反应模型、标定题库、初始项目的选择方法、能力估计方法、选题策略、终止规则（Weiss et al.，1984）。CAT的顺利发展得益于IRT框架下的项目参数与被试能力水平之间的独立估计，故可以清晰地掌握与特定能力水平的被试最匹配的试题的项目参数。在不考虑猜测参数和其他因素的情况下，最理想的项目是区分度最高，且难度与被试能力水平相当的项目。简而言之，CAT的具体实施步骤如下：首先，在IRT框架下建立题库，题库中的所有试题的项目参数已知，且试题的难度和区分度参数理应分布范围广泛。确立好题库后，进行初始项目的选择，而后，在IRT框架下根据被试的作答反应估计其能力水平。结合信息量函数，根据一定的规则从题库中挑选出与当前被试的能力水平相匹配的项目作为测试的下一题（辛涛等，2013）。由于被试不能无休止地进行作答，故需设定相应的规则来终止测验。在本书的后面章节中将会对CAT进行详细介绍，具体过程请参见后面的章节。虽然CAT问世不久，但在现今互联网时代的大背景下，CAT的发展前景较为光明，已然在国内外大规模选拔性和资格性考试中得到了广泛应用（陈平等，2006）。