心理与行为定量研究手册最新章节_王孟成著

2.3 多级计分模型

在心理与教育测验中，除了单项选择题（二选一）、判断题等0、1计分的项目类型以外，经常会包含一些其他类型的项目，如单项选择题（多选一）、多项选择题、简答题、计算题等，此类项目的计分方式一般会分为多个等级，根据被试的作答情况给予不同的分数，这种项目类型我们称为多级计分项目（漆书青等，2002）。相较于二级计分来说，多级计分可以提供更多有关被试特质水平的信息，因为对于一些需要复杂思维过程的项目来说，简单地用0、1来评价被试是远远不够的，正确作答和错误作答某特定项目的不同被试往往拥有不同水平的潜在特质，因此，我们应尽可能采用能够更大程度地反映被试的不同潜在特质水平的计分方式来进行评价。

传统的多级计分模型一般可以划分为两大类型：一种是直接模型，另一种是间接模型。直接模型是指被试在解答此类项目的整个过程中，只要求运用相同的认知知识和技能就可使问题得到解决；而间接模型是指被试在解答此类项目的过程中需要用到不同的认知知识和技能才能使问题得以解决（漆书青等，2002）。具体而言，间接模型下包含等级反应模型（Graded Response Model，GRM；Samejima，1969），直接模型下包含名义反应模型（Nominal Response Model，NRM；Bock，1972）、评定量尺模型（Rating Scale Model，RSM；Andrich，1978）、分步评分模型（Partial Credit Model，PCM；Masters，1982）和扩展的分步评分模型（Generalized Partial Credit Model，GPCM；Muraki，1992）。其中GRM是应用最为广泛的模型之一，NRM是RSM和PCM的一般化形式，RSM是PCM的特例，GPCM是PCM的扩展。接下来将对以上模型进行一一介绍。

2.3.1 等级反应模型

等级反应模型（Graded Response Model，GRM）是基于单维性假设的模型，由Samejima（1969）提出，该模型适用于一般主客观评分方式的多级计分项目（Koch，1983；Hansen et al.，2019）。对于多级计分项目而言，GRM认为获得了某个等级分数及该等级以上分数的被试均是通过了这个等级的被试，这些被试均被标记为“通过”。反之，则被标记为“未通过”。在GRM中，特质水平为θ的被试在某特定项目上的得分为某个等级及该等级以上的概率为：

式中，k表示被试的得分等级，α _i 表示项目i的区分度参数，β _ik 表示项目i的第k个等级的难度参数，θ表示被试的潜在特质水平。

该数学运算公式为等级反应模型的操作特征函数（Operating Characteristic Function，OCF），根据此函数可绘制出被试作答某特定项目的操作特征曲线（Operating Characteristic Curve，OCC）。现以一个满分为3分的项目为例进行解释。在该项目上，被试的得分共有四种可能（得分为0、1、2、3分）。被试在该项目上的操作特征曲线如图2.5所示。

图2.5 GRM的操作特征曲线

需要注意的是，在GRM中，项目的每个等级几乎都有相应的等级难度β，而得分为0的等级并没有相应的等级难度，这是由于被试得0分及0分以上的可能性为1，这也是图中仅呈现出了3条曲线的原因所在。此外，获得不同等级分数的难度水平是不同的，且随着得分等级的升高，其难度也是单调上升的（Samejima，1969）。然而，每个项目仅存在一个区分度参数α，这是因为对于符合直接模型的项目来说，被试在解决此类问题的整个思维推理过程是持续不变的。在等级反应模型中，项目参数决定了操作特征曲线的形状与位置。一般情况下，项目的区分度参数的数值越大，其操作特征曲线越陡峭。在操作特征函数的基础上，Samejima又为项目等级定义了相应的函数式：

式中，（θ）表示被试得分为某个等级及该等级以上的概率，P _ik （θ）表示被试获得某特定等级得分的概率。根据上述公式可以绘制被试在特定项目上的类别反应曲线（Category Response Curve，CRC），该曲线可反映出特定潜在特质水平的被试获得某特定等级分数的可能性。一般来说，项目包含多少个反应等级就意味着存在多少条类别反应曲线。对于一个满分为 3分（得分可取0、1、2、3分）的项目来说，该项目的类别反应曲线如图2.6所示。

图2.6 GRM的类别反应曲线

从图2.6中可以看出，最左边的单调递减曲线表示不同特质水平的被试恰好得0分的概率，特质水平越低的被试恰好得 0分的概率越大；同样，最右边的单调递增曲线代表特质水平越高的被试恰好得满分的概率越大。而中间各个等级分数的类别反应曲线呈现出单峰形态，表示只有某特定特质水平的被试恰好获得该等级分数的概率是最大的，被试的特质水平与该特定值之间的距离越远，则恰好获得该等级分数的可能性就会越低。

2.3.2 分步评分模型

1）分步评分模型

除GRM外，在对多级计分的项目进行分析时，还会用到分步评分模型（Partial Credit Model，PCM；Masters，1982）。具体而言，分步评分模型是针对有步骤且步骤有序的项目设计的。举个例子，想要得到的正确答案，需要分三步进行，第一步是正确得到 7.5 0.3的计算结果为25，第二步是准确计算25-16的结果为9，第三步需要将9开根号，最终得到的结果为3。在这里，我们可以清晰地感受到正确作答此项目需要经历三个步骤，且这三个步骤具有一定的顺序。此外，完成这三个步骤的难易程度是不同的。在评估成就测验时，选择分步评分的方式往往更加合理。此外，分步评分模型（PCM）同样适用于多级计分的态度或人格测验（Masters et al.，1997）。

分步评分模型（PCM）是1PLM的延伸，被试在某一特定选项上的作答概率可以表示为指数除以指数的和的形式，具体模型为：

式中，P _ixn （θ）表示第n位被试在第i道题的x选项上的作答概率，θ _n 表示第n位被试的潜在特质水平，δ _iv 表示项目i的第v个步难度，其数值相当于两毗邻类别反应曲线交点所对应的潜在特质水平值，r表示项目的选项，m _i 代表步难度的总数量。需要注意的是，r=0，1，2，…，m _i ；v=1，2，…，m _i 。当r=1时，PCM的表达式与1PLM的表达式相同。

举个例子，若某项目存在0、1、2、3四个选项，那么相应地，该项目有0→1，1→2，2→3三个步骤，对应着三个步难度，这三个步难度是没有大小顺序的。0→1，被试是在1或者0中选择一个答案，类似于二级计分；1→2，被试是在2或者1中选择一个答案，类似于二级计分；2→3，被试是在3或者2中选择一个答案，亦类似于二级计分。图2.7所示为该项目的操作特征曲线。

图2.7 PCM的操作特征曲线

操作特征曲线中的三条曲线分别对应着三个步难度，在本例中，从左至右的步难度依次为-2、0、1.5，“S”形曲线代表了潜在特质水平在-6~6 的被试通过某一步骤的概率。此外，由于PCM可被视为一种特殊的Rasch模型，其假设每个项目具有相同的斜率（Slope），且斜率为1，也就是说每个项目都具有相同的区分度，不同项目对不同潜在特质水平的被试的区分能力是一样的。PCM的类别反应曲线如图2.8所示。

类别反应曲线中反映出了潜在特质水平在-6~6 的被试选择每个特定选项的概率，需注意的是，每个特定潜在特质水平的被试选择所有选项的概率之和为1。

图2.8 PCM的类别反应曲线

2）扩展的分步评分模型

由于分步评分模型（PCM）只考虑了项目的步难度，而没有考虑区分度，即PCM假设不同的项目对不同潜在特质水平的被试的区分能力是没有差异的，然而，这在实际情况中并不常见。Muraki（1992）在PCM的基础上提出了扩展的分步评分模型（Generalized Partial Credit Model，GPCM）。GPCM允许不同项目对不同潜在特质水平被试的区分能力存在差别，其模型表达式如下所示：

值得注意的是，GPCM的表达式相比于PCM来说，仅增加了项目的区分度参数α _i ，除此之外，该公式中其他参数的含义与PCM一致。

当项目的区分度参数α=1 时，扩展的分步评分模型（GPCM）与PCM的表达式一模一样。假如某项目包含 0、1、2、3四个选项，那么它有 0→1，1→2，2→3三个步骤，对应着三个步难度；不同于PCM中默认区分度为 1，我们将项目的区分度设定为 2，并绘制了该项目的操作特征曲线，如图2.9所示。

图2.9 GPCM的操作特征曲线

图2.10 GPCM的类别反应曲线

操作特征曲线所代表的含义与PCM中的相似，值得注意的一点是，本图例设定项目区分度为2，步难度均和前面的PCM图例一致，对比两图例后可以直观感受到，本图例中的每条曲线的倾斜程度均大于PCM下的三条操作特征曲线。由此我们可以更加清晰地体会到在操作特征曲线中的斜率所代表的含义。此外，该项目的类别反应曲线如图2.10所示。

同样地，类别反应曲线所代表的含义和PCM中的相似。对比PCM下的图例可以发现，在GPCM中，每个作答类别的曲线都被“瘦身”了，其背后的含义代表了某一特定范围特质水平的被试将倾向于选择某一作答类别，且这种倾向性更为明显。

总而言之，GPCM是在PCM的基础上，假设不同项目可以具有不同的区分度。由于GPCM是PCM的扩展形式，因此它不仅能够实现Rasch模型可以实现的一些目标，而且还可以提供更多关于测试项目特性的信息（van der Linden et al.，1997）。

3）评定量尺模型

评定量尺模型（Rating Scale Model，RSM）是分步评分模型（PCM）的特例，与PCM不同，RSM要求不同项目的选项之间的间隔要完全相等，例如某测验中第一题的第一个选项和第二个选项间的难度间隔应与第二题的第一个选项和第二个选项间的难度间隔相等。

评定量尺模型是由Andrich于1978年提出的，该模型表达式为

式中，P _ix （θ）表示特质水平为θ的被试在项目i上选择第x个选项的概率，r表示项目的选项，m _i 代表步难度的总数量。需注意的是，r=0，1，2，…，m _i ；v=1，2，…，m _i 。（λ _i + τ _v ）相当于PCM中的步难度δ _iv ，在此公式中，τ _v 代表某两个相邻选项之间的难度间隔，在不同项目之间，τ _v 对应相等。该概念的引入也使得项目参数的估计数量大大缩减，节约了参数估计的成本。

由于RSM的独特之处可以在两个不同项目的对比之间体现出来，以两个项目为例，两项目均包含0、1、2、3四个选项，第一个项目与PCM图例中呈现的项目参数一致，即0→1，1→2，2→3三个步骤对应着的三个步难度依次为-2、0、1.5；与第一个项目相比，第二个项目的参数设定稍有差别，仅将项目的第一个步难度调整为-2.5，其余参数保持不变。下面的一系列图形分别呈现了上述两个项目在PCM以及RSM框架下的类别反应曲线，通过类别反应曲线的对比，我们可以清晰地观察到RSM的特殊之处。（图2.11a—图2.12b）

图2.11aPCM的类别反应曲线（第一题）

图2.11b PCM的类别反应曲线（第二题）

图2.12a RSM的类别反应曲线（第一题）

图2.12b RSM的类别反应曲线（第二题）

通过图中的辅助线条，我们可以观察到，在PCM中，两个项目的步难度之间的距离是不等的，然而，在RSM中，此距离是相等的，这就是RSM与PCM的不同之处。

2.3.3 名义反应模型

若将扩展的分步评分模型（GPCM）用评分函数（Scoring function）和级系数（Category coefficients）进行替代的话，GPCM与名义反应模型（Nominal Response Model，NRM）的形式就会变得十分相似。名义反应模型（NRM）由Bock提出（1972），适用于包含多个选项但选项之间并不存在明显顺序的符合称名量尺的项目（van der Linden et al.，1997）。该模型表达式如下：

式中，P _ix （θ）被称为选项反应函数，表示特质水平为θ的被试在项目i上选择第x个选项的概率，其总和为1，即任意一个被试在所有选项上的选择概率之和为1。α _ix 和ζ _ix 是与项目i的第x 个选项相对应的项目参数，其中，α _ix 随着选项x的变化可能具有不同的值，其数值变化的规律取决于项目的性质。因在符合NRM的项目中，选项所对应的数值仅仅是一个识别标志，故NRM的主要功能是通过符合称名量尺的项目对被试的潜在特质水平作出评估（De Ayala，2009）。如果项目的各个选项之间没有顺序，或顺序未知，采用NRM进行模型拟合是更为妥当的选择。