心理与行为定量研究手册最新章节_王孟成著

2.4 项目反应模型的实现

2.4.1 二级计分模型的实现

1）二级计分的Excel实现

在该部分中，我们将介绍如何使用Excel以及Mplus实现二级计分项目反应模型的建构。首先要介绍的是使用Excel加载项来实现IRT分析，此处将用到eirt插件。eirt插件来自项目反应理论库（Item Response Theory Library，libirt），项目反应理论库是基于C语言编写的一组函数，用于估计测验中的项目参数以及被试的潜在特质水平，项目反应理论库中包含两个常见应用——rirt和eirt。其中，rirt是在编程软件R中使用的程序包，而eirt则是在Excel的加载项中发挥作用。读者可到相关网站自行下载。

在这里我们将以某次HSK（汉语水平考试）的部分数据为例，说明如何使用Excel中的加载项（eirt）实现单维二级计分IRT模型的评估，根据HSK项目的特性，该部分将拟合3PLM，作为实际操作的演示。

第一步，将数据导入Excel工作表中，如图2.13所示。

图2.13

在本数据中，第一列为被试编号，其余列为被试在HSK项目上的作答反应，共45个项目，由于HSK项目的计分方式为二级计分，故被试的作答反应仅包含0和1。本次分析所用的实际数据共包含6225名被试，图中仅展示了25名被试的观测数据。

第二步，建立模型：首先，在Excel工具栏中的点击顺序为：【加载项】→【eirt】→【Start the assistant】→ 选择数据（【Select】→【选中数据】）→【OK】→【Next >】（图2.14—图2.16）

图2.14

图2.15

图2.16

需要注意的是：在选择数据时只需选择被试的作答数据，即不应包含行标题以及列标题，否则需要勾选上图红色框中的相应选项。

其次，选择计分方式：【Dichotomous】→【Next >】（图2.17）

图2.17

需要注意的是：如果数据中不存在缺失值，我们可以继续点击【Next >】，若数据中存在缺失值，那么应在Missing value的部分将替代缺失值的具体数值标注出来。

接下来，选择参数模型：【Three parameters logistic model （3PLM）】→【Next >】（图2.18）

图2.18

需要注意的是：在该参数模型的选择界面中，One parameters logistic model （1PLM）代表单参数Logistic模型，Two parameters logistic model （2PLM）代表二参数Logistic模型，Three parameters logistic model （3PLM）代表三参数Logistic模型，研究者可根据研究需要及项目具体特征选择适合的二级计分IRT模型。

最后，勾选研究所需的各项估计值（方框选中的估计值都应点击勾选）→【Next >】→ 查看结果（图2.19、图2.20）

图2.19

图2.20

需要注意的是：Classical test theory statistics代表经典测量理论的统计结果，Test of fit代表拟合度测验，Parameter estimates代表项目参数估计，即在 1PLM中估计项目的难度参数，在2PLM中估计项目的难度参数和区分度参数，在3PLM中估计项目的难度参数、区分度参数和猜测参数，Latent variable estimates代表被试潜在特质水平估计，Characteristic curves代表项目特征曲线ICC，Information functions代表信息函数曲线，该曲线能够体现出每个项目为估计被试潜在特质水平所提供的信息量，Standard errors代表标准误差，当勾选该项后，会计算出每个项目的作答情况的标准误差。

第三步，分析结果。

①CTT框架下的项目参数如图2.21所示。

图2.21 CTT框架下的项目参数

上面所呈现的是在CTT框架下所获得的项目信息，包含此次分析所涉及的被试总人数、项目总数、缺失值数量、项目均分及其标准差、克隆巴赫α系数、项目难度（Mean）及题总相关系数（Correlation）等信息。研究人员可根据此部分的结果，自行选择可用信息并展开研究，或者采用下方所呈现的基于IRT框架下的研究结果进行分析与讨论。

②局部独立性检验的部分结果如图2.22所示。

图2.22 局部独立性检验的部分结果

项目反应模型是在满足基本假设的前提下成立的，考虑局部独立性假设是项目反应理论最为基本的假设，故在项目分析之前，需要进行局部独立性检验。局部独立性检验可通过卡方检验的方式来进行，即检验各项目之间的差异是否达到显著水平，若达到显著水平则说明项目之间存在显著差异，满足相互独立的条件。由图中（仅呈现了部分数据）可以看出项目间满足局部独立的条件，故可以进行项目反应模型的构建。

③3PLM的部分项目参数及被试特质参数估计值如图2.23、图2.24所示。

图2.23 3PLM的部分项目参数

图2.24 3PLM的部分项目被试特质参数估计值

其中，Slope （a）代表区分度参数，Threshold （b）代表难度参数，Asymptote （c）代表猜测参数，Latent variable estimates则是各被试潜在特质水平的估计值。由图中不难看出，各项目均分别对应着一个区分度参数、难度参数和猜测参数，而对于被试的潜在特质参数而言，每个被试均存在一个潜在特质水平的估计值Z，由此可以获得对于各被试潜在特质水平的直观了解。

项目反应理论往往通过项目参数的估计值以及项目特征曲线来判断项目的优劣。一般而言，项目区分度原则上是越高越好，在CTT的框架下，其最低值不宜低于 0.3，在IRT的框架下，其最低值不宜低于0.7。项目难度的取值范围在[-3，3]之内即可，而对于猜测参数来说，其值不宜过高，一般对于四选一的项目而言，猜测参数不宜超过0.25。研究者可根据项目参数的优劣对项目进行筛选。

④部分项目的项目特征曲线如图2.25所示。

以项目1、14、36为例绘制了项目特征曲线，从图中可以看出，ITEM 1的区分度参数值最高，ITEM 36次之，ITEM 14的区分度参数值较低，该项目对于不同潜在特质水平被试的区分能力较差，应考虑将此项目删除。此外，ITEM 36的难度参数低于ITEM 1，项目的猜测参数均在可接受的范围内，特质水平较低的被试也存在正确作答项目的可能性。

图2.25 部分项目的项目特征曲线

⑤部分项目的信息函数曲线如图2.26所示。

图2.26 部分项目的信息函数曲线

除了关注项目参数以及项目特征曲线之外，信息函数曲线在IRT分析中也至关重要。信息函数曲线反映了不同项目在评估被试潜在特质水平时的信息贡献关系。信息函数曲线的峰值代表了当被试的潜在特质水平与项目难度最为匹配时所能提供的最大信息量，项目所能提供的信息量越大，则表明该项目在评价被试的潜在特质水平时越有价值（罗照盛等，2008）。

以项目 1、14、36为例绘制了信息函数曲线，从图中可以看出，ITEM 1和ITEM 36分别能够为不同潜在特质水平的被试提供最大信息量，然而，ITEM 14 能够提供的信息量非常有限，可见该项目的性能并不理想，综合考虑项目参数以及项目特征曲线的结果，可对该项目进行删减。

2）二级计分模型的Mplus实现

Mplus目前能够实现1PLM和2PLM的构建，此次分析选取成人版艾森克人格问卷（Eysenck Personality Questionnaire，EPQ）的外向-内向维度（E维度）的部分数据（EPQ_E.dat）用于Mplus实际操作，由于本次操作所使用的EPQ较适用于不含猜测参数的二参数Logistic模型（2PLM）来拟合数据，故仅呈现了 2PLM的Mplus运行语句和具体运行结果（对单参数Logistic模型的运行语句与2PLM运行语句的不同之处进行了备注，如需使用单参数Logistic模型拟合数据，可对以下语句进行相应修改）。值得注意的是，为了使Mplus能够成功调用数据，数据格式应为dat格式或txt格式，并将数据放置于Mplus输入（.inp）及输出（.out）所在的同一文件夹内，或者将数据文件的具体位置写入“DATA”语句中。

首先，运行Mplus，并将命令写入Mplus语句框中（语句如下所示）→ 点击【RUN】→ 查看结果：

二参数Logistic模型（2PLM）的Mplus语句

需要注意的是：本次操作所用数据仅为被试在EPQ的部分项目上的作答分数E1-E15（分别对应原量表的第1、5、13、14、17、21、41、45、49、53、55、61、65、80、84题）。在Mplus运行结束后，所得结果如图2.27所示。

图2.27

其中，Item Discriminations为项目的区分度参数，而Item Difficulties为项目的难度参数，从中不难看出，项目E2、E4、E7、E8、E9、E10、E15的区分度较为理想，各项目难度值均在可接受的范围内。研究者可根据项目参数对项目进行初步的筛选。

（1）查看项目特征曲线

点击Plot可查看项目特征曲线，本次操作选择查看多个题项的项目特征曲线，具体点击顺序如下：【View plots】→【Item characteristic curves】→【View】→【Item characteristic curves for multiple items】→【下一步】→ 选中想要查看的项目并点击【Add】→【下一步】→【下一步】→【下一步】→【完成】，即可得到项目特征曲线。具体选择窗口如图2.28—图2. 30所示。

图2.28

图2.29

图2.30

需要注意的是：在此步骤后，我们可以选择查看单个项目或所有项目的项目特征曲线，本例中选择查看多个题项的项目特征曲线，具体选择窗口如图2.31、图2.32所示。

图2.31

图2.32

分别选取项目参数部分中区分度参数较高的E7、E9、E15以及项目区分度参数为负值的E5、E11、E14为例绘制项目特征曲线。其中，以E7、E9、E15为例绘制的项目特征曲线如图2.33所示。

图2.33

以E5、E11、E14为例绘制的项目特征曲线如图2.34所示。

图2.34

一般来说，项目特征曲线ICC应该为单调递增的S形曲线（类似于以E7、E9、E15绘制所得的ICC），而从该量表的项目特征曲线可以看出量表中的一些项目的性能（例如，E5、E11、E14）并不是很理想，不能很好地测得项目所要测量的内容，故可以结合项目参数，对不太理想的项目进行修改或删减。

（2）查看信息函数曲线

点击Plot可查看信息函数曲线，本次操作选择查看多个题项的信息函数曲线，具体点击顺序如下：【View plots】→【Information curves】→【View】→【Item information curve （s）（IIC）for a single or multiple items】→【下一步】→ 选中想要查看的项目并点击【Add】→【下一步】→【下一步】→【完成】，即可得到项目的信息函数曲线。具体选择窗口如图2.35、图2.36所示。

图2.35

图2.36

在本次操作中，依旧选取项目区分度参数较高的E7、E9、E15以及项目区分度参数为负值的E5、E11、E14为例绘制信息函数曲线。其中，以E7、E9、E15为例绘制的信息函数曲线如2.37图所示。

图2.37

以E5、E11、E14为例绘制的信息函数曲线如图2.38所示。

图2.38

由上图可以看出，E7、E9、E15的信息函数曲线所提供的信息量远大于E5、E11、E14的信息函数曲线所提供的信息量，这也可以作为项目筛选的依据。

2.4.2 多级计分模型的实现

1）等级反应模型的Excel实现

Excel中的eirt插件通常被用来实现单维项目反应理论分析。单维项目反应模型可以分为二级计分模型（适用于 0、1 计分的情况）和多级计分模型（适用于如李克特 4 点计分的情况）。该部分以应用广泛的等级反应模型GRM为例，构建项目反应理论框架下的多级计分模型，在此处我们以简易应对方式量表的部分数据为例，说明如何使用Excel中的加载项eirt来构建GRM，并实现项目分析。

第一步，将数据导入Excel工作表中，如图2.39所示。

图2.39

在本数据中，12列数据分别代表被试在简易应对方式量表积极应对维度上的作答反应，本量表采用的计分方式为4级计分（0、1、2、3）。本次分析所用的实际数据共包含3784名被试，图中仅展示了25名被试的观测数据。

第二步，建立模型：首先，在Excel工具栏中的点击顺序为：【加载项】→【eirt】→【Start the assistant】→ 选择数据（【Select】→【选中数据】）→【OK】→【Next >】（图2.40、图2.41）

图2.40

图2.41

需要注意的是：在选择数据时只需选择被试的作答数据，即不应包含行标题以及列标题，否则需要勾选图2.41红色框中的相应选项。

其次，选择计分方式：【Graded】→【Next >】（图2.42）

图2.42

接下来，选择参数模型：【Samejima’s graded model】→【Next >】（图2.43）

图2.43

最后，勾选研究所需的各项估计值（方框选中的估计值都应点击勾选）→【Next >】→ 查看结果（图2.44、图2.45）

图2.44

图2.45

第三步，分析结果。

（1）CTT框架下的项目参数

图2.46 CTT框架下的项目参数

图2.46所呈现的是在CTT框架下所获得的项目信息，包含此次分析所涉及的被试总人数、项目总数、缺失值数量、项目均分及其标准差、Cronbach’s α系数、项目难度（Mean）及题总相关系数（Correlation）等各项信息。研究人员可根据此部分的结果，自行选择可用信息并展开研究，或者采用下方所呈现的基于IRT框架下的研究结果进行分析与讨论。

（2）局部独立性检验结果如下所示

局部独立性检验结果如图2.47所示。

图2.47 局部独立性检验结果

局部独立性是IRT的一个前提假设之一，故在项目分析之前，需要进行局部独立性检验。局部独立性检验可通过卡方检验的方式来进行，即检验各项目之间的差异是否达到显著水平，若达到显著水平则说明满足相互独立的条件。由图中（仅呈现了部分数据）可以看出项目间满足局部独立的条件，故可以进行项目反应模型的构建。心理学量表的项目往往存在较多的联系，局部独立的检验往往很难满足，因此心理学的研究对局部独立性存在着一定的容忍度。

（3）GRM的部分项目参数及被试特质参数估计值

GRM的部分项目参数及被试特质参数估计值如图2.48、图2.49所示。

图2.48

图2.49

在Parameter estimates部分中，Slope （a）代表区分度参数，Threshold （b）代表难度参数，Latent variable estimates部分则是呈现了各被试潜在特质水平的估计值。由图中不难看出，每个项目的各个选项均分别对应着一个难度参数，而同一项目仅存在一个区分度参数，这是由模型的假设所决定的。一般而言，项目区分度原则上应该是越高越好，在CTT的框架下，其最低值不宜低于0.3，而在IRT的框架下，其最低值不宜低于0.7。另外，由于简易应对方式量表不属于最高行为测验，故项目难度适中即可（取值范围在[-3，3]之内即可）。

此外，对于被试的潜在特质参数而言，每个被试均存在一个潜在特质水平的估计值（Z），由此可以获得对于各被试潜在特质水平的直观了解。

（4）两样例项目的类别反应曲线如下图所示

两样例项目的类别反应曲线如图2.50、图2.51所示。

图2.50

图2.51

在图2.50、图2.51中，不同的曲线分别代表了某特定项目的不同选项。我们可以发现项目11（ITEM 11）的效果其实并不是非常理想，这是由于随着特质水平的上升，不同特质水平的被试对于选项2的选择概率均不高，被试从倾向于选择选项1直接过渡到倾向于选择选项3，这使得选项2的设置变得意义不大；而对于项目10（ITEM 10）来说，此项目的设置效果比较理想，不同潜在特质水平的被试在此项目上对于各选项的选择倾向性均有所区别，各个选项的设置都较有意义。

（5）两样例项目的信息函数曲线

两样例项目的信息函数曲线如图2.52所示。

图 2.52 为ITEM 10、ITEM 11 两个样例项目的信息函数曲线的汇总表述，根据信息函数曲线，可以看出ITEM 10的信息函数曲线的高度远远高于ITEM 11，这表明ITEM 10所提供的信息量远高于ITEM 11。

图2.52

2）等级反应模型的Mplus实现

首先，运行Mplus，并将命令写入Mplus语句框中（语句如下所示）→ 点击【RUN】→ 查看结果：

等级反应模型（GRM）Mplus语句

在Mplus运行结束后，所得结果如图2.53所示。

图2.53

其中，上框中的内容（Estimate）为各个项目的区分度参数，每个项目仅对应一个区分度参数。下框中的内容（Estimate）为部分项目的各个选项所对应的难度参数，研究者可根据项目参数进行项目的初步筛选。

（1）查看类别反应曲线

点击Plot可查看类别反应曲线，本次操作选择查看单个题项的类别反应曲线，点击顺序如下：【View plots】→【Item characteristic curves】→【View】→【Item characteristic curve （ICC）for a single item】→【下一步】→【选择项目】→【下一步】→【下一步】→【下一步】→【完成】。具体选择窗口如图2.54—图2.56所示。

图2.54

图2.55

图2.56

需要注意的是：在此步骤后，可以选择查看单个项目或所有项目的类别反应曲线，下面以D10（ITEM 10）和D11（ITEM 11）为例，具体的选择过程如图2.57—图2.59所示。

图2.57

图2.58

图2.59

最终得到的所选项目的类别反应曲线如图2.60、图2.61所示。

图2.60

图2.61

（2）查看信息函数曲线

点击Plot查看信息函数曲线，本次操作选择查看单个题项的信息函数曲线，具体点击顺序如下：【View plots】→【Information curves】→【View】→【Item information curve （s）（IIC）for a single or multiple items】→【下一步】→ 选中想要查看的项目并点击【Add】→【下一步】→【下一步】→【完成】，即可得到项目的信息函数曲线。选择窗口如图2.62所示。

图2.62

需要注意的是：在此步骤后，可以选择查看单个项目或所有项目的信息函数曲线。下面以D10（ITEM 10）和D11（ITEM 11）为例，具体的选择过程如图2.63、图2.64所示。

图2.63

图2.64

最终得到的项目信息函数如图2.65所示。

图2.65

其中，上面的曲线为D10（ITEM 10）的信息函数曲线，下面的曲线为D11（ITEM 11）的信息函数曲线。从图中不难看出，D10（ITEM10）信息函数曲线纵坐标的高度远远高于D11（ITEM11），也就是说D10（ITEM10）所提供的信息量远高于D11（ITEM11）。

根据等级反应模型（GRM）修订量表的研究过程可参见：

任世秀，古丽给娜，刘拓.（2020）. 中文版无手机恐惧量表的修订. 心理学探新，40（3），247-253.

3）GPCM的Mplus实现

首先，运行Mplus，并将命令写入Mplus语句框中（语句如下所示）→ 点击[RUN] → 查看结果：

扩展的分步评分模型（GPCM）Mplus语句

在Mplus运行结束后，所得结果如图2.66—图2.68所示。

可在MODEL RESULTS部分（Estimate）查看模型结果，Steps表示的是每个项目的步难度（由于本量表的计分方式为四级计分，故各项目均存在三个步难度）。Item Discriminations 代表各项目的区分度参数，Item Locations 代表各项目的难度参数；Item Categories 表示的是步难度相比于项目难度的相对难度。

此外，点击Plot可查看类别反应曲线、信息函数曲线，具体操作与GRM中相似，故在此处不再赘述。

图2.66

图2.67

图2.68