评价者间信度,是指多个评价者在赋分或分类时的一致性或相符性。
为什么要关注评价者间信度呢?设想,公共部门聘请一位资深专家对本地区数百个社区的基础设施建设水平进行评估打分。这位专家意识到自己不可能前往所有社区进行实地评估,于是在征得公共部门同意后雇佣了三名助手以便分头完成实地评估工作。现在的问题是,这三名助手的打分能否与专家保持一致?也许有人标准过严,因此给分普遍较低,也许有人标准过松,给分偏高,也许有人所使用的标准与专家心中的标准非常不同。但是,公共部门视这位专家的打分标准为黄金标准,因此当然希望其他人的打分能与他保持一致。为检验这种一致性,这位专家带着三名助手前往他已经给出分值的 15个社区,让他们每个人为这些社区打分。然后,这位专家要做的就是通过特定的指标来衡量三个助手与他在打分方面的一致性程度。
再举一例,设想某个研究者提出了某种对国家政体进行分类的新方法,并希望将以此方法得到的国家类别作为自变量放入回归模型中进行假设检验。他现在意识到,如果政体的划分只由他个人完成的话,期刊编辑会说他的分类主观性较强;于是,这个研究者又找来另一个研究者,把分类标准告诉他,并请他跟自己一起完成分类。理想的情况是,两个研究者对每个国家的政体都作出了同样的判断;不过两个人的分类结果并不一定完全一致。这时,研究者需要计算并报告信度指标的数值,借此证明两个人的分类具有较高的一致性,然后通过讨论解决分类中的分歧。
接下来我们就将介绍如何用R计算各种信度系数。
正如数值可分为名义(nominal)变量或分类变量、定序(ordinal)变量、定距(interval)变量和定比(ratio)变量一样,信度系数也可被分为四类。我们本应依次对这四类系数进行介绍,但鉴于R中的一些函数能够计算不止一类系数,因此我们将不按照这四个类别的顺序进行介绍。表 1对这些函数进行了总结,读者可从中查找自己需要的函数。
表 1 信度系数计算函数分类
我们首先来看基础信度的计算方法。
现在我们已经得到了基础的信度系数。不过,这个系数并不令人满意,原因在于,即使两个评价者胡乱猜测,他们给出的类别也会有一些是一致的。这就是说,我们在计算信度系数时,要减去这种偶然产生的一致性。这样,计算公式就变为(pa-pe)/(1-pe),其中,pa就是上文计算出的基础系数,pe代表因偶然因素而给出一致分类的概率。以此公式来计算的若干种信度系数可统称为概率校正系数(chance corrected coefficients),如Cohen's Alpha(Cohen,1960)、Scott's Pi(Scott, 1955)、Gwet's AC(Gwet, 2008)、Brennan-Prediger系数(Brennan and Prediger, 1981)、Krippendorff's Alpha(Krippendorff, 2004∶221-243)、Aickin's Alpha(Aickin, 1990)等。这些系数的差异在于计算pe的方法不同(但是Krippendorff's Alpha计算pa的方法亦不同于其他系数)。
接下来要考虑的问题是:该选择使用哪个指标?大量文献都已对此问题进行了探讨。例如,有研究者(例如,Gwet, 2008;Feng, 2012;Gwet, 2014∶59)指出,尽管Cohen's Kappa在各领域中被广泛使用,但它的大小易受到特质发生率(prevalence,常译为感染率)和表格边缘概率的影响;Cohen(1960)认为Kappa要好于Scott's Pi;Krippendorff's Alpha被认为在内容分析工作中较适用;Gwet's AC、Aickin's Alpha和Brennan-Prediger系数的表现要好于Kappa(Gwet, 2014∶100)。
总的来看,选择哪个指标,要由打分变量的类型(分类、定序、定距、定比)和各领域的惯例来决定。不过从研究者们报告的分析结果来看,Gwet's AC和Krippendorff's Alpha是不错的选择,但Kappa则更易被人们接受。
另一个需要考虑的问题是,如何把信度系数转化成人们可直观地理解的定性描述?就Kappa而言,人们一般认为系数小于 0代表缺少信度(poor),0至 0.2代表略微可信(slight),0.21至 0.4代表具有一定程度上的信度(fair),0.41至 0.6代表中度信度(moderate),0.61至 0.8代表具有实质上的信度(substantial),0.8至 1代表信度近乎完美(perfect)(Landis and Koch, 1977)。但问题在于:第一,衡量一致性最重要的还是要看指标的数值,而不是看这个数值是否能够翻译成可理解的语言;第二,不同领域,以及不同的分析工作也会对信度提出严格程度不一的要求;第三,各种信度系数的计算方法不同,相应地,在数值达到多少才可以被接受这个问题上也应有所不同。
在只考虑数值大小的问题而不考虑各类分析任务的具体要求的情况下,人们通常将Kappa值的标准用于其他系数。但这样一来又会产生以下这种问题:比如说,Kappa系数为 0.615,按上述标准可理解为实质上的一致性,但问题在于,它只比临界值高出 0.005,因此将其视为代表实质上的一致性就可能是不合理的。
Gwet(2014∶174)提出了解决这个问题的一种方法。
现假设我们采用以下划分标准:系数小于等于 0.2代表缺乏信度(poor),系数大于 0.2小于等于 0.4代表具有一定信度(fair),系数大于 0.4小于等于 0.6代表中等程度的信度(moderate),系数大于 0.6小于等于 0.8代表不错的信度(good),系数大于 0.8代表信度很好(very good)。