购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第三节
量表的信度和效度

量表被构造出来之后,如何判断其质量的优劣?如果量表被构造出来之后,不经过进一步的信度和效度的分析评价,那么这个量表是粗糙的。对任何构造出来的量表进行试调查,是确保其信度和效度的前提。一般而言,评价量表是否能得到可靠、准确的测量数据,通常要从两个方面进行衡量,即量表设计的信度和效度。

一、信度及其评价

信度(reliability)指测量数据的可靠性程度,即测量工具(如量表)能否稳定地测量出所需要测量的事项。直观地讲,若使用一个量表进行重复测量,产生相同结果的准确程度越高,则说明该量表的信度越好;反之,则说明该量表的信度越低。例如用一个体重磅秤测量人体的重量,若同一个人前后几次测出的体重明显不同,那么这个测量工具(即磅秤)便是不可靠的。

需要注意的是,结果的稳定性或一致性很高的测量工具也有可能是不准确的。就像体重磅秤的零点没有调整在中心而是在5公斤处一样,那么即使每次测出的体重是一致的,但都偏重了5公斤。

信度不是一个单一维度的概念,它包含三个方面的要素,即稳定性、内在一致性和等价性。

(一)稳定性分析

稳定性分析(stability)指分析结果的一致性或在不同时间点测量的一致性,因此又被称为测验—再测验法。其目的是考察同样的问题对同一组被访者或受试者前后两次测量的结果是否基本一致。稳定性分析一般用“再测信度”进行测量,即用两次测量结果之间的相关系数进行衡量,相关系数越接近1,表示稳定性越好。

利用“再测信度”分析有两个局限:其一,第一次测量的结果可能会影响第二次测量的结果,如利用问卷进行测量时,受试者可能会记住第一次的答案,以至于错误地夸大了量表的信度。其二,两次测量时,客观情况可能发生了变化而导致信度偏低。例如,在编辑课程中,研究者分别在第一周和第二周测试学生的校对能力,部分学生第二次校对的分数会高于第一次,因为他的校对能力确实在一周之内提高了,客观情况的确发生了改变。

(二)内在一致性分析

内在一致性分析(internal consistency)涉及测量量表中各个项目的一致性。如果量表内的各个项目对概念而言是等价的或同质的,那么量表便具有内在一致性。具体说,衡量内在一致性的方法有折半法、alpha信度系数法和平均系数法。

1.折半法(Split-half technique)

假定研究者设计了一个18道题的量表用以测量受试者对互联网的态度,如果该测量量表具有内在一致性的话,将量表分成两部分,那么这两部分的测试总分应该是高度相关的。这种测量只需执行一次,具体的步骤是:首先,将测试分成两部分,计算各自的总分。可以按照项目号的前后平均分成两部分,也可以按照项目号的奇偶数来分,还可以随机地分成两部分;然后,计算这两部分总分的相关系数r h ;最后,按照以下公式计算该量表的折半系数:

需要注意的是,应该先将量表中的反向题进行逆向处理,再分别计算两部分的总得分。另外,利用折半法的前提假定是:两半题项得分的方差大致相等,否则便可能会低估信度系数。

2.Alpha信度系数法

使用克朗巴哈(Cronbach)提出的 α 系数来测量累加量表的信度,也是一种常用的方法,特别是在折半法的前提假定不能保证成立的情况下。其计算公式为:

其中, K 为量表中题项的总数, i 个题项得分的题内方差, K 个题项的题内方差之和, 为总得分(所有题项得分之和)的方差。从公式中可以看出, α 系数评价的是量表中各题项得分间的一致性,适用于态度、意见等量表的信度分析。

3.平均相关系数法

平均相关系数法也是衡量量表信度的方法之一,它首先计算量表中两项目得分之间的相关系数,然后再计算所有相关系数的平均值。用这种方法衡量信度的缺点是比较明显的,即偏重于项目之间的相关,而不是整个量表的信度。在这种情况下,项目越多,平均相关系数就可能越高。因此,提高信度的方法之一是增加量表的测量题项,这是因为各个项目的随机误差可能会相互抵消,使得量表的信度较高。

总之,信度的高低既依赖于量表中项目的内在一致性,也依赖于量表的长度。因此,在设计量表时,一方面要尽量设计内在相关性较高的题项;另一方面也要考虑适当增加项目的数量。

此外,有些多题项的量表在结构上是多维的,即包含了几组题项,每组题项反映一个方面的特定内容。例如现代化态度量表就可能是多维结构的,包括竞争意识、时间意识、效率意识、求知意识、自主意识、创新意识六个维度。 因为这些维度之间基本上是相互独立的,因此,测量包含所有维度的整个量表的内部一致性是不恰当的。如果每个维度都是由几个题项构成的,那么就可以计算每个维度的内部一致性。

(三)等价性

等价性(equivalency)是信度的要素之一,在两种情况下都会涉及等价性问题。

第一种情况是使用两个不同的量表或不同的测量方法测量相同概念时的相关性。其方法是在同一时间范围内,让同一组受试者接受两个量表的测量,由两种得分的相关性评价这两个量表的等价性。在这种情况下,等价性评价的目的是发展出两个作用完全相同的量表。两个量表越对等,信度就越高。一般而言,构造等价的量表是非常困难的,因此在现实中较少应用。

第二种情况是两个或两个以上观察者判断同一现象时的一致性。例如在内容分析中(请参看第五章),要考虑编码员内在信度(intracoder reliability)和编码员间信度(intercoder reliability)。编码员内在信度指同一个编码员在不同时间内对同一资料编码结果之间的一致性程度;编码员间信度指两个编码员编码结果之间的一致性程度。这两者的本质和计算方法都是相似的。

在进行内容分析的时候,理想的情况是:两个编码员使用相同的测量工具应该得到相同的研究结果。如在对电视暴力的内容进行认定时,对暴力的界定使用相同的操作定义,那么编码结果的一致性程度就是编码员间的信度。由于观点不同或对操作定义理解的不同,编码员可能会有不同的编码结果,这时就需要评价编码员间的信度。不同的编码员独立进行编码,如果能得到比较一致的结果,则编码员间的信度就较高。

编码员间信度的计算公式一般有下列两种。

1.霍斯提公式

假定两个编码员分别同时做了 m 1 m 2 个单位的编码,其中一致的编码数为 m ,那么

霍斯提(Holsti)公式的优点是计算简单、易于操作,缺点是信度的大小可能与编码时所用的类别数目有关。类别数目越少,由于偶然性而造成的一致的可能性就越大。如果编码的问题是由两个类别构成,那么即使完全随机的编码也可能有50%的信度。而在由五个类别构成的问题中,随机的编码就只可能有20%左右的信度。

2.史考特公式

史考特(Scott)发展出 π 指数,对霍斯提公式进行了修正,即修正类别数目及与使用有关的频率问题。

其中, π o 表示观测到的一致性或称实际一致性; π e 表示纯粹由于偶然性而造成的一致性或称期望一致性,它等于每个类别出现的相对频率的平方和。利用霍斯提公式计算时,一般的信度都可以达到90%或以上;而利用史考特公式计算时,信度大都是75%或以上。

在考察编码员内在信度时,让同一个编码员在不同时间内对同一资料编码两次,然后借助以上公式计算编码—再编码信度(将霍斯提公式中对应两个编码员的数据改为同一编码员的两次数据即可)。

例1:在一项少儿电视节目内容分析的编码表中,两个编码员分别独立地将100个少儿节目分配到以下三个类别中:(1)单本剧、(2)连续剧、(3)系列剧。已知编码不一致的节目共计8个,这三类节目数分别占30%、45%和25%。试分别用霍斯提公式和史考特公式评价这两个编码员的等价性。

解: m 1 = m 2 =100, m =100-8=92

霍斯提信度=2 m ÷( m 1 + m 2 )=2(92)/(100+100)=0.92

π o =0.92, π e =(0.30) 2 +(0.45) 2 +(0.25) 2 =0.355

那么,史考特信度 π =( π o - π e )÷(1- π e )=(0.92-0.355)÷(1-0.355)=0.876

二、效度及其评价

效度(validity)指所测量到的是不是研究者真正所想要测量的概念,即变量的操作定义是否能反映原始概念的基本定义。例如,研究者希望测量电视广告的传播效果,其目的是了解广告能否引起目标消费群的购买欲望,以及消费者的购物决策是否与其观看的电视广告有关。如果研究者最终测得的不是广告对消费者购物决策的影响,而是消费者对广告艺术感染力的评价,那么,这个测量量表就是无效的,或者说是效度很低的。

对于一般的量表来说,信度高时效度不一定高;然而,效度高时信度一定高。

效度分析的常用方法有以下三种:

(一)内容效度

内容效度(content validity)是最简单也最基本的一种效度判断方法,指测量目标与测量内容之间的适合性或相符性。在考察量表的内容效度时,研究者根据测量量表所包含的题项,仅从表面观察,就可以初步判断其是否能够代表想要测量的内容或主题。

一个测量量表要想具备较好的内容效度,一般需要做到以下两点:一是确定内容范围,使测量量表的全部项目均在此范围内;二是测量项目应是已界定的内容范围的代表性样本,即选出的项目能包含所测量的内容范围的主要方面,并使各部分项目的数量分布适当。

由于内容效度与主观判断有关,因此在实际应用时,应尽量收集和阅读与测量内容有关的资料,以增加对所测量问题的深入理解。另外,为减少主观性,还应请一些相关专家帮助判断。

在确定各个具体的题项对整个量表的效度是否都有足够的贡献,或者考察量表内的题项是否具有同质性时,我们常常用“单项与总和相关效度”来判断。具体方法是:首先计算每个题项的得分与总分的相关系数,如果相关系数不显著,则表示该题项与所测内容的关联性较低,最好剔除;如果所有题项与总和的相关的显著程度都较高,那么,量表的内容效度也就较高。

例2:2007年中国传媒大学传播学专业2004级硕士生范欣珩在其硕士学位论文《生活形态与即时通讯使用的关联性研究》中,设计了一个5级李克特人际沟通量表,以测量网民在即时通讯上的人际沟通,包括行为动作和行为感受,统一划归为使用行为。表2-6中显示的人际沟通量表就是剔除了不合格题项后的结果。表2-6中各题项(除1.10外)的得分与总分都是显著相关的(概值P≤0.001),说明量表内各个题项之间具有较好的同质性。

表 2-6 人际沟通量表的单项与总和相关效度分析

续表

(二)效标效度

效标效度(criterion validity)又称效标关联效度或独立标准效度,效标是一个与量表有密切关联的独立标准。效标效度指用几种不同的测量方式或不同的指标对同一变量进行测量,并将其中的一种方式作为准则(效标),用其他方式或指标与这个准则做比较。如果其他方式或指标的测量结果与效标的测量结果有密切的关联性,那么这些测量方式或指标就具备效标效度。简言之,将量表所测量的指标看成因变量,将效标看成自变量,所测指标与效标的相关性越高,量表的效标效度也就越高。

分析效标效度的具体方法是:考察所测量的指标(因变量)与效标(自变量)是否有显著的相关关系;或考察效标的不同取值,所测量的指标是否表现出显著的差异。

一般来说,效标的确定并不是一件容易的事,选择效标一般要根据统计学之外的某种已知的理论,或者某种已经得到肯定的结论。例如,用高考成绩作为预测学生大学期间学业成绩的效标,因为已有的研究结果表明,这两者之间有着密切的相关关系。再例如,设计测量人们现代化观念高效度的量表时,媒介接触行为可能是重要的效标之一。因为我们很难想象一个不看报、不听广播、不接触网络的人会拥有现代化的观念。因此,以“媒介接触频度”“媒介接触内容”等作为效标,所测量的现代化程度得分至少应与这些效标显著相关,这样的现代化观念的量表才有可能是高效度的量表。

台湾学者杨孝溁在“兰屿民众传播行为与现代化程度之研究”中 ,利用有离岛经验的雅美族人和无离岛经验的雅美族人作为测量现代化程度的独立标准(即效标)。只有有无离岛经验的雅美族人之间现代化程度有明显差异的量表,才有可能是高效度的量表。据此,要剔除那些没有差异的低效度的题项。

(三)结构效度

结构效度(construct validity)与被测量的概念所处的理论架构有关,它用来确定测量量表与理论架构中的概念在多大程度上具有逻辑相关性。结构效度指测量能说明理论所构想的结构或特质的程度,或者用某种结构或特质来解释测量分数的恰当程度。 结构效度最关心的问题是量表实际测量的是哪些特征?这些特征是否符合研究者对该概念的理论预期?研究者根据一定的理论架构得出对某概念的理论预期,并以此为标准判断测量量表的结构效度。所以,对结构效度的判断必须建立在一定的理论架构基础上。结构效度分析常用的方法是因子分析法(factor analysis)。

因子分析是一种高级的统计分析法,其主要功能是从量表全部变量(题项)中提取一些公共因子,各公共因子分别与某一群特定变量(题项)高度关联,这些公共因子即代表了量表的基本结构。通过因子分析可以考察问卷是否能够测量出研究者设计问卷时假设的某种结构,比较量表的实际结构与理论架构之间的异同。如果两者相吻合,并且所提取的公共因子具有足够的代表性,则说明该测量量表具有令人满意的结构效度。

例如,2007年中国传媒大学传播学专业2004级硕士生范欣珩在其硕士学位论文《生活形态与即时通讯使用的关联性研究》中采用因子分析,得到“人际沟通量表”的六个公共因子:沟通亲密感、虚拟陪伴感、心理依赖感、讯息活泼度、多媒体应用、工具依赖感。发现这六个公共因子“与前期的文献综述相对应,能够体现电脑中介传播的多数特性,如层次多样的互动性、流程自主的非线性、特殊的符号语言等;同时也能体现人际关系解放说的优点,解决人际关系失落说的疑虑;也能够很好地涵盖以往相关研究的公因子,并有所扩展”。 说明这份人际沟通量表具有较好的结构效度(如表2-7)。关于结构效度的例子,还可参阅柯惠新等人在“1990年亚运会宣传效果研究”中对亚运会态度量表的因子分析,如表2-8所示。

表 2-7 人际沟通量表因子分析

续表

表 2-8 对亚运会态度量表的因子分析(n=1,220)

结构效度的分析有时还有另一层意义,即评价量表中的各个题项能否有效地区分研究对象,例如各个题项能否有效地鉴别态度不同的被访者。常用的方法是项目分析法(item analysis),用于测量量表中各个题项的“难易度”和“鉴别度”。

其中, P H P L 分别表示“高分组”和“低分组”的通过率。

如果用学生考试来理解,考卷中每道题的通过率,就是正确地回答了该题的学生人数的比例。对于态度量表中每个题项的通过率,则是对所测的态度持积极立场的被访者的比例。需要注意的是,对于正向题和反向题,判断被访者的态度积极方向,方法是不同的。

具体来说,计算难易度时,首先要将量表中所有反向题进行逆向处理,计算累加量表的总分。然后将总分按由小到大的顺序排列,并划分成被访者人数相等的4个组,分数最高和最低的两个组分别为“高分组”和“低分组”。最后分别计算这两个组的被访者在每个题项上的“通过率” P H P L

显然,如果该题项是很“容易”通过的,那么,高分组和低分组的被访者在该题项上都容易通过,也就是该题项十分容易让人一目了然,被访者不假思索地就可以给出肯定的答复。例如表2-9中的第1题和第2题就可能是这种类型。反之,如果一个题项很“难”回答,那就不但低分组的通过率低,高分组的通过率也可能不高。

某个正向题项的“通过率”表示对该题项持肯定、积极态度的比例。对于反向题,则表示持否定、消极态度的比例。而某个题项的“难易度”,实际上就是“高分组”和“低分组”在该题项上“通过率”的平均值。

难易度越大,表示该题项越“容易通过”。一般传播学研究的态度量表,取难易度适中(0.5左右)的情况较多。

“鉴别度”表示量表中各个题项对所测特性区分或鉴别的能力,等于“高分组”和“低分组”在该题项上“通过率”之差。

对于态度量表,“高分组”和“低分组”的被访者对某个题项得分的差异越大,则其持肯定、积极(或否定、消极)态度的比例差异越大,说明该题项的鉴别度越高。

在量表设计中,各个题项的鉴别度高一些为好,这就像考试题最好能将成绩好的和成绩差的学生区分出来一样,成绩好的学生大多数能通过,而成绩差的学生却很少能通过。如表2-9所示,第3、4、7、8、10、11和12题项具有较高的鉴别度,并且难易度适中;第1、2和5题项偏“容易”,并且鉴别度较低;第6和9题项则偏“难”一些。

研究者通常会采用多种方法来测试一个量表,以求对它的信度和效度有全面的了解,尤其是当使用一个新开发的量表,或者把一个成熟的量表拓展到新的文化 中去的时候。多方法共同使用的例子,请见本章所附的案例。

表 2-9 对亚运会态度量表的项目分析(n=1,220) XWxLZ1ADIRL8WMvFT9DXN8sKF+DZPXDBd3ZU29N1g30pBGvo9Ep+v+yMQGUodLjL

点击中间区域
呼出菜单
上一章
目录
下一章
×