购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

二、测量的信度

(一)定义

信度即是测量结果的稳定性程度,也叫测量的可靠性。信度有三种等价定义:

1.信度是真分数变异与观测分数变异之比:

2.信度是真分数与观测分数的相关系数的平方:

3.信度是两个平行测验间的相关系数:

其中, 就是信度,又称信度系数。一般性能良好的能力与学习成就测验的信度系数应达到0.90以上,性格、兴趣、价值观等人格测验的信度系数应达到0.8以上。

另外,可用信度指数( ρXT ,信度系数的平方根)描述测量结果的一致性程度。

图6-2 信度

(二)估计方法

1.重测信度

(1)含义:用同一个测验,对同一组被试前后两次施测所得结果的一致性程度,又称稳定性系数。其大小等于两次测验分数之间的相关系数。估计测验跨时间的一致性。

(2)计算:皮尔逊积差相关

(3)条件:①所测特质须稳定。②遗忘和练习的效果基本上相互抵消(智力测验间隔6个月左右)。

③两次施测之间,被试在所要测查的心理特质方面没有获得更多的学习和训练。

(4)误差来源:主要由时间间隔造成,还包括其间测验条件和受测者身心状况的改变、测验所测特质本身不稳定等。

(5)评价

①优点:能提供测验结果是否随时间而改变的资料,可作为预测受测者将来行为表现的依据。

②缺点:易受练习和记忆的影响、只适用于测量那些不会随时间变化而改变的特质。

Tip

使用重测信度时须注意:时间间隔要适宜、适用于速度或人格测验(题多难记住~)而不适用于难度测验、提高被试积极性(避免疲劳效应)。

2.复本信度

(1)含义:用两个平行的测验对同一组被试进行施测所得结果的一致性程度,若两个复本是同时连续施测的,则称其为等值性系数;若两个复本是相距一段时间分别施测的,则称其为稳定性与等值性系数(是对信度最严格的检验,其值最低)。

复本信度的大小等于两个复本测验分数之间的相关系数。等值性系数估计测验跨形式的一致性,稳定性与等值性系数估计测验跨时间和形式的一致性。

(2)计算:皮尔逊积差相关

(3)条件:①能够构造出两份及以上的真正的平行测验(内容、形式、难易等方面相同或相似)。②被试要有条件接受两个测验。

(4)误差来源:①对于等值性系数而言,主要是由题目内容造成,另外还包括被试方面的情形波动、动机变化等;②对于稳定性与等值性系数而言,除题目内容的影响外,还会受到由于时间间隔造成的影响,所以信度较稳定性系数、等值性系数要低。

(5)评价

①优点:应用范围较重测信度的范围大。

②缺点:严格的平行测验很难构造;容易受练习,记忆和迁移的影响;测验的难度会由于重复而有所改变;

3.分半信度

(1)含义:将一个测验分成对等的两半后,所有被试在这两半测验上所得分数的一致性程度。估计跨两个分半测验间的一致性。

一般可按题号的奇偶性、题目难度、题目内容分半。

(2)计算:同样是计算两半分数之间的积差相关系数,但因为这只是半个测验的信度,还必须使用矫正公式矫正。

①斯皮尔曼—布朗公式 两半测验分数间的相关系数, 为整个测验的信度值。

为原测验的信度值, 为测验长度增加为n倍后的测验信度值。

斯皮尔曼—布朗公式只有当两半测验的变异数相等,即方差齐性时才能使用,否则应用下列公式:

②弗朗那根公式: 分别是两半测验的方差, 是测验总分方差。

③卢仑公式: 是两半测验分数之差的方差, 是测验总分方差。

(3)条件:①通常在只能施测一次或没有复本的情况下使用。②测验无法分半时不能用。

(4)误差来源:主要来源题目本身,与时间因素无关。

(5)评价

①优点:可在没有复本的条件下使用。

②缺点:有些题目难以分半,不同分半方法之间有差异,不适合用于速度测验。

Tip

细心的同学会发现斯皮尔曼—布朗通式和公式就是老子和儿子的关系!那么芭比是谁呢?

另外,使用分半信度须注意:有牵连的题目须放在同一半,否则会高估信度;

4.同质性信度

(1)含义:指的是测验内部所有题目间的一致性,也称内部一致性系数。包括两层含义:①所有题目测的都是同一种心理特质;②所有题目得分之间都具有较强的正相关。估计测验跨项目的一致性。

Tip

同质性高,说明所测的都是同一心理特质,而且题目得分之间也有高的正相关。但有时一些表面看起来是测量同一种心理特质的题目,若它们之间不具有较高的正相关,不能认为它们具有同质性。

因此测量特质单一,同质性信度不一定高;但同质性信度高,测量特质一定单一。

(2)计算:

①克龙巴赫α系数: K :题目数; :每题方差; :总分方差

②库德理查逊公式20(K–R20): ,仅适合(0,1)计分。

③库德理查逊公式21(K–R21): ,适合(0,1)计分,且所有题目难度接近。

④荷伊特信度:无明确使用范围,使用方差分量比描写测验内部一致性。

⑤因素分析

(3)条件:不是所有的测验都要求较高的同质性信度,这取决于测量的目的。

一般用于预测的测验或学绩测验可以不考虑同质性,而在提出或验证某种心理学理论的概念和假设时,则须考虑。

(4)误差来源:主要来源于内容取样和所研究行为的异质性。

(5)评价:

①优点:只施测一次,可以排除练习和记忆的效果。

②缺点:只可在测量单一概念的测验上使用,不适合应用于速度测验。

5.评分者信度

(1)含义:多个评分者给同一批人的答卷进行评分的一致性程度。估计测验跨评分者的一致性。

(2)计算

①评分者人数为2个时,使用积差相关或等级相关。

②评分者人数为多于2个时,使用肯德尔和谐系数(W系数)。

③被评对象人数多于7个时,使用卡方检验 X 2 = K ( n -1) W df = n -1。

(3)条件:适用于一些无法完全客观计分的测验,如创造力测验及投射测验等。

(4)误差来源:评分者之间的差异。

(5)评价

①优点:适合无法客观计分的测验。

②缺点:容易受到评分者主观判断的影响。

(三)影响因素及改进方法

1.影响因素

(1)主试方面

①施测者不按规定施测,故意制造紧张气氛,或给考生一定的暗示,协助等,则测量信度会大大降低;

②评分者评分标准掌握不一,也会降低信度。

(2)被试方面

①于个体而言,被试的心理特质水平的稳定性,如其身心状况、注意力、态度等;

②于团体而言,离散程度和团体的平均水平。团体同质性越大,全体得分分布越窄,信度越小,可能低估信度,反之,可能高估信度;另外,团体均分过高或过低,都会使得分分布变窄,而低估真正信度。

(3)测量工具方面

测量工具是否稳定、试题取样、试题难度、测验长度、试题之间的同质性程度(一套测验中同质性题目越多,同一特质被考查的次数越多,全体得分分布越广,信度越高)等;

(4)施测过程方面

考场是否安静、光线和通风是否良好、设备是否齐全、桌面是否合乎要求;另外,对于计算稳定性系数及稳定性与等值性系数时,两次测验间隔时间越短,信度越高。

2.改进方法

(1)主试方面

主试严格执行实测规程,评分者要严格按标准给分。

(2)被试方面

选取恰当的被试团体,提高测验在各同质性较强的亚团体上的信度。

(3)测量工具方面

精心编制测验量表,避免出现较大的系统误差。适当增加测验长度,但新增项目须与原题同质,且新增项目须适度;使所有题目难度接近正态分布,并控制在中等水平,这样得分分布更广;努力提高试题的区分度。

(4)施测过程方面施测场地按测验手册的要求进行布置,减少无关因素的干扰。

(四)作用

1.信度是测量过程中随机误差大小的反映。信度很低,随机误差就很大,这种偏差完全是随机决定,测量中的系统误差与信度无关。

2.信度可以用来解释个人测验分数的意义。

x - Z × SE T x + Z × SE

SE 为测量误差分布的标准差,又称标准误, S x 为测验分数的标准差, 为信度系数, X 为观测分数, Z 为某个统计检验显著性水平的标准正态分布下的临界值, T 为真实分数。

3.信度可以帮助进行不同测验分数的比较。

S 为相同尺度的标准分数的标准差。 分别是两个测验的信度系数。

先将原始分数转换成相同尺度的标准分数(T分数、Z分数),再将标准分数的差异与1.96SE(0.05水平)进行比较,即可得出两个测验的差异是否显著。

4.提高信度可以提高统计检验力(1-β)。 9btZo5nN3rdwZWRHeY6dSIHu0A73+XlftU2muPztnEf2KXs7r4V6XyAVUCd7UeMx

点击中间区域
呼出菜单
上一章
目录
下一章
×