购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第一节
测量的概念及分类

一、测量的意义

邓肯认为,测量的根基在于社会程序,最早的社会测量程序如投票、人口普查等,并非是为了合乎科学家的好奇心,而是为了满足大众的需要。并且,这样的程序可以从物理学的历史中得出,即“古代的人在解决社会和实践问题的过程中,成功地实现了对长度或距离、面积、数量、重量和时间的测量,物理科学就是建立在这些成就基础之上的” 。那么,测量的意义究竟指的是什么?斯蒂芬(S.Smith Stevens)将测量定义为“根据规则对物体和事件进行的数字分配” 。邓肯认为这一定义并不完善,测量不仅仅是数字的分配,还应包括遵循某一物体或事件的属性……或品质的不同程度进行的数字分配。可以看出,在更加完善的定义中,测量所强调的内容是符码(符号或数字)、分配和法则等。即根据一定的规则将数字或符号分配于研究对象的特征(即研究变量)之上,从而使社会现象数量化或类型化。 得到的一定数值可作为某一现象或事件特征的代表符号。符号是抽象的,它不是现象或事件本身,而仅仅是现象或事件的特征。数字分配工作是测量中最基本的,也是最困难的工作。传播学研究中的测量是将各个分析单位与它们的特征或属性用数字分配规则联系起来,分配规则的有效性取决于所研究的变量。有些变量的分配规则比较容易制定,比如身高、性别、年龄等;而另一些变量的分配规则就较难制定,如态度、价值、兴趣等。有效的测量规则必须满足三个条件:(1)准确性、(2)完备性、(3)互斥性。准确性指所分配的数字或符号能真实、可靠、有效地反映观测对象在属性和特征上的差异;完备性指分配规则必须能包括研究变量的各种状态或变异;互斥性指每一个观测对象的属性特征都能以一个而且只能以一个数字或符号来表示,即研究变量的取值是互不相容的。测量的主要作用在于进行准确的分类或赋值,以便比较观测对象的各种差异。这些差异有些是用类别和等级来区分的,如电视节目的类别、文化程度的高低等;有些则是用赋值即用数量来区分的,如每天看电视的时间、消费的金额等。这些差异都是由一定的原因造成的,因此通过对差异的比较和分析,就有可能找出现象之间的关联性,并进一步研究其因果联系。

二、变量的类型及测量级别

传播学研究涉及多种变量类型。按照变量间的相互关系,可分为自变量(independent variable)、因变量(dependent variable)、中介变量/中间变量(mediator)和缓冲变量/控制变量(moderator)。具体来讲,自变量指根据研究的需要,研究者可以系统化地变化、操纵或者观察的变量;因变量指研究者试图观测和估计的对象,其数值可能受到自变量的影响。有些研究模型中除了自变量和因变量之外,还包括中介变量(也叫中间变量)或缓冲变量(也叫控制变量)。在这样的模型中,自变量通过中介变量对因变量产生影响,而缓冲变量可以影响自变量与因变量之间关系的强度或方向。 表2-1中给出了这种变量分类的一个示例。

表 2-1 按照变量间的相互关系分类的研究模型示例

在模型一中,研究者简单地假设教育程度影响收入,在模型二和模型三中,研究者试图对这两者的关系做进一步的研究。模型二探讨影响发生作用的具体机制,假设教育程度通过影响研究对象所处的行业而最终决定其收入的高低。模型三对教育程度和收入两者之间的关系进行了更为细致的分类研究,研究者认为,虽然教育程度总体上对收入有正面的影响,但影响的强度可能因为研究对象所处的社会群体而有所差异,比如研究者可以假设教育程度对收入的正面影响在男性中比在女性中更强。

如果按照变量的性质分类,可分为离散变量(discrete variable)和连续变量(continuous variable)。前者指只能取某个范围内的有限个数值,不能无限再细分的变量,如家庭人口数、性别、职业、喜欢收看的电视节目、上网的主要目的等;后者指可以取某个范围内的任何数值的变量,如收入、上网时间长度、满意程度得分(按照百分制打分)等。如果按照测量的级别来划分,变量可以分为定类变量、定序变量、定距变量和定比变量四种类型。

1.定类变量(nominal variable)

如果所提问题的答案只表示类别,不表示任何数量的顺序或大小,那么对应的变量就叫定类变量,对应的测量量表就叫定类量表。定类变量的取值可以是表示类别的文字,也可以是数字代码。例如:

X =“性别”

X 1 =1(男), X 2 =2(女)

X =“收看内容”

X 1 =1(国际新闻), X 2 =2(国内新闻),……, X n =18(广告)

适用于定类变量的统计方法主要有频数分析、交互分析等。

2.定序变量(ordinal variable)

如果所提的问答题的答案可以表示重要性、大小或程度轻重等顺序,那么对应的变量就是定序变量,测量的量表就叫定序量表。定序变量的取值可以是表示顺序的文字,但一般都用排序或排名次的数字形式来表示。定序变量可以在顺序评价中给出观测对象的相对位置,但不能判断这些相对位置之间的绝对距离。例如:

X =“收入级别”

X 1 =1(低), X 2 =2(中), X 3 =3(高)

X =“喜欢程度排序”

X 1 =1(第一喜欢), X 2 =2(第二喜欢),……, X 5 =5(第五喜欢)

适用于定序变量的统计方法包括频数分析、交互分析、中位数或百分位数分析、秩相关系数分析等。

3.定距变量(interval variable)

如果所提问题的答案还可以进一步表示具体数值的大小,那么对应的变量就叫定距变量,测量量表就叫定距量表。定距变量的取值用数字形式表示。例如:

X =“温度”

X 1 =20(度), X 2 =0(度); X 3 =-2(度)

X =“喜欢程度得分”

X 1 =1(很不喜欢), X 2 =2(不太喜欢), X 3 =3(一般), X 4 =4(比较喜欢),

X 5 =5(非常喜欢)

定距变量不仅可以指出观测对象的相对位置,还能判断这些相对位置之间的绝对距离。需要注意的是,定距变量中的零点位置不是固定的,没有绝对的意义。它只是一个相对的零点,就像摄氏温度或华氏温度的零点。适用于定距变量的统计方法包括不涉及比值计算的所有统计方法。

4.定比变量(ratio variable)

如果所提问题的答案既可以表示具体数值的大小,而且零点也是有意义的话,那么对应的变量就叫定比变量,测量量表就叫定比量表。例如:

X =“收入”

X 1 =1200(元), X 2 =800(元),……

X =“上网时间”

X 1 =90(分), X 2 =60(分), X 3 =0(分)

定比变量具有定类变量、定序变量和定距变量的所有属性,并且还具有绝对的零点。因此,所有的统计方法都适用于定比变量。

三、概念和构造

对传播现象的测量是从抽象概念(concept)的具体化或操作化(operationalization)开始的。传播现象涉及的概念经常是模糊的,如媒介使用(media usage)、国家形象(country image)、现代化(modernization)、媒介素养(media literacy)、价值体系(value system)、社会认知(social perceptions)等。如果不对这些概念进行具体化或操作化的定义,就无法对它们进行观察和度量。

那么,什么是概念?

概念是对具体现象进行普遍性的抽象解释。而构造(construct)指为特殊的研究目的而设计的高度抽象的、一般无法直接观察的概念。构造是概念的组合,可以分解为较低层次的不同概念。如“社会阶层”可分解为“经济地位”“政治地位”“社会地位”等较低层次的概念,“对奥运会的态度”可以分解为“民族意识”“经济观念”“个人生活”几个维度,再如“现代化观念”可以用“竞争意识”“时间意识”“效率意识”“求知意识”“自主意识”“创新意识”等概念度量。

可以看出,概念和构造都是抽象的,但对变量的测量是经验层次的,这就需要我们将抽象的定义转换为操作定义,这个过程就叫作概念或构造的操作化。即操作化就是建立一些具体的程序或指标来说明如何测量一个概念或构造。操作定义的作用在于:(1)澄清概念在研究中的意义;(2)说明测量变量的操作方法;(3)使一些陈述变量间关系的假说获得验证的机会;(4)使今后同样的研究有所依据,以便比较彼此的结果。 在研究设计中,研究者对变量进行操作定义时,必须以具体的词语表达抽象的概念。因为操作定义必须十分具体,只有这样才能准确传达其所代表的意义。如将“政治知识”定义为回答20道是非判断题的正确率,尽管定义的效度可能有所争议,但是在这个定义的基础上,“女性比男性更具有政治知识” 这句话代表的意义是十分清晰的。

需要注意的是,并不是所有的概念或构造都是可以(直接)测量的,即并不是所有的事物都能量化。如“信息的本质”等概念就是如此。另外,在传播学研究中,大多数变量往往不只局限于一种测量方法,如某电视台的“节目竞争力”,研究者既可以使用其在某地域的市场占有率来衡量,也可以使用收视率来测量,还可以使用观众的满意度或者喜爱度等指标来评价。

表2-2是大众媒体研究中一些操作性定义的示例。

表 2-2 大众媒体研究中部分操作定义的示例

续表

需要注意的是,对变量进行操作定义并无绝对的参照标准和可供借鉴的准则,没有一个操作定义可以让所有人都满意。研究者所要做的是,寻找一种对研究问题而言相对最为适当的操作定义。 sYq4MPY9aHDpo6k5VuRO64Dxw7125d2USnL49mL/Wo0MPrE+yDRrkBOfF1uUWq0Y



第二节
常用的测量量表

量表是传播学研究中越来越被广泛使用的测量工具,其主要目的是测量复杂的概念。由于传播学研究中的很多概念不能只用一个单独的变量来测量,所涉及的变量又可能具有不同的特征,因而需要使用各种量表以达到测量的目的。量表的作用是尽可能准确地测量一个较抽象或综合性较强的概念(前提是已经有了操作定义),尤其在测量观念、态度或形象时比较常用。量表比单一指标或单项问题的测量能获得更多、更真实、更准确的信息,能通过间接的、定量的方式测量难以直接观察的传播现象。本节主要介绍几种常用的测量量表。

一、李克特量表

(一)李克特量表的形式

李克特量表(Likert scale)由美国社会心理学家李克特于1932年在原有总加量表(summative scale)的基础上改进而成,是最常用的定距量表,主要用于测量观念、态度或意见。由一组陈述或说法(statement)组成,用5级记分的方式测量人们对这组陈述或说法的同意程度。5级记分方式通常采用“非常同意”“同意”“说不准”“不同意”“很不同意”来表示。

首先看一个测量“对申办北京奥运会的态度”的李克特量表,如表2-3所示。

表 2-3 李克特量表的例子(对申办奥运会的态度)

(二)构造李克特量表的主要步骤和要点

构造李克特量表,首先要根据研究目的收集和编写大量围绕研究问题的陈述或说法。这些陈述和说法应当是比较分散的,能覆盖所研究问题足够宽的范围;其次,编制这些陈述和说法时,应当有一定的把握使大部分被访者不至于只选中间位置的点,即“说不准”选项;再次,要注意这些陈述中有部分是正向表述的(如表2-3的1、2等项),部分是反向表述的(如表2-3的5、6等项)。如此,在需要计算累加态度的总分时,要先对反向陈述的赋值进行逆向处理,即,将反向陈述的“1分、2分、3分、4分、5分”分别转化成“5分、4分、3分、2分、1分”。

李克特量表编制好之后,应当抽取一个小样本进行试调查,以便发现量表设计中存在的问题。同时,根据试调查的数据进行量表的信度和效度分析,并根据分析结果去除原量表中影响信度和效度的陈述,以获得有较高信度和效度的李克特量表。有关量表的信度和效度分析,详见本章第三节的内容。

李克特量表具有以下优点:第一,比较容易设计;第二,使用范围比较广,可以用来测量其他一些量表所不能测量的某些多维度的复杂概念或态度;第三,通常情况下,比同样长度的量表具有更高的信度;第四,它的5级测量层次可使被访者很方便地标出自己的位置。

由于李克特量表是以各项目总加得分代表一个人的赞成程度,因此,其最主要的缺点是,相同的得分者具有十分不同的态度形态。它可大致区分出个体间谁的态度得分高、谁的得分低,但却无法进一步描述他们的态度结构差异。 不过,如果研究者掌握了多元统计分析的方法,将李克特量表的各个项目都分别看成是一个个的变量,借助多元统计分析软件,这个问题是有望得到解决的。

二、舍史东量表

舍史东量表(Thurstone scale)又称间隔均等出现量表(equal-appearing interval scale),也是一种定距量表,主要用来测量调查对象对特定概念的态度。构造舍史东量表的步骤如下:

(1)收集和编写大量与测量概念相关的陈述或说法(至少100句),其中应该包含正向表述和负向表述的说法。

(2)选定25—50位评分者或者裁判,并按照11级的定距量表给出他们对每一种说法的赞同程度的得分,用1表示“最不赞成”……11表示“最赞成”。得分越高,赞成该说法的程度就越强。

(3)计算每种说法的平均得分和标准差,按平均值的大小分布将这些说法分成若干组。有学者建议应该分成20—30组,有些学者则认为可以少一些。

表 2-4 舍史东量表示例(对赠品券的态度)

(4)从每一组中筛选出一种说法,筛选的原则是评分差异较小的(即标准差小)能代表某种态度的说法。同时这些说法的平均得分之间的差异间隔又是相近的。例如可以考虑取平均得分分别接近1.5,2.0,2.5,3.0,……10.5的20种说法;

(5)用以上方法筛选出来的说法组成新的定距量表,其中每一种说法对应一个“同意”的得分(“不同意”对应0分)。被访者只需选出其同意的说法,则所有说法的得分的平均值即为该被访者对所测概念的态度得分。

舍史东量表的优点是使用定距量表测量,而且方便被访者回答,缺点是编制过程比较麻烦。因此舍史东量表在大众传播研究中较少使用,一般多用于心理学和教育学的研究。表2-4给出了舍史东量表的一个应用示例,用于测量消费者对赠品券的态度。

三、顾特曼量表

顾特曼量表(Guttman scale)是顾特曼在1944年设计使用的,又称累积量表(cumulative scale)。顾特曼量表可以看成是一种定距量表或定序量表,经过相当复杂的程序编制而成。顾特曼量表的一个特点是量表为单维的,量表本身结构中存在着某种由弱变强或由强变弱的逻辑关系。具体而言,它是按照被访者的态度强弱来排列各种说法或项目次序的,如果某位被访者同意或接受某种说法,那么他也会同意或接受该说法之前(或之后)的说法。因此,被访者的答案呈阶段型或金字塔型。例如:

(1)电视中出现猥亵性的节目对社会是有害的

(2)儿童不应该收看猥亵性的节目

(3)电视台不应该允许猥亵性的节目在电视中播出

(4)政府应该严禁电视播出猥亵性的节目

资料来源:ROGER D W,JOSEPH R D.大众媒体研究[M].黄振家,译.台北:新加坡商亚洲汤姆生国际出版有限公司,2002:73.

假定某人同意第四项说法,那么他应该也同意前三项说法。假定这个量表是有效的,如果某人同意第二种说法,那么他应该也会同意第一种说法,但不一定同意第三及第四种说法。由于每项得分都代表一组特定的答案,同意的数字就是其在顾特曼量表上所得的总分。

顾特曼量表的前提是一组陈述具有单维度,这种假设是有局限性的。因为这种单维度的模式往往只是某一部分人的态度模式,却不一定是其他群体的态度模式。同时,在一定时期中是单维度的模式,在另一个时期却不一定如此。另外,单维度的领域往往很难找到。例如,人们对政府经济政策的态度可能与其对政府税收管理、公民权利等方面的态度大不相同,而这些维度中没有一个能完全将人们对于复杂的政府概念的态度数字化。在这种情况下,最好承认态度多维度的现实,并利用李克特量表测量。 因此,顾特曼量表在一般的大众传播研究中较少使用,而在社会学、政治学、人类学研究中则较为常用。

四、语意差别量表

语意差别量表(semantic differential scale)是由社会心理学家奥斯古德、萨西和坦南鲍姆于1957年首次提出的,用于测量某些事物在“语意空间”(semantic space)中的距离或相对位置。所谓“语意空间”是奥斯古德等人利用语意差别量表收集数据、进行因子分析后提出的。他们发现经常有三个公共因子同时出现:“评价”(evaluation)、“效力”(potency)和“行动”(activity),因此他们认为这三个因子是构成“语意空间”的最主要因素。传播研究者很快将其中的评价因子用于测量态度。具体来说,语意差别量表是“用一组意义相反的陈述或形容词构成一份评价量表,以测量人们对某一特定概念或事物的不同意识和感受”

传播学研究常使用语意差别量表测量某种事物、概念或实体在人们心目中的形象,例如,测量报纸、电台、电视台、电视节目、广告、机构或概念的形象等。语意差别量表是定距量表,其编制过程和步骤如下:

(1)确定描述、判断或评价研究对象时使用的重要属性。如评价报纸的重要属性可能包括客观性、公正性、真实性、时效性和趣味性,等等。确定这些属性时应尽量确保既不遗漏重要属性,又不包括与测量概念无关的属性。

(2)确定若干与这些属性描述语意相反的形容词,例如客观—主观、公正—偏袒、诚实—欺骗、及时—过时、趣味—乏味等。例如,马哈(Markham)研究电视新闻播报员的可信度时,使用了13组变量,包括深度的—肤浅的、井然有序的—杂乱无章的、厌烦的—愉快的、清楚的—模糊的等。 一般而言,寻找对应形容词的反义词并不是一件容易的事,因此,有学者索性采用简单的肯定/否定式的形容词,如客观—不客观、公正—不公正、诚实—不诚实、洁净—不洁净等。

(3)将各对形容词分别置于一系列有7个刻度的标尺的两端,将正反形容词之间的差距分成7个等级,中间的那一级表示态度中立。

(4)被访者按照对测量对象的第一印象,在每一个标尺上勾选相应的答案。

语意差别量表的编制和使用相对比较简单,而且可以清楚、有效地描绘和比较研究对象的形象。因此,该量表较多地应用于传播学、心理学、社会学研究中,也应用于市场调查研究中。然而,由于确定形容词的反义词往往不是容易的事,因而在一定程度上限制了它的广泛使用。表2-5是对《时代》杂志评价的语意差别量表的一个示例。

表 2-5 语意差别量表示例(对《时代》杂志的印象) sYq4MPY9aHDpo6k5VuRO64Dxw7125d2USnL49mL/Wo0MPrE+yDRrkBOfF1uUWq0Y



第三节
量表的信度和效度

量表被构造出来之后,如何判断其质量的优劣?如果量表被构造出来之后,不经过进一步的信度和效度的分析评价,那么这个量表是粗糙的。对任何构造出来的量表进行试调查,是确保其信度和效度的前提。一般而言,评价量表是否能得到可靠、准确的测量数据,通常要从两个方面进行衡量,即量表设计的信度和效度。

一、信度及其评价

信度(reliability)指测量数据的可靠性程度,即测量工具(如量表)能否稳定地测量出所需要测量的事项。直观地讲,若使用一个量表进行重复测量,产生相同结果的准确程度越高,则说明该量表的信度越好;反之,则说明该量表的信度越低。例如用一个体重磅秤测量人体的重量,若同一个人前后几次测出的体重明显不同,那么这个测量工具(即磅秤)便是不可靠的。

需要注意的是,结果的稳定性或一致性很高的测量工具也有可能是不准确的。就像体重磅秤的零点没有调整在中心而是在5公斤处一样,那么即使每次测出的体重是一致的,但都偏重了5公斤。

信度不是一个单一维度的概念,它包含三个方面的要素,即稳定性、内在一致性和等价性。

(一)稳定性分析

稳定性分析(stability)指分析结果的一致性或在不同时间点测量的一致性,因此又被称为测验—再测验法。其目的是考察同样的问题对同一组被访者或受试者前后两次测量的结果是否基本一致。稳定性分析一般用“再测信度”进行测量,即用两次测量结果之间的相关系数进行衡量,相关系数越接近1,表示稳定性越好。

利用“再测信度”分析有两个局限:其一,第一次测量的结果可能会影响第二次测量的结果,如利用问卷进行测量时,受试者可能会记住第一次的答案,以至于错误地夸大了量表的信度。其二,两次测量时,客观情况可能发生了变化而导致信度偏低。例如,在编辑课程中,研究者分别在第一周和第二周测试学生的校对能力,部分学生第二次校对的分数会高于第一次,因为他的校对能力确实在一周之内提高了,客观情况的确发生了改变。

(二)内在一致性分析

内在一致性分析(internal consistency)涉及测量量表中各个项目的一致性。如果量表内的各个项目对概念而言是等价的或同质的,那么量表便具有内在一致性。具体说,衡量内在一致性的方法有折半法、alpha信度系数法和平均系数法。

1.折半法(Split-half technique)

假定研究者设计了一个18道题的量表用以测量受试者对互联网的态度,如果该测量量表具有内在一致性的话,将量表分成两部分,那么这两部分的测试总分应该是高度相关的。这种测量只需执行一次,具体的步骤是:首先,将测试分成两部分,计算各自的总分。可以按照项目号的前后平均分成两部分,也可以按照项目号的奇偶数来分,还可以随机地分成两部分;然后,计算这两部分总分的相关系数r h ;最后,按照以下公式计算该量表的折半系数:

需要注意的是,应该先将量表中的反向题进行逆向处理,再分别计算两部分的总得分。另外,利用折半法的前提假定是:两半题项得分的方差大致相等,否则便可能会低估信度系数。

2.Alpha信度系数法

使用克朗巴哈(Cronbach)提出的 α 系数来测量累加量表的信度,也是一种常用的方法,特别是在折半法的前提假定不能保证成立的情况下。其计算公式为:

其中, K 为量表中题项的总数, i 个题项得分的题内方差, K 个题项的题内方差之和, 为总得分(所有题项得分之和)的方差。从公式中可以看出, α 系数评价的是量表中各题项得分间的一致性,适用于态度、意见等量表的信度分析。

3.平均相关系数法

平均相关系数法也是衡量量表信度的方法之一,它首先计算量表中两项目得分之间的相关系数,然后再计算所有相关系数的平均值。用这种方法衡量信度的缺点是比较明显的,即偏重于项目之间的相关,而不是整个量表的信度。在这种情况下,项目越多,平均相关系数就可能越高。因此,提高信度的方法之一是增加量表的测量题项,这是因为各个项目的随机误差可能会相互抵消,使得量表的信度较高。

总之,信度的高低既依赖于量表中项目的内在一致性,也依赖于量表的长度。因此,在设计量表时,一方面要尽量设计内在相关性较高的题项;另一方面也要考虑适当增加项目的数量。

此外,有些多题项的量表在结构上是多维的,即包含了几组题项,每组题项反映一个方面的特定内容。例如现代化态度量表就可能是多维结构的,包括竞争意识、时间意识、效率意识、求知意识、自主意识、创新意识六个维度。 因为这些维度之间基本上是相互独立的,因此,测量包含所有维度的整个量表的内部一致性是不恰当的。如果每个维度都是由几个题项构成的,那么就可以计算每个维度的内部一致性。

(三)等价性

等价性(equivalency)是信度的要素之一,在两种情况下都会涉及等价性问题。

第一种情况是使用两个不同的量表或不同的测量方法测量相同概念时的相关性。其方法是在同一时间范围内,让同一组受试者接受两个量表的测量,由两种得分的相关性评价这两个量表的等价性。在这种情况下,等价性评价的目的是发展出两个作用完全相同的量表。两个量表越对等,信度就越高。一般而言,构造等价的量表是非常困难的,因此在现实中较少应用。

第二种情况是两个或两个以上观察者判断同一现象时的一致性。例如在内容分析中(请参看第五章),要考虑编码员内在信度(intracoder reliability)和编码员间信度(intercoder reliability)。编码员内在信度指同一个编码员在不同时间内对同一资料编码结果之间的一致性程度;编码员间信度指两个编码员编码结果之间的一致性程度。这两者的本质和计算方法都是相似的。

在进行内容分析的时候,理想的情况是:两个编码员使用相同的测量工具应该得到相同的研究结果。如在对电视暴力的内容进行认定时,对暴力的界定使用相同的操作定义,那么编码结果的一致性程度就是编码员间的信度。由于观点不同或对操作定义理解的不同,编码员可能会有不同的编码结果,这时就需要评价编码员间的信度。不同的编码员独立进行编码,如果能得到比较一致的结果,则编码员间的信度就较高。

编码员间信度的计算公式一般有下列两种。

1.霍斯提公式

假定两个编码员分别同时做了 m 1 m 2 个单位的编码,其中一致的编码数为 m ,那么

霍斯提(Holsti)公式的优点是计算简单、易于操作,缺点是信度的大小可能与编码时所用的类别数目有关。类别数目越少,由于偶然性而造成的一致的可能性就越大。如果编码的问题是由两个类别构成,那么即使完全随机的编码也可能有50%的信度。而在由五个类别构成的问题中,随机的编码就只可能有20%左右的信度。

2.史考特公式

史考特(Scott)发展出 π 指数,对霍斯提公式进行了修正,即修正类别数目及与使用有关的频率问题。

其中, π o 表示观测到的一致性或称实际一致性; π e 表示纯粹由于偶然性而造成的一致性或称期望一致性,它等于每个类别出现的相对频率的平方和。利用霍斯提公式计算时,一般的信度都可以达到90%或以上;而利用史考特公式计算时,信度大都是75%或以上。

在考察编码员内在信度时,让同一个编码员在不同时间内对同一资料编码两次,然后借助以上公式计算编码—再编码信度(将霍斯提公式中对应两个编码员的数据改为同一编码员的两次数据即可)。

例1:在一项少儿电视节目内容分析的编码表中,两个编码员分别独立地将100个少儿节目分配到以下三个类别中:(1)单本剧、(2)连续剧、(3)系列剧。已知编码不一致的节目共计8个,这三类节目数分别占30%、45%和25%。试分别用霍斯提公式和史考特公式评价这两个编码员的等价性。

解: m 1 = m 2 =100, m =100-8=92

霍斯提信度=2 m ÷( m 1 + m 2 )=2(92)/(100+100)=0.92

π o =0.92, π e =(0.30) 2 +(0.45) 2 +(0.25) 2 =0.355

那么,史考特信度 π =( π o - π e )÷(1- π e )=(0.92-0.355)÷(1-0.355)=0.876

二、效度及其评价

效度(validity)指所测量到的是不是研究者真正所想要测量的概念,即变量的操作定义是否能反映原始概念的基本定义。例如,研究者希望测量电视广告的传播效果,其目的是了解广告能否引起目标消费群的购买欲望,以及消费者的购物决策是否与其观看的电视广告有关。如果研究者最终测得的不是广告对消费者购物决策的影响,而是消费者对广告艺术感染力的评价,那么,这个测量量表就是无效的,或者说是效度很低的。

对于一般的量表来说,信度高时效度不一定高;然而,效度高时信度一定高。

效度分析的常用方法有以下三种:

(一)内容效度

内容效度(content validity)是最简单也最基本的一种效度判断方法,指测量目标与测量内容之间的适合性或相符性。在考察量表的内容效度时,研究者根据测量量表所包含的题项,仅从表面观察,就可以初步判断其是否能够代表想要测量的内容或主题。

一个测量量表要想具备较好的内容效度,一般需要做到以下两点:一是确定内容范围,使测量量表的全部项目均在此范围内;二是测量项目应是已界定的内容范围的代表性样本,即选出的项目能包含所测量的内容范围的主要方面,并使各部分项目的数量分布适当。

由于内容效度与主观判断有关,因此在实际应用时,应尽量收集和阅读与测量内容有关的资料,以增加对所测量问题的深入理解。另外,为减少主观性,还应请一些相关专家帮助判断。

在确定各个具体的题项对整个量表的效度是否都有足够的贡献,或者考察量表内的题项是否具有同质性时,我们常常用“单项与总和相关效度”来判断。具体方法是:首先计算每个题项的得分与总分的相关系数,如果相关系数不显著,则表示该题项与所测内容的关联性较低,最好剔除;如果所有题项与总和的相关的显著程度都较高,那么,量表的内容效度也就较高。

例2:2007年中国传媒大学传播学专业2004级硕士生范欣珩在其硕士学位论文《生活形态与即时通讯使用的关联性研究》中,设计了一个5级李克特人际沟通量表,以测量网民在即时通讯上的人际沟通,包括行为动作和行为感受,统一划归为使用行为。表2-6中显示的人际沟通量表就是剔除了不合格题项后的结果。表2-6中各题项(除1.10外)的得分与总分都是显著相关的(概值P≤0.001),说明量表内各个题项之间具有较好的同质性。

表 2-6 人际沟通量表的单项与总和相关效度分析

续表

(二)效标效度

效标效度(criterion validity)又称效标关联效度或独立标准效度,效标是一个与量表有密切关联的独立标准。效标效度指用几种不同的测量方式或不同的指标对同一变量进行测量,并将其中的一种方式作为准则(效标),用其他方式或指标与这个准则做比较。如果其他方式或指标的测量结果与效标的测量结果有密切的关联性,那么这些测量方式或指标就具备效标效度。简言之,将量表所测量的指标看成因变量,将效标看成自变量,所测指标与效标的相关性越高,量表的效标效度也就越高。

分析效标效度的具体方法是:考察所测量的指标(因变量)与效标(自变量)是否有显著的相关关系;或考察效标的不同取值,所测量的指标是否表现出显著的差异。

一般来说,效标的确定并不是一件容易的事,选择效标一般要根据统计学之外的某种已知的理论,或者某种已经得到肯定的结论。例如,用高考成绩作为预测学生大学期间学业成绩的效标,因为已有的研究结果表明,这两者之间有着密切的相关关系。再例如,设计测量人们现代化观念高效度的量表时,媒介接触行为可能是重要的效标之一。因为我们很难想象一个不看报、不听广播、不接触网络的人会拥有现代化的观念。因此,以“媒介接触频度”“媒介接触内容”等作为效标,所测量的现代化程度得分至少应与这些效标显著相关,这样的现代化观念的量表才有可能是高效度的量表。

台湾学者杨孝溁在“兰屿民众传播行为与现代化程度之研究”中 ,利用有离岛经验的雅美族人和无离岛经验的雅美族人作为测量现代化程度的独立标准(即效标)。只有有无离岛经验的雅美族人之间现代化程度有明显差异的量表,才有可能是高效度的量表。据此,要剔除那些没有差异的低效度的题项。

(三)结构效度

结构效度(construct validity)与被测量的概念所处的理论架构有关,它用来确定测量量表与理论架构中的概念在多大程度上具有逻辑相关性。结构效度指测量能说明理论所构想的结构或特质的程度,或者用某种结构或特质来解释测量分数的恰当程度。 结构效度最关心的问题是量表实际测量的是哪些特征?这些特征是否符合研究者对该概念的理论预期?研究者根据一定的理论架构得出对某概念的理论预期,并以此为标准判断测量量表的结构效度。所以,对结构效度的判断必须建立在一定的理论架构基础上。结构效度分析常用的方法是因子分析法(factor analysis)。

因子分析是一种高级的统计分析法,其主要功能是从量表全部变量(题项)中提取一些公共因子,各公共因子分别与某一群特定变量(题项)高度关联,这些公共因子即代表了量表的基本结构。通过因子分析可以考察问卷是否能够测量出研究者设计问卷时假设的某种结构,比较量表的实际结构与理论架构之间的异同。如果两者相吻合,并且所提取的公共因子具有足够的代表性,则说明该测量量表具有令人满意的结构效度。

例如,2007年中国传媒大学传播学专业2004级硕士生范欣珩在其硕士学位论文《生活形态与即时通讯使用的关联性研究》中采用因子分析,得到“人际沟通量表”的六个公共因子:沟通亲密感、虚拟陪伴感、心理依赖感、讯息活泼度、多媒体应用、工具依赖感。发现这六个公共因子“与前期的文献综述相对应,能够体现电脑中介传播的多数特性,如层次多样的互动性、流程自主的非线性、特殊的符号语言等;同时也能体现人际关系解放说的优点,解决人际关系失落说的疑虑;也能够很好地涵盖以往相关研究的公因子,并有所扩展”。 说明这份人际沟通量表具有较好的结构效度(如表2-7)。关于结构效度的例子,还可参阅柯惠新等人在“1990年亚运会宣传效果研究”中对亚运会态度量表的因子分析,如表2-8所示。

表 2-7 人际沟通量表因子分析

续表

表 2-8 对亚运会态度量表的因子分析(n=1,220)

结构效度的分析有时还有另一层意义,即评价量表中的各个题项能否有效地区分研究对象,例如各个题项能否有效地鉴别态度不同的被访者。常用的方法是项目分析法(item analysis),用于测量量表中各个题项的“难易度”和“鉴别度”。

其中, P H P L 分别表示“高分组”和“低分组”的通过率。

如果用学生考试来理解,考卷中每道题的通过率,就是正确地回答了该题的学生人数的比例。对于态度量表中每个题项的通过率,则是对所测的态度持积极立场的被访者的比例。需要注意的是,对于正向题和反向题,判断被访者的态度积极方向,方法是不同的。

具体来说,计算难易度时,首先要将量表中所有反向题进行逆向处理,计算累加量表的总分。然后将总分按由小到大的顺序排列,并划分成被访者人数相等的4个组,分数最高和最低的两个组分别为“高分组”和“低分组”。最后分别计算这两个组的被访者在每个题项上的“通过率” P H P L

显然,如果该题项是很“容易”通过的,那么,高分组和低分组的被访者在该题项上都容易通过,也就是该题项十分容易让人一目了然,被访者不假思索地就可以给出肯定的答复。例如表2-9中的第1题和第2题就可能是这种类型。反之,如果一个题项很“难”回答,那就不但低分组的通过率低,高分组的通过率也可能不高。

某个正向题项的“通过率”表示对该题项持肯定、积极态度的比例。对于反向题,则表示持否定、消极态度的比例。而某个题项的“难易度”,实际上就是“高分组”和“低分组”在该题项上“通过率”的平均值。

难易度越大,表示该题项越“容易通过”。一般传播学研究的态度量表,取难易度适中(0.5左右)的情况较多。

“鉴别度”表示量表中各个题项对所测特性区分或鉴别的能力,等于“高分组”和“低分组”在该题项上“通过率”之差。

对于态度量表,“高分组”和“低分组”的被访者对某个题项得分的差异越大,则其持肯定、积极(或否定、消极)态度的比例差异越大,说明该题项的鉴别度越高。

在量表设计中,各个题项的鉴别度高一些为好,这就像考试题最好能将成绩好的和成绩差的学生区分出来一样,成绩好的学生大多数能通过,而成绩差的学生却很少能通过。如表2-9所示,第3、4、7、8、10、11和12题项具有较高的鉴别度,并且难易度适中;第1、2和5题项偏“容易”,并且鉴别度较低;第6和9题项则偏“难”一些。

研究者通常会采用多种方法来测试一个量表,以求对它的信度和效度有全面的了解,尤其是当使用一个新开发的量表,或者把一个成熟的量表拓展到新的文化 中去的时候。多方法共同使用的例子,请见本章所附的案例。

表 2-9 对亚运会态度量表的项目分析(n=1,220) sYq4MPY9aHDpo6k5VuRO64Dxw7125d2USnL49mL/Wo0MPrE+yDRrkBOfF1uUWq0Y

点击中间区域
呼出菜单
上一章
目录
下一章
×