评价工具是指与评价方法紧密联系,用来衡量或判断考生的能力表现,并进行某种类型的分数赋值的量表。可以用于评价和判断被评价者表现的工具不计其数,但无论这些开发的工具是否在之前被证实过可靠有效,都不能直接拿来使用,一方面这些工具的内容会很快过时,另一方面工具的信效度证实建立在使用该工具所得到的数据之上,一旦该工具在新的或不同的环境中使用,都需要重新认证信效度。本节将介绍如何用科学的方法设计出有效的评价工具。
在基于模拟的评价中目前国际上最常用的两类评价工具是核查表(checklist)和等级评分表(rating scale)。在设计评价工具之前应先确定采用哪种类型,我们先来了解一下这两种类型评价工具的具体特征及区别。
1.核查表
核查表是对模拟教学中的行为或结果进行列表,对这些行为或结果进行逐项评价。核查表通常是“二分型”的,用“是”或“否”(“执行”或“不执行”)表示。核查表清单对应的是该项目的最佳操作流程,流程越细化,评价的客观性越高。当需要学生掌握某个项目的具体操作过程时,通常会选择核查表,针对初级阶段的学生常常采用这种类型的评价形式。优点是评价项目具体客观,即使是非专业人士经过短期培训后也可以作为评价人。缺点是在体现学员能力水平上存在不足,只能判断是否执行了某一个动作,但是对执行该动作的质量无法区分高低(表7-3-1)。
表7-3-1 心肺复苏操作核查表
2.等级评分表
等级评分表是对某项任务完成整体情况进行分级评价,以具体任务为单位,将评价表现中的数个通用参数作为一个整体来评价完成质量,通常采用5级评分法,1分——极差,2分——差,3分——一般,4分——好,5分——很好。与核查表相比,等级评分表采取一个更整体、更全面的观点看待被评价者的表现,而不是仅关注某个单独的方面,可以更好地评价某项任务的完成质量,有效地评测特定指标,尤其是那些复合型或多维度的指标,如沟通交流技巧和团队协作等。缺点是等级评分表没有具体的细则,与核查表相比其评价较为主观,必须由经过培训的专业人士进行评价,在评价前必须要对任务的不同等级形成共识,对等级做出清晰明确的定义(表7-3-2)。
表7-3-2 心肺复苏操作等级评分表
等级说明:1.很差,不能接受需要补考;2.较差;3.平均,能接受的少数缺陷;4.较好;5.优秀,超出期望。
由于两种类型的评价工具都有其优缺点,可以将两种评价形式结合在一起进行评价。
前面已经介绍了国际上常用的两类评价工具,国内在模拟教学与评价中使用的评价工具大部分属于核查表的类型,通常对评分细则赋予了具体分值。由于国内的医学模拟教育起步较晚,目前尚缺少国内公认的用来评价医学生临床能力的测评工具,评分标准各级各类院校之间有较大的区别,通常由各医学院校的专家小组自行设计使用,设计过程大都缺乏科学性、严谨性,较少有对评价工具进行信度、效度检测的报道。然而,要想通过评价得到客观、真实、有效、系统的结果,并能对模拟教育的发展提供更多的支持证据及改革依据,用科学严谨的方法设计出具有较高信效度的评价工具至关重要。
为了保证评价工具的权威性及较高信效度,通常使用德尔菲专家法(Delphi method)完成评价工具的制定。德尔菲法本质上是一种反馈匿名函询法,其核心是通过匿名方式进行几轮函询征求专家的意见,由设计小组对每一轮意见汇总整理,作为参考资料,再发给每一位专家,供专家分析判断,提出新的意见,如此反复,意见逐步趋于一致,得到一个比较一致且可靠性较大的结果。
经典德尔菲法在第一轮专家咨询时提供一系列开放式问题,请专家自由回答或提供信息,优点是可以收集到丰富信息,但工作量极大,研究周期较长。改良德尔菲法在第一轮专家咨询时直接提供结构化问卷供专家判断评分,同时鼓励专家尽可能多地提供建议和补充观点,其最大的优点在于为所有的专家提供了一个共同的基础框架,既能增加研究结果的准确性,又缩短了研究周期。目前多使用改良德尔菲法进行评价指标构建及评价工具研制。改良德尔菲法具体操作步骤及注意事项如下:
第一步:首先要确定评价的对象、评价的目的,选择相关人员成立研究小组,研究小组的主要任务是拟定初期评价表内容、研究确定咨询专家、编制专家咨询表、发放回收专家咨询表、对专家意见进行整理、分析等。初期评价表内容通常结合文献查阅、专家访谈、小组讨论等方式拟定。
第二步:编制专家咨询表,包括背景资料介绍、专家一般资料问卷、初期评价内容咨询表、详细的填表说明、回收期限、联系人及联系方式等。备选条目的重要程度依据五分法分为5个等级:很重要、重要、一般、不重要、很不重要。专家对条目的熟悉程度也分为5个等级:很熟悉、熟悉、一般、不熟悉、很不熟悉。判断依据分为理论分析、实践经验、同行处了解、直觉四类。专家依据咨询表内容,逐条提出自己的意见并说明理由,包括删除无关条目,添加遗漏的相关条目,修改已列条目内容等。
第三步:选择确定合适的专家进行函询,德尔菲法的关键是对专家的选择,选择的专家应具有一定的代表性和可靠性,根据相关研究,选择的专家人数以15~50人最为适宜。在确定专家入选时,要根据专家选择的三个原则(代表性、权威性、积极性),综合其他方面选择专家,应涵盖医学专科、模拟教育、心理计量学三大领域的专家。
第四步:安排专人负责发放回收专家咨询表,可以采用邮寄或E-mail等形式进行。随着现代信息化技术的发展普及,采用电子邮件的方式更方便快捷。
第五步:将第一轮收集的咨询反馈表进行整理汇总,并根据反馈意见修改咨询表内容,将所有专家反馈列在一张改进清单里,所有的反馈信息都匿名化,所有的改进建议都重点标出。
第六步:将修改后的第二轮专家咨询表分发给各位专家收集意见,每名专家就是否同意增添、删除、或修改某条目投票,以便做第二次修改。逐轮收集意见并为专家反馈信息是德尔菲法的主要环节。收集意见和信息反馈一般要经过三四轮,直到可以得出比较统一的意见为止,最后对专家的意见进行综合处理,编制成正式的评价工具。如果是用于高风险评价的评价工具,可以增加预评价测试环节,通过信效度检测进行验证,确保评价结果能真实有效地反映评价目标。
应用德尔菲法也存在不足,即评价结果受专家主观制约,德尔菲专家法的可靠性程度可用专家积极系数、权威程度、专家意见集中程度及专家意见协调程度等指标来衡量。专家积极程度是指专家对本项研究关心的程度,主要是通过调查问卷的回收率来表示,一般而言,达到50%的回收率为可接受,达到60%表示回收率好,超过70%的回收率说明专家积极性高;专家权威程度一般由专家评分的判断依据和专家对问题的熟悉程度这两个因素决定,相关研究表明专家权威程度系数>0.7表示有较好的可信度;专家意见集中程度是用指标重要性赋值均数(Mj)进行表示的,数值越大说明该指标的重要性越高;专家意见协调程度用变异系数和协调系数来表示,主要是体现所有专家对指标意见的一致性,同样可以衡量咨询结果的可信程度。
目前,由于模拟培训与评价在国内的普及以及统计测量学的广泛应用,研究者普遍运用相关测量学指标来解释评价的质量和结果。在上一节提到的关于评价的催化效应,就是基于对评价结果的分析与反馈。对于医学类的总结性评价,包括实践能力考核均可以使用教育测量学指标进行评价,通常用信度、效度指标对评价结果的可靠性及有效性进行验证评价,对于选拔性质或者竞赛性质的考核评价,通常还用难度、区分度来进一步解释考核结果的合理性、有效性。
1.信度指标信度(reliability)
又叫可靠性,是反映测量结果受到随机误差影响程度的指标,是评价测量质量的最基本指标。是指采用某种评价工具所测量的结果在不同条件下所具有的可重复性,是对测量的一致性程度的估计。测量结果的稳定性或一致性越高,信度就越高,表示该测评工具越稳定。比如同一个人连续7d用电子秤测得的体重数基本一致,说明这个电子秤具有高信度。对于信度的检验主要采用重测信度分析及内在一致性分析。
重测信度是指用同一工具、两次或多次测定同一研究对象,所得结果的一致程度。重测信度用重测相关系数来表示,相关系数越大,则重测信度就越高,研究工具的稳定性越好。
内在一致性是指组成研究工具的各项目之间的同质性或内在相关性,内在相关性越大或同质性越好,说明组成研究工具的各项目都在一致地测量同一个问题或指标,其信度越高。对于一致性信度的检验,有项目折半分析法和克伦巴赫(Cronbach)系数法两种方法,克伦巴赫(Cronbach)系数法是目前评价中使用最广泛的信度测评方法,它能够反映出考核指标的一致性程度和内部结构的良好性。信度系数要求在0.6以上,>0.7是认为信度较高,达到0.9以上为最好。
2.效度指标效度(validity)
也称有效性,通常是指考试结果能否准确地表明所要测量的特征或功能的程度,或指某一测量工具在测量某项指标时所具有的准确程度,是评价测验或量表质量的又一重要指标。比如7个体重完全不同的人用同一电子秤测量,测得的体重数相近,没有正确地反映出7人体重的不同,说明这个电子秤的效度很低。效度是一个相对程度上的概念,只有高低之分,没有“有”“无”之分。效度有结构效度、内容效度、效标关联效度三大类。
内容效度是指评价量表的内容与预定要考核评价内容的一致性程度,即评价量表内容对所要考核评价的全部内容的代表程度。内容效度分析最常用的方法是专家判断法,由多个学科的专家对测验题目及评价标准与所涉及内容范围的符合程度进行判断。要提高量表的内容效度,最重要的是量表条目内容与医学生或住院医生所要求学习的课程目标一致,即评价的目标要与医学教育内容相符;其次是指标内容要正确反映学生所处的水平。
结构效度又称构想效度,是指一个测验分数能够说明所要测量的理论结构和特质的程度,举个例子,如果我们要测量住院医师的职业胜任力,那么就要构想住院医师职业胜任力的组成方面,并且要构想出与其相应的测量工具,哪一种构想更贴近住院医师职业胜任力的本质特征,哪一种方案的结构效度就高,否则就低。通常用因子分析法进行结构效度的验证。
效标关联效度法是另一种检验测试效度的常用方法。这种方法首先要寻求一种可靠的效标,然后求出测试结果与效标的相关系数,该相关系数则为效标关联效度,通常利用积差相关法求效标关联效度,效标关联效度值一般在0.4~0.8之间。效标关联效度可以用一个公认有效的量表(金标准)作为效标,如果缺乏公认的“金标准”量表,也可以用自主评定的方法作为效标。
信度与效度并不是相对孤立的两个方面,既有区别也有关联。信度是结果一致性的程度,效度是结果准确性的程度,信度反映了考试中随机误差的大小,而效度反映了考试中系统误差的大小。信度是效度的必要非充分条件:信度低,效度必然低;信度高,效度未必高。另一方面,效度是信度的充分非必要条件:效度高,信度必然高;效度低,信度未必低。因此,高信度是高效度的前提。
3.难度
难度指测评项目的难易程度,是评价考题及评分标准拟定得好坏的指标之一,同时也是反映考试质量的重要指标之一,可以衡量评价内容是否适合学生的知识和能力水平。通常以难度指数P表示,P=X/W(X为某题全部考生的平均得分,W为该题的满分)。项目的难度对测量的信度与效度产生直接影响。对于测试的难度,按P值划分等级,一般认为:P<0.3为难题,0.3<P<0.6为较难,0.6<P<0.8为中等,0.8<P<0.9为较简单,P>0.9为简单。
4.区分度
区分度也叫鉴别力,是指测试题目对学业水平不同的学生的区分程度。是评价测试质量,筛选试题的主要依据。单从区分度来看,对于以选拔为目的的常模参照测验,其数值越高该题目被采用的价值越大。根据相关研究报道,区分度在0.4以上为优良;0.30~0.39为合格;0.20~0.29为尚可,但需修改;0.19以下为差,应该淘汰。
在相同因素下,信度会随着区分度的变化而变化,而且信度改变的敏感性大于区分度,也就是说信度会随着区分度的提升而提高,而且增长幅度比区分度更快。
难度和区分度都是相对的,是针对一定范围的测验者而言。一般来说,较难的题目对于高水平的被试者区分度高,中等难度的项目对于中等水平的被试者区分度高,较易的项目对于相对低水平的被试者区分度高。难度与区分度的关系不能简单数字化、概括化,而是需要将难度与区分度结合评价性质、评价目的与要求、命题立意、设计思路和教学实际等多方面一并考虑。