在各个阶段的医学教育中,针对学员行为表现的评价对于衡量教育的效果非常有必要。在实施评价计划之前,我们要先明确几个问题:哪些能力或指标是需要进行评价的?评价需要考虑哪些因素?评价目的是什么?良好的评价有哪些标准?在本节中将结合上述问题,对评价标准建设的原则进行阐述。
在以提供安全有效的以患者为中心的医疗服务背景下,医学教育开启了以胜任力为导向的教育模式改革,近二十年以来,全球范围内的各类学术机构和专业组织进行了大量关于医师核心胜任力的研究,形成了多个具有影响力的核心胜任力框架。胜任力模型对医师应该具备哪些能力提出了具体的要求,并将其应用到医学教育与考核认证中,贯穿医学教育的整个过程。因此,胜任力模型中的指标是评价医师是否符合岗位要求的理想标准。
以美国为代表的欧美发达国家近年来进行了大量的研究与实践,提出的核心胜任力模型受到全球广泛关注,并将其作为医学教育、培训和考核的依据。下面列举了美国、加拿大、英国等国家较为代表性的医学生/医师核心胜任力模型,虽然表述上有所不同,但实质内容有很多共同之处。美国毕业后医学教育认证委员会(Accreditation Council for Graduate Medical Education,ACGME)确定了美国住院医师培训后需要具备的 6 项核心胜任力,包括:①医学知识;②患者诊治;③人际沟通能力;④职业素养;⑤基于实践的学习和改进;⑥基于卫生大系统的实践。加拿大皇家医师学会提出了加拿大医学教育指引体系(Canada medical education direction system,CanMEDS),该模型认为医师应具备以下7种角色能力:①医学专家;②沟通者;③合作者;④领导者;⑤健康倡导者;⑥学者;⑦为患者提供高效的以患者为中心的治疗专家。英国综合委员会在2013年修订的优质医疗实践中提出住院医师应具备4个方面的能力:①医学知识、技能和表现;②医疗质量和安全;③沟通、合作与团队精神;④维持信任。以核心能力为导向的住院医师培训及考核模式已逐渐成为主流,最具代表的为ACGME提出的住院医师6大核心胜任力。
国内医学教育在核心胜任力这方面的研究起步较晚,发展相对滞后,国家卫生健康委员会(原国家卫生与计划生育委员会)于2014年8月制定的《住院医师规范化培训内容与标准(试行)》中提出:“住院医师规范化培训以培育岗位胜任能力为核心,依据住院医师规范化培训内容与标准分专业实施。培训内容包括:医德医风、政策法规、临床实践能力、专业理论知识、人际沟通交流等,重点提高临床规范诊疗能力,适当兼顾临床教学和科研素养。”在此基础上,中国住院医师培训精英教学医院联盟通过反复调研与论证,于2018年9月14日发布了中国首个住院医师核心胜任力框架共识,提出了我国现阶段住院医师应具备的6大核心能力:职业素养、知识技能、病人照护、沟通合作、教学能力及终身学习。
在确定了哪些能力需要被评价之后,接下来要考虑被评价者所处的发展阶段及能力评价的等级。
Dreyfus兄弟提出技能的获得一般要经过“新手—高级学徒—合格者—熟练者—专家”这五个阶段。依据这一模型,评价标准也必须依据评价者的发展阶段而发生变化。在评价设计之初,评价表应该能区分被评价者所处的不同的发展阶段,如对于新手应该设计与新手能力相匹配的评价内容和评价量表,而对于熟手或是专家,那么相配套的内容和评价标准也应该不同,即在评价设计时应根据评价对象所处的不同阶段而设计不同的难度。此外,为了确保新手已经学会执行某些任务所需的系统过程,评价中通常使用涵盖了重要步骤的核查表;相比之下,专家会制定更为全面的方法来解决问题,并知道哪些步骤可以跳过,若依据核查表进行打分,得分可能比新手还要低,因此针对高级学员或专家,使用整体等级评价表更适合。
能力是一个潜在的概念,如何对其进行测评并判断一个人是否达到了基准性胜任能力要求呢?20 世纪 90 年代,美国医学教育家米勒(George A.Miller)对医学能力进行了分类,分为四个等级(即米勒医学能力金字塔):包括第一层次知道概念(knowledge),第二层次知道原理(competence),第三层次正确展示(performance),第四层次实践中做到(practice)。米勒金字塔不但对于医生获得医学能力的过程具有一定的指导作用,也对医学能力的测评具有一定的参考意义,建议对应米勒金字塔的不同等级选择适合的评价标准。如知道概念和知道原理等级的能力可以采用笔试和口试的方法进行有效评价;而OSCE考试与基于模拟的评价(simulation-based assessment,SBA)则最适合展现为何等级;迷你临床练习评估(mini-clinical evaluation exercise,Mini-CEX)、操作技能直接观察(direct observation of procedural skills,DOPS)、360°评价等评价方法则适用于评价在临床实践中的实际表现。值得注意的是,评价很多时候不仅仅局限于某一种能力或某一个层次,在一次评价过程中可能会应用到多种评价方法(图7-2-1)。
图7-2-1 弥勒医学能力金字塔及对应评价方法
评价除了在基本培训和认证这个过程之外,还包括贯穿整个职业生涯的定期常规性重新评价。进行评价的可能原因有许多,在基于成果的模式中最重要的是预测学习目标是否已经完成。此类教学成果的测量不仅仅确定个人是否达到或没有达到最低标准,也着眼于改善和提高教学质量。
根据评价目的的不同一般分为总结性评价与形成性评价两种类型。如评价主要用于确定学员是否或在多大程度上实现了教育目标,此为总结性评价,通常发生在一个教学单元的结尾,通常涉及特定的分级或分类的赋值,诸如“通过或不及格”,以总结性评价为目的的评价标准不仅要具有良好的信效度,还要有很好的区分度,如何定义评价项目的等级或分值权重将是重点。若评价主要承担识别专业领域的薄弱点,以直接朝着最终改善的目标去进行继续学习,此为形成性评价,形成性评价通常被认为是教育系统中的独特环节,但这一环节正是教学和评价互相交叉的地方,形成性评价必须注意给予形成性反馈,以免有意外的负面影响。因此以形成性评价为目的的评价标准更倾向于教育属性,对信效度的要求相对较低,更注重内容的实际性与指导性。
权威评价的一个明显后果就是能影响到教师对教学、学生对学习的选择。只是承认学习者会根据学习的内容和考试的要求以不同的方式来调整自己的学习动机这还不够,我们应该利用这一现象,有意地设计评价系统,以引导学习者向我们期望的方向努力。评价的教育影响指评价促进学生做出有教学积极意义的准备。评价的催化效应指评价在某种方式上提供了结果和反馈,并创建、提高和支持教育,进一步推动了学习。这种催化效应能影响医学教育培养方案及课程设置,为医学教育改革提供动力。然而,有时考试对教育和学生的影响可能是意想不到的和消极的,例如使用核查表按照执行动作来评分,那么考生可能学会钻评分表的空子,通过声明或执行诸多在实际工作中不会做到的操作步骤,从而得到较高的分数。如果被评价者提前获知核查表的内容,可能变相地促使死记硬背的行为,这样的行为也会导致评价结果的不可靠性。为了避免评价带来的消极影响及减少潜在的效度威胁影响,可以尝试对评价条目赋予不同的权重,将过度行为和不必要的患者管理策略纳入扣分处理。
在前面我们已经讨论了很多与评价标准密切相关的因素,为了提高评价的质量与结果的有效性,在建设评价标准时通常需要考虑以下几点:
1.明确三大要素,即明确评价的目标及内容是否与教学培训目标一致;明确此次评价的目的是形成性评价还是总结性评价;明确被评价者所处的发展阶段。
2.根据最适原则选择评价方法,可以是单一的评价方法,也可以是多元的评价方法。
3.评价的教育影响及催化效应,应该能够产生量化的、叙述性的反馈,并与后期的教学与学习的改进直接相关联。
4.信度与效度是衡量可信度与有效性的金标准,尤其是一个高规格通过性考试(如医师资格考试或住院医师规范化培训结业考试),必须满足监管机构和对患者负责的相关标准,以及对考生的公平性和公信度。
5.进行可行性分析,评价应该是实用的、现实的和明智的,要考虑到环境和背景,基于模拟的评价除了要考虑硬件配置的可行,还要考虑专业技术需求及人力成本。