购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第三节
多样化的社会与情感能力测评形式

一、从标准化测试到非标准化评估的探索

标准化测试是指将评分量表作为评估学习者回答质量的评分指南,基于观察到的课堂行为,并辅以学生自我报告,对学生的社会与情感能力提供全面和公正的评估。常用的评分量表有德弗罗优势评估(The Devereux Student Strengths Assessment, DESSA) 和社会技能提升系统社会情感学习版(SSIS SEL RF)。基于标准的评估可以用来判断学生对预期的社会与情感能力的掌握程度。根据面向对象的不同,量表评估可以分为自我评估、同伴评估和教师评估。自我评估提供自陈量表,要求学生评估其执行特定行为的频率,或他们对信念、态度或价值观的认同程度。当然,除了学生之外,教师本身也可以作为社会与情感能力的测量主体。量表测评存在一定的局限性,如自陈量表的测评结果非常依赖参与者的自我认知。为了减少社会赞许效应对结果的影响,许多施测者除了收集自陈量表的数据外,还会利用同行提名技术获得社会与情感能力测评的补充性信息。即同时收集如同伴、教师或家长的评估信息,以此提高评价的客观性。其次,量表测评受制于参与者的年龄、文化水平和文化背景。年龄小、文化水平不高的参与者可能无法理解题目含义,从而影响测试结果。

非标准化绩效评估评判学习者在既定任务中的表现,是社会与情感能力形成性评估的有效工具。在更加复杂的学习过程和能力(如社会能力、情感能力和学会学习能力)评估方面,非标准化绩效评估比标准化测试更加有效。 档案袋评估是非标准化绩效评估的典型代表。档案袋评估是用于学习者社会和情感能力形成性、协作性和动态性评估非常有用的工具,是形成性评估的有效方法。它通过持续跟踪、监控和评估学习者的学习进度,提供学习者动态和全面的学习视图。 它通过由学习者保存的档案,以记录他们在持续写作过程中的努力、成长和成就,也就是学习者的一系列作品集来评估。随着互联网和计算机技术在学校中的普及,电子档案袋评估在学校中逐渐普及。无论是档案袋评估还是电子档案袋评估,他们都是以学习者为导向,能够将学习者当前的学习进度及时反馈,为学习者进行自我学习、自我调节学习提供了一个良好的平台

个体在面对模糊刺激时做出的反应是自己人格和内心情感的投射。精神分析中的投射技术是评估儿童和青少年心理健康状况的常用工具,在社会与情感能力测评中,使用范围较广的投射表达技术是儿童统觉测验 (如Children's Apperception Test, CAT)、绘画技术 (如The Draw-A-Person Test, DAP)和语句补写测试 (如Washington University Sentence Completion Test, SCT)。有研究者曾在2005年利用绘画技术调查了荷兰中部地区两所普通教育学校和两所特殊教育学校中的7—9岁的儿童。绘画任务是要求儿童画一个在学校期间的人的形象。研究者设立了以下几条评分规则:(1)细节数量:观察身体、头部、衣服、头发和空间比例等30个细节是否在画中有所体现。(2)认知发展水平:由专家对画的整体所反映的作者的认知水平进行打分。(3)社交发展水平:观察画中人物姿态和人物的开放性,这个人物是否是开放和容易接近的。(4)社会与情感能力发展水平:由人物的形态判断,人物是否双脚稳稳地站在地面上?面部表情有多自信?(5)绘画技巧:由于个体的绘画技巧会有很大的差异,所以需要专家对每个儿童的绘画技巧进行整体评分。(6)冲动程度:由画中的线条、画的大小以及画画所占纸张的比例来判断。(7)自我形象水平:观察该人像是否给人以自信的印象?投射测验的开放性赋予了它丰富趣味的同时对研究者的专业性提出了较高的要求,既要深入学习相关理论,又要不断地在实践中总结,不适合一线教师在课堂中使用。再如测量创造力的经典测验,托兰斯创造性测验(Torrance Tests of Creative Thinking, TTCT):含言语版本,图画版本和听觉版本 ,其中几道经典题目如(1)利用不规则图形绘制图案;(2)利用多个三角形绘制图画;(3)回形针的不同用途;(4)对玩具狗的改进。远距离联想测试(Remote Association Test, RAT):通常,研究者会从语料库中选取中性字,要求参与者根据显示的三个不相关的字,想出一个和这三个字都能组成词的字。 如果出现“幸、气、星”,那么参与者需要想出的字为“福”,因为“福”可以和以上三个字都能组成词,即“幸福、福气、福星”。

综上所述,虽然标准化测试有种种因素制约,但其高效方便、节约成本等特点,在大规模施测中有着其他测评工具无可比拟的优势,至今仍是社会与情感能力研究中最常用的测评工具。

二、从直接观察到情境锚定的过渡

直接行为观察是观察者使用标准化的方法,记录学生在一定时间段内某一特定行为的发生频率或持续时长等。除了研究者,观察的主体还可以是观察对象的同伴和教师或其他亲近之人。同伴评估的优势在于学生在教师面前的行为可能存在一定的掩饰性,而在同伴面前的行为表现、情绪反应等更直接自然,由同伴提供观察反馈更能反映出个体的真实行为习惯。教师评估相比其他评估的优势在于,教师是进行社会与情感能力教学的主体,通过课堂观察,教师可以更直观地感知到学生社会与情感能力,有助于教师针对班级学生具体情况制定社会与情感能力培养方案。直接观察法通过真实行为推测社会与情感能力,对观察对象的年龄、文化水平等不做限制,在一定程度上克服了量表测评的局限。然而,如果缺少具体的行为观察指标,不能让观察者及时记录被观察者的行为或情绪反应,无论是同伴观察还是教师观察都可能会有失偏颇,陷入主观的误区。其次,直接观察法耗费时间长,一个观察者无法同时顾及多个被观察者,在效率上不及量表测评,很难在大规模群体中施行。

情境锚定是指通过创设相关的问题情境,观察评估参与者的自然反应。人格的显著特征之一是具有跨时间和跨情境的稳定性, 社会与情感能力作为人格的外在行为表现也应具有类似特征。社会与情感能力不同于其他认知技能,它与社会生活紧密相连,贴合实际的问题情境既能准确激发学生体现相关能力,也是促进社会与情感能力提升的有效方式,做到“测评为教学,测评即教学”。在情境测评中,“情境”是核心,它并非必须是真实生活场景,也可以是为服务于测量具体能力的目标,在真实生活场景的基础上加以改造的模拟场景。模拟场景不意味着脱离现实,只要符合学生的认知,刺激学生的自然行为,就可以达到测评和教学的效果。

目前我国社会与情感能力的情境化测评仍处于初级阶段,测评问题情境应该怎样设置,学生行为反应怎样评估等一系列指标尚未完善,在教学实践中鲜有应用。

三、从强调特质到强调状态的转变

社会与情感能力测评不再仅仅是对学生标准化的评估,会更加关注学生能力的变化过程以及变化原因,以达到以“测评”促“培养”的目的。过程探索需要聚焦到个体,访谈是个案探索的常用方法。访谈分为结构访谈、非结构访谈和半结构访谈,心理学领域常用以探究测评对象心理和行为。访谈法的一大特点是给予研究者和测评对象充分自主性和创造性。研究者可以根据测评对象的回答捕捉关键,选择恰当的问题提问以服务于测评目的,访谈时间也可以由研究者自主控制;测评对象可以充分表达自己的观点,适合做深层次研究和个案探索。社会与情感能力的访谈需要结合测评对象熟悉的生活领域,如家庭关系、同伴关系、学校参与等, 否则可能会出现测评对象无话可说的情况。访谈对象既可以是学生,也可以是教师、家长、同伴等,让学生的重要他人参与访谈能够为测评提供更真实和详尽的信息。利用访谈法测评社会与情感能力的局限性在于它的结果可能会受到访谈对象语言能力的影响,特别是测评对象为低龄儿童时。研究发现,儿童的语言能力和社会与情感能力的访谈评分呈正相关。 自我反思日志和每日日记也是动态评估的常用方法。让学生以文字记录,不仅为学生提供了评估自身社会与情感能力的机会,而且还可以得到学生对社会与情感能力的具体陈述。 近年来,生物数据逐渐被应用于社会与情感能力的测评之中,生物数据研究使用标准化问题询问个人经历的细节,如过去某些事件、行为或经历发生的频率, 通过特定生理指标对个体的表征能力进行评估。

值得注意的是,强调特质的标准化测评与强调状态的个案研究相辅相成、相得益彰,不可偏废。因为个案研究始终面临着如何处理特殊性与普遍性、微观与宏观之间的关系问题,随着现代社会日趋复杂,对独特个案的描述与分析越来越无法体现整个社会的性质。因此,“走出个案”是人文社会科学中个案研究事实上的共同追求。前述标准化测试为“走出个案”提供可能。

四、被低估的沉浸式游戏化测评

游戏本身是指单人或多人参与交互的一种娱乐方式,娱乐是其本质特征。近年来,有学者开始探索如何利用游戏的巨大潜力来实现教育、训练或治疗的目的,于是严肃游戏(Serious Game)这一概念应运而生。在游戏环境中开发的测评模型大多通过评估特定的学习结果和技能作为评价指标,还有研究者尝试将游戏与能力特征联系起来,让游戏提供个体如何思考和行动的线索。游戏的情境能够为参与者,特别是中小学生带来良好的体验,学生不会觉得他们是在考试或测试,从而提高他们的参与度、参与动机与交互时间。 有研究表明,如果将评估依托于或真实或虚幻的故事情境,不仅有助于评估过程的顺利进行,而且会让学生不自觉地沉浸其中,他们会以更快的速度完成这些评估。 而且基于游戏的测评具有隐蔽的特点,可让受测者无法猜测测验意图,有效减少测验作假。 更重要的是,游戏化测评还可以通过设置教育情境,达到在游戏中测评,在测评中学习的效果,真正实现以“测评”促“培育”的目的,这一优势是其他测评不可比拟的。同济大学物理科学与工程学院就将游戏化测评应用于大学生科学探究能力的测量,通过收集学生在教育游戏中产生的学习数据,进行数据挖掘、文本分析等设定评价量规、得出评价结果。

基于社会与情感能力的游戏化测评的内容主要有:(1)“参观动物园(Zoo U)”,评估儿童的社会情绪能力,主要聚焦个体在交流、合作、同理心、情绪调节、冲动控制和社会活动六个方面的能力。 它是一个类似学校的虚拟世界,学生们在这里学习成为动物园管理员。儿童在游戏中可以定制角色,根据规则完成不同场景下的游戏任务。(2)岛屿任务游戏(Poptropica),与Zoo U类似,玩家可以在其中探索包含各种主题和任务的“岛屿”,通过玩家任务的完成情况评估个体的毅力。 (3)最后通牒游戏(The Ultimatum Game),又称最后通牒博弈,是一种由两名参与者进行的非零和博弈。在这种博弈中,一名提议者向另一名响应者提出一种分配资源的方案,如果响应者同意这一方案,则按照这种方案进行资源分配。如果不同意,则两人都会什么都得不到。通常用来评估个体的宜人性特质。 (4)尼古拉沙漠探险记(Nicola Expedition),这是我国学者为测评中小学生的批判性思维开发的一款角色扮演类教育游戏,用以判断学生批判性思维的归纳、推理、观察(判断可信度)、辨别假设四方面能力,见图1—7。

图1—7 《尼古拉沙漠探险记》游戏架构

游戏化测评可以分为虚拟游戏、沙盒游戏、塔防游戏等,目前多数游戏集中在测评创造力、毅力、问题解决、空间推理等能力上。更多游戏化测评内容请详见第四章。

现今游戏化测评仍处于初级起步阶段,在游戏的开发、游戏数据的处理、游戏效度的评估等方面存在技术壁垒是不争的事实。但毋庸置疑的是,随着计算机技术与游戏技术的不断进步,游戏化测评蕴含着巨大的潜力,具有较高的应用价值。

五、信息时代下智能化评估的崛起

近年来互联网的普及和人工智能水平不断提高,新型教育环境下电脑、平板等工具已经走入了中小学课堂,智能化技术也随之初步应用在教育测量领域。智能化评估已经突破了纸笔测验的局限,社交媒体发布的文本、图片、日常对话都可以作为分析内容,同时还可以获得音频、视频等多模态数据,实现特质的过程性、动态化、无痕式评估。将人工智能应用于社会与情感能力学习分析,能够精准了解教师和学生在教学和学习过程中的需求,及时调整教学策略。测评结果方面,机器测评的自动评分系统往往比专家测评更稳定、更客观。 智能化评估是一种很有前景的社会与情感能力的评估方式,在社会和情感教育评估中越来越普遍应用于评估学生。如基于游戏测评学生的毅力,既可以分析游戏结果等外部数据,也可以分析在游戏过程中的操作过程、语言表述等内部数据。当然,智能化评估目前仍存在一些共性问题不可忽视。首先,研究内容和领域具有局限性。由于测验对象是人,所采集的数据需要考虑隐私、伦理问题,所采集的数据往往流通性较差。社会与情感能力领域的智能化评估研究大部分仍停留在探索阶段,实践工作较为缺乏。其次,多模态数据分析体系尚未完善。文本、图片、音频、视频等不同样态的数据分析应特别注意跨模态间的一致性或互补性,目前的研究方法以利用传统的机器学习对数据建模为主, 还需探索更多解释性更强的方法,让分析服务于研究目的。

智能化评估的最终目的是服务于人,所以要以人的发展为根本宗旨。这就需要将测评与教育紧密结合,如在建设教育智能化评估公共平台上着力。由政府主导、学校和社会广泛参与,在国家、省市和区县智慧教育平台中嵌入教育智能化评估的共享平台。共享平台的建立可以实现教育的各个部门互联互通,便于实时动态监测。同时,利用互联网技术将测评数据与教育大数据库连在一起,将收集到的教育信息结构化为大数据,储存起来并用于评估,便于开展大规模追踪研究;与教育智能化分析联系起来,可以根据需要利用人工智能出具监测评估报告,供教育专家进一步深化和修正。 智能化评估已成为全球化推进的必然趋势,它使教育研究工作者的探索范围从本校、本地区扩展到本国乃至全球,为将本地区学生的发展水平与全球范围内其他地区的发展水平进行对比提供可能。 sxMl+ZQX4F436E3nfwJTLrbXKtlY6wQVbTb6bMfLZemBYYXvmeFREfSq04S/O9DK

点击中间区域
呼出菜单
上一章
目录
下一章
×