购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.4 托福口语评分机制剖析(人+ SpeechRater ®

自ETS在2019年托福考试新政发布会上宣布SpeechRater ® 将正式参与托福口语评分以后,不少考生都对其评分方式、评分过程以及评分机制充满了疑问。到底它会如何介入托福口语评分?其评分准确性又如何?经过查阅ETS官方提供的相关资料和论文,希望下面的内容能让你更了解SpeechRater ® ,以及托福口语评分机制。

1 ETS为什么使用SpeechRater ®

要回答这个问题,我们先来看看传统的托福人工评分模式,重点从人、财、物几个方面分析。人即评分员,全球每年都有海量的托福考生,对评分员的需求只增不减,虽然ETS建立了全球范围内的人工评分系统,实现了评分的客观、有效、公平,但是人员的流动确实也不可避免。新评分员需要花费时间和精力进行培训,通过试评和审核之后才能上岗,上岗后还要再观察一段时间的评分质量。即使新评分员经过重重关卡终于“媳妇熬成婆”,也无法避免人工评分员的局限性,比如评分的宽严度,就是打分严了或松了的程度。虽然大家都接受统一培训,参考同一个评分标准,但很难避免个人的偏好。再比如评分一致性,一种是评分员之间的评分一致程度,同一个录音有的人给1分,有的人给3分,那这个录音就要进入复评。另一种是评分员自身评分的一致性,不能早上心情好给的分高,下午疲惫了给的分低。一般情况下,评分阅卷系统会间隔一段时间给评分员推送之前评阅过的录音,验证评分是否一致、稳定。

人工评分员存在的最大劣势是:人非机器,在高强度且紧密的评分工作下,人很难保证自己的专注力、评分宽严度、一致性、稳定性等不受影响。财和物方面的问题比较显而易见:培训费、物料费、劳务费等都是花销。一般情况下,每一位考生的每一条答题录音会被至少2位评分人审评,彼此之间都是盲审,如果打分的差距大于1分,则会有更资深的评分员做最终的判断。

人工成本的投入之高,相信大家可以从越来越贵的考试费上看出来。ETS在介绍SpeechRater ® 时也用了这样的话来阐述机评的优势:“With SpeechRater, you can expect faster, more consistent results when compared with a human rater, saving cost and time while ensuring accurate scores.”( https://www.ets.org/accelerate/ai-portfolio/speechrater/

所以,机评势在必行。

2 SpeechRater ® 是什么?

SpeechRater ® 是美国教育考试服务中心研发的口语自动评分系统。2006年SpeechRater ® SM Version 1.0(v1.0)版本开始被应用于托福考试官方在线练习TOEFL Practice Online(TPO)的口语评分。

SpeechRater ® 的评分系统主要分为三个部分:自动语音识别程序(The Speech Recognizer)、口语特征提取程序(Features Extraction Programs)及评分程序(Scoring Model)(Zechner et al.,2007;2009),评分流程为考生的答题录音通过语音识别程序进行解码,机器识别出单词和语音片段;之后特征提取程序提取出评分的维度特征,在评分模型进行评分,最后将分数报告展示在用户界面。

图1-32 SpeechRater ® 的基本评分流程

3 SpeechRater ® 评分特征与口语评分标准

对于所有考生来说,大家更关心的是它的评分与人工评分有什么差别?经过对比托福考试的评分标准,我们发现:

ETS研究人员在SpeechRater ® 报告中提到机器选择评分特征和评估其特征表现时会重点关注与人工评分标准之间的相关性(Lei Chen et al. 2018)。由于人工评分员采用的是综合评分方式,所以无法特别关注各个具体特征的表现,而SpeechRater ® 在当前的研究中展示出了五大方面的12个评分特征,分别为:

图1-33

Fluency 流利度方面>>

作答长度:规定作答时间内输出的单词总量。

语速:每分钟输出的单词量。

表达连贯度:表述时较少出现停顿或者多余的填充词,如 um、uh等。

停顿频率:表述时停顿的频次。

词和短语的重复率:在一句话中重复一个单词和短语的频次。

停顿的恰当性:表述时能否在适当的地方停顿。

Pronunciation发音方面>>

节奏韵律:是否能掌握单词音节的重读。

元音饱满度:发元音时的饱满程度。

Vocabulary词汇方面>>

用词复杂度和准确性:是否能够使用不常见的词汇进行正确表达。

词汇的多样性:是否能够积极使用丰富多样的词汇进行表达。

Grammar语法方面>>

语法的准确性:表达在多大程度上能够匹配正确的语法规则。

Discourse语篇方面>>

逻辑连贯性:考查表述中句子与句子之间的关联程度。

将以上12项内容与下图的托福口语评分标准(图1-34)相比较,可以看出,

图1-34 托福口语评分标准

SpeechRater ® 的流利度和发音方面的各特征,正是Delivery“语言表达”所关注的重点。词汇和语法方面的特征也正是评分标准中Language Use“语言使用”所关注的内容。存在的局限性在于Topic Development“话题展开”方面只能在逻辑连贯性和作答长度两个特征给予反馈,无法在语义层面进行精确的评判。但是整体来看,SpeechRater ® 几乎覆盖了评分标准的各方面。

不管怎样,既然ETS明确表示已经将SpeechRater ® 加入了托福口语的正式评分之中,并且每个考生的四个作答都会由四位人工评分员及SpeechRater ® 进行共同评分,那么各位考生就要在练习中合理、有效地利用好SpeechRater ® 这个工具,了解它的系统机制,熟知它的评分维度,通过SpeechRater ® 所提供的报告反馈,攻克自己的薄弱点。

总的来说,一切都离不开熟能生巧(Practice makes perfect)这句话,希望各位考生能在平时的学习和练习中合理、有效地使用SpeechRater ® ,早日取得口语高分。

参考文献

[1] Zechner, K., Bejar, I. I., & Hemat, R. (2007). Towards an understanding of the role of speech recognition in non-native speech assessment (ETS Research Rep. No. RR-07-02). Princeton, NJ: ETS.

[2] Lei Chen, Klaus Zechner, Su-Youn Yoon, Keelan Evanini, Xinhao Wang, Anastassia Loukina, Jidong Tao, Lawrence Davis, Chong Min Lee, Min Ma, Robert Mundkowsky, Chi Lu, Chee Wee Leong, Binod Gyawali. Automated scoring of Nonnative Speech Using the SpeechRater SM v.5.0 Engine (ETS Research Report No. RR-18-10) [R]. NJ:Educational Testing Service, 2018. 12-5. A81w3X6xBXI8iqEiMpaIGHvT7VpNyZnjpj3DO6yBxLalv9VPlDruDEbusxeMRUyC

点击中间区域
呼出菜单
上一章
目录
下一章
×