购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

五、托福口语30分评分标准解密

参加托福口语考试,没有哪位考生不想拿高分当赢家,但要达到23+甚至27+的托福口语成绩,首先必须正确理解托福口语的官方评分标准。很遗憾的是,之前参加教研,我听到过多个对评分标准的错误理解和由此衍生的一系列错误教学法,最离大谱的一个版本是某老师声称托福口语的整体评分(holistic scoring)就是听个大概,语音语调糊弄一下就能得高分,很多学生竟然对此深信不疑,难怪那么多考生出分卡在了托福口语单项上,实属以其昏昏使人昭昭,误导性极强,很容易让学生丢掉本可以得高分的机会(miss the essence of TOEFL speaking)。这位老师根深蒂固的错误教学理念很可能来自他自己对托福口语考试的误解,甚至可能没搞清楚holistic这个单词的真正含义。根据《剑桥词典》,holistic指的是“dealing with or treating the whole of something or someone and not just a part”。简单而言,holistic approach强调考生答题的各项features之间的整体性和相互关联性,强调部分与整体之间的有机或功能关系,绝非听个大概而已。

这位老师对托福口语考试的错误理解,至少来自以下几个原因:

1.对holistic这个单词完全理解错误(很可能该老师根本没关注holistic的英文释义,而仅凭中文释义揣测,错把整体等同于模糊和不精准)。

2.以偏概全,过分强调delivery这一单项标准,将其混淆错误等同于整体的三个评分维度,而忽略了这三个评分维度之间的整体关系。

3.无视了科技的力量,在AI迅猛发展的今天,对SpeechRater选择性视盲。

4.把评分人的工作看得过于随意,并恶意揣测评分人的职业素养和职业道德。

对托福口语评分标准的错误认知和教学,会耽误很多考生临门一脚的努力(很多考生阅读、听力、写作都接近或达到满分,唯独卡在了校方设置的口语单科最低分数线),甚至会在某种意义上,导致大陆考生口语平均分一直不到18分的尴尬现状。幸运的是,在2019年底,我得以去到托福主考机构ETS美国普林斯顿中心参加TOEFL官方师资培训和学习,在教学研讨会(seminar)托福四科目的评分标准环节,托福口语评分的holistic scoring终于得到了专业且诚恳的解答。根据ETS官方托福研发中心托福口语评分组组长的解释, holistic scoring指多维度测评,也就是整合delivery、language use、topic development这三个评分维度来评估考生的回答。也就是说,单一任何一个维度的绝对优势不会必然带来高分,同理,单一任何一个维度的绝对劣势也不会必然带来低分。 ETS评分人以及SpeechRater在评估考生的语音时,都绝不会只听个“大概”,而一定是依据上述三个评分维度分别去评定,再给出整体的分数。

举例说明,如果某位考生的Task 1很流利,语音语调也标准,话题展开也充分,但有多处明显语法、句式和用词错误,那么就和4分(最高分)再见了,至于是3.5分还是3分甚至更低,就要看错误的个数了。而另一位考生的Task 1语法和用词都很准确,发音也标准,但并没有回应题干,或在答题过程中逻辑混乱,无法有效证明自己的观点,也会被判定为3分及以下,因为topic development不合格。这就是为什么很多考生语流(flow)语感很好,觉得自己回答得不错,时间把控也合适的情况下,最后只能得到22分甚至更低的原因。因此我们在练习和备考的时候,绝不应该只停留在“听起来还不错/听个大概就可以”的层面,而应该把我们的录音回答,结合各个task的题目要求,以及ETS托福官方评分标准精准对照起来,查漏补缺,有目标性、有正确反馈地进行刻意练习(targeted and deliberate practice with accurate feedback),才有可能成为合格的托福口语高分选手(qualified TOEFL Speaking contestants),成为“游戏赢家”(the winner of the game)。

托福口语评分机制

截止到2023年12月,托福口语共有4个task:1道独立题加上3道综合题,每一个题目原始分满分都为4分,考试方式均为在规定时间内按照题目要求,对着电脑完成录音,总时长17分钟。考生的答题录音传输到ETS北美考试平台后将由评分员和AI联合评估,各占50%权重。托福口语每一个task都将从以下三个维度(delivery、language use、topic development)由human-raters(人工评分员)和SpeechRater(人工智能机评)来进行综合或整体评分(holistic scoring),得到一个0~4分的原始分(raw score),再被换算成成绩单(score report)上0~30分的口语最终分数。

可预期的是,这种双维度的打分方式给考生的托福口语成绩带来更为准确也更为严格的评测结果。SpeechRater和human-raters的分工差异是:前者更关注考生录音的语言学特征(linguistic features),即发音、流利度、词汇、语法(pronunciation、fluency、vocabulary、grammar),而human-raters更关注内容和逻辑(topic development)。这两种评分方式完美的互补,使得想要得到托福口语高分的考生,务必严格按照delivery、language use、topic development这三条评分维度,去检查、校准、和强化自己的口语,提升自己的口语质量。

托福口语评分标准

The TOEFL Speaking score is evaluated on three factors:

· Delivery: Is the candidate able to communicate smoothly and effectively about the topic, including flow, pronunciation, timing, and intonation?

· Use of Language: How well does the candidate employ grammar and vocabulary?

· Topic Development: How well does the candidate integrate their ideas and thoughts to articulate the arguments surrounding the topics?

Before the test, make sure you understand what the raters are looking for and how the questions are scored.In the speaking section, all responses are scored on a scale from zero to four, and they're scored holistically, which means the raters listen for various features in your response and then give it an overall score. Although there are some variations depending on the questions, raters will be looking for three main things.First, delivery: Your speech needs to be clear and fluid with good pronunciation.The pace or speed of your speech should be natural, and you should have good sounding intonation patterns.Second, language use: This is mainly how you use grammar and vocabulary to express your ideas.And third, topic development: This is mainly how fully you answer the question, how clearly you express your ideas, and how you can connect one idea to the next in a way that is easy to follow.

译文: 在考试之前,请确保你了解了评分者的要求以及评分方式。在口语部分,所有的回答都会被给到0~4分, 是整体评分的,这意味着评分者会听你的回答中的各种特征,然后给一个整体分数 。虽然根据问题的不同会有一些变化,但评分者会在你的语音答案中寻找三方面信息。首先是语音语调,你的回答要清晰流畅,有好的发音,说话节奏应该是自然的,并且有良好的语调模式;其次是语言使用,主要考查你如何使用语法和词汇来表达你的想法;最后是话题展开,主要考查你如何完整地回答问题,如何清晰地表达想法,以及如何以易于理解的方式将前后观点联系起来。

托福口语评分细则

我们来逐个分析:

1.Delivery

可以理解为表述能力或者口头呈现效果,包括以下四个小项:

(1)clear and fluid speech

clear指口齿清晰/发音清晰,不造成listener efforts,也就是让考官能轻松听懂。highly intelligible(容易理解和识别)很关键。注意:错误发音和语调都会造成listener efforts。

fluid(流利):很多考生认为停顿是影响得分的一个重要指标。其实不然,适当的句间停顿是必要的,而句内的停顿则尽量减少。大家平时需要多练习以句子为单位的输出,去增加流利度以及整体输出量。

(2)good pronunciation

发音不需要native like,但需要正确,因为发音错误,会直接导致理解错误。比如unique和eunuch的重音混淆,fat和fight的单双元音不分,th不咬舌(大多数学生会把I think念成I sink)。有次上课,一位考生想表达“I eat three meals a day.”(我一天吃三顿饭。),却说成了“I eat three males a day.”(我一天吃三个男人。)。总体来说,中国学生的普遍发音问题包括: 元音不够饱满,辅音不够清晰,长短音错误,重音错误,拖长辅音,缺乏语调,不会连读和弱读。

(3)natural pace

在45秒或60秒答题过程中,进行自然停顿,最好是句间停顿而不是句内停顿,句间停顿是自然思考和换气的需要,而句内停顿则是词汇或者语法能力不足而造成的卡顿和重复。另外,整体语速不能太慢,容易让人走神犯困;也不能太快,让人无法听清。请大家多次录音,找到适合自己的中等偏快的语速(综合口语答题语速通常建议达到中文语速的1.5倍)。

(4)good intonation

建议大家多去看美剧和听国外的新闻譬如CNN、NBC、CNBC、FOX News,真正地道的英文是有自然起伏的,而大部分中国学生说英文没有语调,听上去干巴、僵硬、不顺滑(dry and rigid, unsmooth)。当然也有的学生矫枉过正,过度夸张模仿,体现在频繁甚至全部句子用升调,不论元音、辅音、长短音,统统重度拉长并加大口型,听起来突兀、怪异,并不符合native speaker的发音习惯,也会适得其反,导致低分。对于先天音质好和擅长模仿的考生,在这一评分维度优势明显,建议这类考生将长板最大化,毕竟考官们看不到我们面部表情和内心世界,只能通过声音来弥补。

2.Language Use

这一维度考查考生的语法和词汇基本功,请牢记两个关键词: 正确和恰当 。我们需要用正确且恰当的词汇,结合简单或复杂的语法结构来有效表达自己的观点。换句话说,回答的句子不能都是简单小词和简单短句,但也不需要刻意使用过于复杂的词汇和句式,一切以恰当为准则(as appropriate),“炫技”经常适得其反。此外,托福口语实际上是口头版的托福写作,一定要注意语法的正确和严谨性,下面给出一些中国考生在托福口语和写作中常犯语法错误的具体例子:

(1)动词时态、语态混淆:

I go to the movie last night.(×)

I went to the movie last night.(√)

The book is written by Mark Twain in 1885.(×)

The book was written by Mark Twain in 1885.(√)

(2)主谓一致错误:

The students needs to study hard for their exams.(×)

The students need to study hard for their exams.(√)

She and her brother is going to the party.(×)

She and her brother are going to the party.(√)

(3)冠词和名词单复数的误用:

I want to buy an new car.(×)

I want to buy a new car.(√)

I like to eat the apples.(×)

I like to eat apples .(√)

(4)代词使用不当:

John and Tony went to the park.He had a great time.(代词指代不清,不清楚he指代的是John还是Tony)

Sarah is a doctor.Sarah works at a hospital.Sarah is very talented.(缺少代词指代,重复使用Sarah而不使用代词she)

(5)中译英语序问题:

把“帮助我更好地理解”说成“help me to more understand”;把“更少地使用宿舍电话”说成“less use room phones”;把“我很喜欢我妈妈做的午餐”说成“I very like my mum cooks lunch”。

(6)动词、副词和介词使用问题:

比如,2023年10月28日的托福独立口语真题,问:人们应该选择自给自足还是依赖他人?(Whether people should choose to be self-sufficient or depend on others?)一位考生的回答就惊悚地出现了下面的版本:

I think that cook myself, drive myself and live myself is important.

他本想表达:自己做饭,自己开车,自己生活是很重要的。但这句话是典型的病句,错误有两点:

①动词无法充当名词成分,应该在cook、drive和live后面加-ing。

②缺失了介词by,cook myself、drive myself和live myself语意立即变得极其怪异,失之毫厘谬以千里。cook myself的字面意思是“把自己煮了”。自己做饭的正确表达应是cook by myself、cook my own food或cook for myself。

ChatGPT·Bot

Why is “I cook myself.” incorrect?

ChatGPT

The phrase “I cook myself.” is incorrect because it is not a complete sentence.It is missing a verb.A correct version of the sentence would be “I cook by myself.” or “I cook for myself.” The phrase “I cook myself.” could also be interpreted as meaning that you are cooking yourself, which is not a common or logical expression.

“自己住”可以表达为live alone、live by myself或live on my own;“自己开车”可以表达为drive by myself或drive alone,而缺失了介词by,drive myself意思就变成了“自我驱动的努力”,相当于work hard on myself。

3.Topic Development

最后一项考查大家的答题内容和逻辑拓展。这点看起来简单,却难倒过无数英雄。尤其是独立口语的15秒答题准备时间,对托福考生甚至是母语者都形同虚设,纵使大家平时积累了再多的词汇和语法,但短时间内就是想不出该如何针对话题有效组织45秒有逻辑的回答。更不要说,很多考生很容易在拓展过程中犯一些逻辑错误,以下是一些可能出现的问题:

(1)逻辑错误:

①非逻辑的因果关系。例如,考生可能会说“假如有越来越多的人使用社交媒体,大家的社交技能就越好”。这种因果关系是不成立的,因为社交媒体的使用并不能直接提高社交技能。

②一般化和过度概括。例如,考生可能会根据自己在大城市的经历,一般化地说“在中国,人们更喜欢传统医学而不是西医”。这一陈述概括了整个人群的偏好,而没有考虑个体差异和地区差异。

③漏洞和不完整的论证。例如,考生可能会说“大学教育很重要,因为我父母都是大学毕业生,他们现在有好的工作”。这个论证忽略了其他可能的因素,如个人背景、能力和努力等。

④无效的类比。例如,考生可能会说“学习英语就像学习数学一样简单”。这种类比是无效的,因为英语和数学是不同的学科,涉及不同的思维方式和技能。

(2)举例问题:

①缺乏多样性。在讨论技术发展时,考生可能会提供多个与智能手机相关的例子,但不会提及其他技术进步,如人工智能或可再生能源。

②具体细节不足。在讨论喜欢的书时,考生可能会说“我喜欢读像《简·爱》这样的经典”。然而,没有从书中提供任何具体的理由或例子来支持他们的偏好。

③过于个性化的例子。当讨论旅行的重要性时,考生只关注个人经历,比如曾经去热门旅游目的地的一次家庭旅行,而没有考虑其他类型的旅行经历或观点比如自由行。

事实上,跟前面两项评分标准相比,topic development是考生最能够在短时间内提升的。简单来说,就是要做到对高频托福独立口语话题库足够熟悉,打通题目之间的逻辑内在联系。要达到这个目标,可以反复看本书和《托福口语白皮书》的思路拓展来自学内化吸收,提升逻辑思维能力,或去听思路清晰的老师的讲解,做到一定数量的练习,一旦对高频题目足够熟悉,能够触类旁通,就能有效改善。要在这部分得满分,取决于以下几个方面:

①How fully you answer the question

将答题时间占满,即能够连续地讲45秒或60秒(speak continuously for 45s or 60s),有足够的相关细节,不超过3秒以上停顿,答案完整,且不缺采分点信息(采分点信息在本书题型讲解中有详细介绍)。

②How clearly you express your ideas

思维清晰,用词准确,表意清楚无歧义,要直接,并且避免语意重复和绕弯子,不能为了凑字数来回说车轱辘话。

③How you connect ideas in a way that is easy to follow

前后句子的逻辑关系要清晰,分论点服务于总论点,要能善用连接词,整体语言和逻辑重点突出,层次分明,容易理解。

最后来总结复盘,要达到托福口语的30分评分标准,大家需要关注:

1.Delivery:口语答案是否足够清晰和流利,是否展现出了准确甚至地道的语音,以及自然的节奏和语调。

2.Language Use:是否能够有效地运用正确且恰当的词汇和基本/复杂的句式去表达观点。

3.Topic Development:是否能够全面地回答问题,是否能够有逻辑并且连贯地陈述观点,是否能够有效地使用和分配答题时间,是否能够有效且明确地表明观点与观点之间的各种逻辑关系。

以上三个标准就是托福口语评分的基本参照指标,相比较而言,机评SpeechRater更关注前两项(delivery和language use)的语言学特征(linguistic features),而人工human-raters评分时,除了关注技术性的要点,更多还是在评判topic development,即口语答案中表达出来的逻辑,句子和句子之间的关系是否合理,拓展细节和观点之间的对应以及论证关系是否充分准确等。而这恰恰是目前的SpeechRater做不到的。

结论: 大家练习口语的时候,三项评分标准一定要齐抓共管,努力在每一个维度上做到personal best,而不要顾此失彼(当然基于每个考生的情况不同,优势也不同,齐头并进的基础上,再去扬长避短是最合理的配置)。切记:匆忙低质量的刷题是无效的,要有好的输出,先得有好的输入,只有见过大量高分和满分回答,清楚评分标准,明白自己的短板在哪里,并知道如何通过针对性有反馈的刻意练习来提升,才能事半功倍,要做到这些并不容易,这也是为什么建议有条件的考生不妨寻求专业老师的帮助。

托福口语满分案例分析

下面小妍老师就通过一位考生的独立口语满分案例,结合第6版《托福考试官方指南》,及2019年小妍老师在ETS普林斯顿参加的TOEFL OFFICIAL TRAINER内训的重点内容,为大家详细解读托福口语的评分标准、正确训练方法和答题技巧,以考促学。

题干

Some people think romantic movies are worth watching and entertaining, while others disagree and think otherwise.What is your opinion, why or why not?

Explain your answer with details and examples in 45 seconds.

满分范例

I really don't like romantic movies for two main reasons.First of all, I think they are just so terribly cliched.Because there have been so many of them throughout the years, a lot of plot points and character archetypes have become essentially the same.You have the Mary Sue character or the perfect rich guy who also just loves you in every perfect way, or plot points like the argument in the rain.It's all so repeated and dated.But also, I think it has a negative effect on how people see romance in the real world because it builds unrealistic expectations of what romance and a relationship are supposed to be like.So I think it's harmful as well as boring.

高分词汇

cliché [ˈkliːʃeɪ] n. 陈词滥调,陈腐思想

plot points 情节设定

character archetype 主角,主人公

dated [ˈdeɪtɪd] adj. 陈旧的

unrealistic [ˌʌnriːəˈlɪstɪk] adj. 不现实的

Mary Sue 玛丽苏(指的是在文学作品中十分“完美”但现实中绝对不会存在的女性角色,自身携带“女主光环”。每个出现的男性角色都爱她、关注她。)

很显然,这段回答中,language quality(linguistic features)维度一定是满分,具体表现为:lexical range(词汇的范围)、syntactic patterns(句式使用的多样性)和呈现性(elaboration)非常到位。而第三个评分维度“话题展开”(topic development)依旧是满分,下面来拆解下其中的逻辑和内容:

我不喜欢爱情电影(topic sentence),因为:

1.剧情太过陈词滥调+展开细节(玛丽苏,霸道总裁爱上我,雨中的争吵……)

2.影响对现实爱情的认知+展开说理(为观众构建了对爱情不现实的期待,剧情无聊,有害无益……)

大家对于玛丽苏、霸道总裁爱上我、雨中争吵的桥段是不是非常熟悉?极具画面感的描述充分论证了plot points are cliché的论点;而第二个论点延展的比较深入,讲到了这类电影会影响到人们对爱情的正确认知和期待,尤其紧跟在观点句后的原因状语从句“because it builds unrealistic expectations of what romance and a relationship are supposed to be like”非常漂亮、干净、准确。

根据第6版《托福考试官方指南》,对于独立题45秒应如何选边和展开,有以下两点需要特别注意:

1.细节、说理和解释(details, reasons, explanations)最重要,而展开形式不重要(and/or examples)。使用一个例子还是两个论点都不影响得分。

2.没有正确或者错误的选项。所以,我们的答题策略是:不求最真实,只求最好说。尽可能贴合(注意贴合和硬套有本质区别,聪明的考生都懂)你提前储备的高品质语料是最聪明的做法。

总结: 一道独立题的满分回答,必然满足了三个评分维度的所有标准,在语音语调、逻辑展开和语言质量上都做到了极致。

下面是给目标冲刺托福口语30分的考生们的几条建议:

1.通过控制语速输出足够的单词量

在第一个技术层面,我们需要对自己的单词输出能力有清晰的认知。当然,这不是意味着回答越多越好,而是在合理的框架内,在有逻辑的前提下,尽可能地多输出。根据统计,多数口语能够拿高分(27分以上)的考生,在保证发音清晰,逻辑切题,语法和用词正确的前提下,输出基本可以达到每秒2.5~3个单词,这意味着独立题的45秒答题时间可以说出112~135个单词,综合题的60秒答题时间可以说出150~180个单词。如此的输出密度,是能够保证一个比较好的结果的。当然,达到这样的水平需要不断的练习,在保持清晰发音、思路聚焦的同时,学会更快地组织思路观点和英文句式,保持语流的流畅,停顿自然,并利用连读弱读规则来控制语速。

2.增加单词的多样性,减少重复

在表达上,减少同一个单词或者词组的重复是非常重要的,同时还需要增加单词的多样性来体现自己对于单词掌握的能力。熟悉口语表达的常用单词和短语,减少过于正式和书面化的单词的使用,是可以增加在语言运用上的得分的。

3.增加过渡词的使用来提高逻辑联系

学会使用合适的逻辑过渡词,让句子和句子之间的逻辑更为清晰,如what is more、on the other hand、however、so、admittedly等,通过平时练习的积累,找到自己在不同逻辑关系上能够熟练使用和替代的单词,从而可以在答题时信手拈来。在教学中,小妍老师发现很多学生在口语和写作答题过程中,习惯性地将观点和信息堆砌在一起,完全没有过渡衔接词(transitional words),显得很生硬且难以理解,还有的学生前后观点重复,互为包含或因果,甚至矛盾和互斥,暴露出大家平时缺乏思维训练,以及针对特定话题,逻辑和连贯性表达的匮乏。

所以,备考托福口语和写作的过程,也是考生思维逻辑和表达能力查缺补漏的过程,在这一点上若能得到强化,而不是机械背诵一些答案,考前依赖机经小范围押题,则不仅有利于大家托福口语分数提高,更能提升大家的综合素质、逻辑素养和整体竞争力,从而让自己更适应未来北美的学习和生活。 GSKKmRTvc28EpBPTrVeosVkFHgRrDW0IKkMhXpTf/BG85q8l9S8W+rA+lTXwh2/Z

点击中间区域
呼出菜单
上一章
目录
下一章
×