传承性与创新性：基于证据的六级、雅思、托福考试效度对比研究(上)（下）最新章节_辜向东著

序
“基于证据的四六级、雅思、托福考试效度对比研究”最终成果简介

项目批注号：14AYY010

项目名称：基于证据的四六级、雅思、托福考试效度对比研究

项目负责人：辜向东

课题组主要成员：黄萍、XI Xiaoming、汪顺玉、FAN Jinsong、肖巍、虞程远、刘小宇、杨瑞锦、孟磊、李玉龙、梁延松、洪岳、王萍、许皖栋

国家社科基金重点项目“基于证据的四六级、雅思、托福考试效度对比研究”（14AYY010）于 2014年 6月立项。课题组随即开展了长达五年零六个月系统深入的调查与研究。最终成果简介如下：

本课题涉及的大学英语四六级、雅思、托福三项考试是中国乃至全球极具代表性的语言考试。三项考试规模大、风险高、影响广。四六级考试包含四级和六级两个难度级别；雅思分学术类和培训类两种考试用途；托福有纸笔考、机考和网考三种考试形式。在本研究中，我们选择的分别是六级、雅思学术类、托福网考三项考试。因为六级与四级相比在难度上更加接近雅思学术类和托福网考；相较于培训类，雅思学术类更多用于升学考试用途，这与托福考试用途更接近；而网考是托福三种答题形式中最普及的考试形式，所以我们选择六级、雅思学术类、托福网考三项考试进行对比。为了表达简洁，在专著和研究报告中，六级、雅思学术类和托福网考三项考试分别简称为：六级、雅思、托福。

1 研究的目的和意义

研究目的：本课题旨在回答一个总的研究问题：六级、雅思、托福三项考试的效度有何异同？

学科理论与实践价值：理论上，验证“基于证据的社会——认知效度验证框架”在考试效度对比研究中的可行性，并进一步构建更加科学合理的语言测试效度对比研究模型。实践上，通过对比三项考试的效度，形成将三项考试关联起来的论证。这不仅可以丰富考试对比研究领域的文献类型，而且能为类似的研究提供思路和方法上的借鉴。

社会和现实意义：一方面，本研究有助于推动我国语言测试开发与研究的国际化水平，有利于提升我国自行开发的英语考试在国际上的认可度，为教育、人事部门及广大利益相关者提供入学、就业、人才流动等决策依据；另一方面，本研究中的雅思和托福考试均已实现与国际公认的语言能力标准CEFR（2001）和我国的《中国英语能力等级量表》的对接（教育部考试中心，2019），其开发与使用遵循了国际公认的语言测试标准。因此，三项考试的效度对比研究有望为《中国英语能力等级量表》的应用与推广提供参考数据。

2 研究成果的主要内容和重要观点或对策建议

◇研究的主要内容

本课题研究从“基于证据的社会——认知效度验证框架”出发，从情景效度、认知效度、评分效度和后果效度四个方面对六级、雅思、托福考试进行了全面深入的效度对比研究。这些研究回答了一个总的研究问题：六级、雅思、托福三项考试的效度有何异同？图1为本课题的研究概览。

本课题的结题成果主要为专著。专著除引言和结语外，主体包括传承性研究和创新性研究两大部分。传承性研究是运用语言测试效度研究普遍使用的研究方法（自动文本分析工具、有声思维、话语分析、问卷调查和半结构式访谈）做的八项实证研究，主题涉及六级、雅思、托福阅读文本词汇复杂度、阅读文本选择与改编、听力长对话和阅读测试受试有声思维认知过程、口语测试样本视频中考官和考生的会话特征与主题发展、三项考试的口语和写作测试对考生的反拨效应。创新性研究是在传承性研究基础上，尝试使用语言测试领域近年较新的跨学科技术方法（数据挖掘技术、眼动技术、结构方程模型）做的三项创新性研究，主题涉及三项考试文本自动分类、受试认知过程加工及写作测试反拨效应机制对比。因为数据挖掘和眼动技术在语言测试研究中的应用在国内尚处于起步阶段，所以本专著对数据挖掘和眼动技术在语言测试研究中的应用分别进行了专门的引介与综述。此外，由于对语言测试的效度研究从结果导向性转向过程性研究涉及一个核心概念——“认知效度”，因此，本专著也对其理据、概念、模型及实证进行了专门综述。

图 1 基于证据的六级、雅思、托福考试效度对比研究概览

◇重要基本观点

尽管六级、雅思、托福三项考试在考试目的、性质、构念、分数解释和结果使用等诸多方面存在不同，但三项考试都是以英语为外语或二语的大规模、高风险语言考试，受试即将接受或正在接受高等教育，三项考试应该具有可比性，三者的效度应该既有较大的相似性，也存在一定的差异。研究结果从各方面提供了支持本观点的效度证据。

◇对策建议

本课题为三项考试不同利益相关群体提出了以下针对性对策建议。

1）考生：大力加强真实语言材料输入，阅读六级、雅思、托福考试文本来源报刊杂志、新闻网站、广播电台、学术教材、著作，如《时代周刊》《经济学人》《卫报》《纽约时报》《新科学家》《国家地理》等。加强实践性练习，切实提升语言综合运用能力。要深信“语言学好了，考试没问题”。促进成就性测试使用，增强能力自我认知，提升自我效能，加强社会情感策略和备考管理，加大学习投入等。

2）教师：通过语言教学，培养学生人生胜任力（life competencies）。充分利用现有教学资源，更新教学内容。关注学生情感因素，如鼓励他们建立学好语言的信心，降低考试焦虑，实现“三全育人”。

3）考试设计者/考试机构/决策者：提升命题质量，全面测量受试的语言能力和策略能力，如在听力测试中加强语用知识和社会语言知识的考查，在阅读中加强语篇层次的考查，丰富考试题型。避免构念无关因素影响，如字面匹配、随机猜题、背景知识运用等。改善测试环境，提供高质量、有代表性、连贯性、完整性的样本视频、样题、备考材料等。提供明晰的评分标准，做到标准化与人性化的统一，确保考试的公平性、公信力和透明度。

3 成果的学术价值、应用价值以及社会影响和效益

◇学术价值

本研究探索、验证、丰富和发展了效度研究理论，建立、充实和完善了新的效度研究模型，尤其是三项考试效度对比研究的多个子框架或模型，比如听力长对话测试构念描述框架、三项阅读测试分析框架、三项口语考试考生反拨效应理论框架、写作考试考生反拨效应理论框架等，为今后其他大规模、高风险考试的效度研究，尤其是效度对比研究，提供了理论和方法上的借鉴。

◇应用价值

本课题为考生的学习、教师的教学提供了富有建设性的意见和建议，为三项考试设计者/考试机构/决策者进一步提高命题质量、施测环境、评分标准等提供了具有针对性和可操作性的方案与决策依据，为语言测试研究者和工作者以及对此感兴趣的广大读者提供了思路和方法上的参考。

◇社会影响

由于三项考试涉及的考生人数达数千万，对其效度的对比研究的社会价值难以估量。本研究有理论、有实践，有数据、有分析，论点鲜明、论据充分、论证有力。研究成果启迪性、说服力和实用价值强，部分成果在国内高校、出版社、科研机构，如上海交通大学、武汉大学、四川大学、大连理工大学、东北师范大学、西安交通大学、外语教学与研究出版社、高教出版社等上百场学术讲座、工作坊上分享，而且在中小学国培计划、中小学外语教学与研究中得以应用，如词汇复杂度、阅读文本选择与改编等的研究思路与方法已经应用于高考、高中英语教材、报刊等的研究与中小学教学实践，并通过个人和机构的微信公众号、出版社网课等得以广泛传播，受益人次达数十万。

◇社会效益

人才培养的国际化及可持续发展可能是本课题最大的社会效益。依托该课题研究，我们带动和培养了一批国际化的语言测试工作者和研究者，正在实现可持续发展。在研期间，课题负责人受聘世界一流测试机构（剑桥大学英语考评部）高级学术研究顾问。一位课题组成员应聘到国外高水平大学任专职研究员，四位团队成员获国家留学基金委全额奖学金境外、国外攻读博士学位，两位获得国际英语教育研究基金会首届硕士研究奖。课题部分成果在国际高水平会议上宣读，如国际语言测试界最高级别会议语言测试国际研讨会年会（LTRC），欧洲语言测试者协会年会（ALTE），亚洲语言测试者协会年会（AALA），国际英语教师协会年会（IATEFL）等；在世界一流大学做专题研讨，如剑桥大学、纽约大学、香港理工大学等；部分成果在国际高水平期刊发表，如 Applied Linguistics ， TESOL Quarterly ， Language Testing ， Language Assessment Quarterly ， Assessment ＆ Evaluation in Higher Education ， Innovations in Education and Teaching International ， System 等。

另外，课题组有三位成员从硕士生导师晋升为博士生导师，一位课题组成员博士论文获省优秀博士论文，两人硕士论文被评为市优秀硕士论文，五名团队成员获国家奖学金，多人次被评为优秀青年教师、优秀研究生、优秀毕业生、优秀共产党员。我们因此建立起了一支成长型和研究型语言测试团队，领衔了中国大百科全书语言测试词条的编制，成为雅思、托福、普思、剑桥英语系列考试与《中国英语能力等级量表》对接的专家组成员，并申请获得国际合作语言测试研究基金项目、教育部人文社科项目、中央高校基金重大项目和跨学科项目等。因为该项目而建立的跨学科导师团队最近被评为市级研究生导师团队，正在实现可持续发展。课题负责人因其在科学研究和人才培养中的突出成绩，于 2019年获得国家留学基金委高级访问学者奖，将再赴剑桥大学访问与合作研究。课题组和团队期望通过人才培养的国际化和可持续发展，为我国语言测试与研究的国际化贡献力量。

缩略语汇总

序 “基于证据的四六级、雅思、托福考试效度对比研究”最终成果简介