传承性与创新性：基于证据的六级、雅思、托福考试效度对比研究(上)（下）最新章节_辜向东著

引言

国家社科基金重点项目“基于证据的四六级、雅思、托福考试效度对比研究”（14AYY010）于 2014年 6月立项。课题组随即开展了长达五年零六个月系统深入的调查与研究。本专著为该项目的结题成果。

本专著涉及的大学英语四六级、雅思、托福三项考试是中国乃至全球极具代表性的语言考试。三项考试规模大、风险高、影响广。四六级考试包含四级和六级两个难度级别；雅思分学术类和培训类两种考试用途；托福有纸笔考、机考和网考三种考试形式。在本研究中，我们选择的分别是六级、雅思学术类和托福网考三项考试，原因如下：与四级相比，六级在难度上更加接近雅思学术类和托福网考；相较于培训类，雅思学术类多用于升学考试，这与托福考试用途更接近；而网考是托福三种答题形式中最普及的考试形式。在本专著中，为使表达简洁，六级、雅思学术类和托福网考三项考试分别简称为：六级、雅思、托福。

本引言将首先简要概述国内外效度研究的现状，包括三项考试的研究及存在的不足；其次简要介绍本选题的价值和意义、研究的基本观点及主要内容；最后对结题成果进行概述性说明。

1 国内外研究现状述评

1.1 效度理论

效度（validity）是测试评价中最重要的考虑因素（APA et al.，2014）。较早的效度定义为“一项测试是否测量了它所要测量的东西”（Kelly，1927：14）。自 20世纪 60年代以来，语言测试与评价的研究一直围绕效度展开（Kunnan，1998），效度理论取得了从“分类效度观”到“整体效度观”的重大发展。分类效度观（Lado，1961）认为效度可分为效标关联效度、内容效度、构念效度等多种类型（APA et al.，1966）。其验证操作性强，但比较零散，且未考虑分数使用和解释等方面的证据。整体效度观给出了具有突破意义的效度定义，即“对经验证据和理论依据在多大程度上支持分数的解释与使用进行的综合评价就是效度”（Messick，1989：13）。这种“一元多维”的效度观确定了构念的核心地位（Alderson ＆ Banerjee，2001），明确了效度验证的对象是测试结果的解释和使用（Davies et al.，2003）。

1.2 效度验证模式

整体效度观给语言测试的开发与研究带来了重大变革，但该理论高度概括且过于抽象，使效度验证缺乏可操作性。近年来更多的语言测试学家根据该理论提出了一些具体的效度验证框架。其中影响力较大的效度验证框架有：

“交际语言能力模型”和“测试方法层面框架”（Bachman，1990）为效度验证开启了新视角。Bachman et al.（1995）运用该框架对剑桥熟练英语证书考试、第一英语证书考试和托福考试三项考试所考查的能力和测试任务特征做了分析，并对该框架进行了完善。

“测试有用性框架”（Bachman ＆ Palmer，1996）涵盖信度、构念效度、真实性、交互性、考试影响和可行性六个质量属性，进一步阐释了Messick（1989）的效度理论。该框架可操作性强，但质量属性之间的关联不甚明确（韩宝成、罗凯洲，2013）。

“基于论证的效验模式”（Kane，1992）与整体效度观一脉相承，包括两个步骤：提出效验观点、收集有关证据。Chapelle et al.（2008）运用该模式论证了托福的效度。

“测试使用论证框架”（Bachman，2005）发展了Kane（1992）的效度论证观。该框架遵循“事实→主张”的推理机制，包含构建与评价两个过程（Bachman ＆ Palmer，2010）。不过其架构（后果、决策、解释、测试记录）比较抽象，能否成为指导测试开发与使用的新范式尚需检验。

“基于证据的效度验证框架”（Weir，2005）从社会—认知视角出发，涵盖多个方面的效验证据，具有很强的可操作性，在剑桥五级主体英语证书考试的效度对比研究中得到丰富和完善（Cheung ＆ Emery，2017；Papp ＆ Rixon，2018；Shaw ＆ Weir，2007）。

目前关于效度理论和验证模式的研究主要集中在国外，国内类似的研究还处于起步阶段，主要是对国外相关领域的发展进行引介和评述（李清华，2006；韩宝成、罗凯洲，2013）。

1.3 六级、雅思、托福三项考试的研究级存在的不足

三项考试相关研究比较丰富，主要涵盖以下方面（括号中的文献仅为部分举例）：

六级的整体效度研究（Jin ＆ Yang，2006；杨惠中＆ Weir，1998）、各单项技能及题型研究（He ＆ Dai，2006；贾国栋，2016；金艳、吴江，1998）、评分与网考研究（金艳，2012；王跃武等，2006；朱正才，2005）、反拨效应及考试影响研究（辜向东，2007，2013；辜向东等，2014）。

雅思的开发及效度验证（Davies，2008；Taylor ＆ Weir，2012）、考官与评分（Annie，2003；Yates et al.，2008）、反拨效应及考试影响（Merrifield，2014；Read ＆ Hayes，2003）。

托福的效度论证（Biber ＆ Gray，2013；Chapelle et al.，2008；Stricker ＆ Attali，2010）、网考设计（Powers et al.，2003；Sawaki et al.，2009）、公平性与可及性（Wolfe ＆ Manalo，2005；Rahimi et al.，2014）、评分与技术应用（Weigle，2011；Xi et al.，2012）、信度与可推广性（ETS，2011；Zhang，2008）、分数解释（Jamieson ＆ Poonpon，2013；Tannenbaum ＆ Wylie，2008）。

尽管有关三项考试研究的文献比较丰富，但能够将这些研究组织起来并形成有关联且强有力的论证文献较少，而且涉及三项考试中任何两项考试的效度对比研究，尤其是实证研究也相当匮乏。现有的对比研究多集中在分数等值方面（Taylor，2004），但事实上还有很多其他方面需要对比，如受试的认知过程、考试的影响等。此外，几乎没有文献将国内的考试与国际权威考试进行较全面的效度对比研究，现有的文献只是就两项或三项考试的某一技能、题型或考试媒介等作初步探讨（仇茵晴、张艳莉，2011；金艳、张晓艺，2013；李鑫、修旭东，2009；王丽，2007）。因此，针对三项考试全面系统的效度对比研究亟待开展。

2 选题的价值和意义

学科理论与实践价值：理论上，验证“基于证据的社会—认知效度验证框架”（Weir，2005）在考试效度对比研究中的可行性，并进一步构建更加科学合理的语言测试效度对比研究模型。实践上，通过对比三项考试的效度，形成将三项考试关联起来的论证。这不仅可以丰富考试对比研究领域的文献类型，而且能为类似的研究提供思路和方法上的借鉴。

社会和现实意义：一方面，本研究有助于推动我国语言测试开发与研究的国际化水平，有利于提升我国自行开发的英语考试在国际上的认可度，为教育、人事部门及广大利益相关者提供入学、就业、人才流动等的决策依据；另一方面，本研究中的雅思和托福考试均已实现与国际公认的语言能力标准CEFR（Common European Framework of Reference for Languages：Learning，Teaching，Assessment）（Council of Europe，2001）和我国的《中国英语能力等级量表》（教育部考试中心，2019）的对接，其开发与使用遵循了国际公认的语言测试标准。因此，三项考试的效度对比研究有望为《中国英语能力等级量表》的应用与推广提供参考数据。

3 研究的基本观点

尽管六级、雅思、托福三项考试在目的、性质、构念、分数解释和结果使用等诸多方面存在不同，但都是以英语为外语或二语的大规模、高风险语言考试，受试即将接受或正在接受高等教育，三项考试的效度应该具有可比性，三者的效度应该既有较大的相似性，也有一定的差异。而实际情况是否如此，有待进行全面深入的实证研究。

4 研究的主要内容

本课题的理论基础为“基于证据的社会—认知效度验证框架”（evidence-based sociocognitive framework for test validation）（Weir，2005），该框架最初认为效度验证需要收集五个方面的效度证据：基于理论的效度、情景效度、评分效度、效标关联效度和后果效度。在剑桥五级主体英语证书考试的效度对比研究中，该框架得到丰富和完善，基于理论的效度更名为认知效度，受试特征也成为效度验证证据的一个重要方面。因此，最新的“基于证据的社会—认知效度验证框架”认为效度验证应该收集六个方面的效度证据：受试特征（test taker characteristics）、情景效度（context validity）、认知效度（cognitive validity）、评分效度（scoring validity）、校标关联效度（criterion-related validity）和后果效度（consequential validity）（Cheung ＆ Emery，2017；Papp ＆ Rixon，2018；Shaw ＆ Weir，2007）。

受试特征指受试生理、心理和经历特征。情景效度取代的是传统意义上的内容效度，指测试任务在多大程度上代表了该任务所取样的全域（universe）。认知效度指测试任务在多大程度上引发了考生在真实语言使用中相似的认知过程。评分效度被纳入效度整体概念的一部分，代替的是传统的信度，它回答的问题是测试分数在多大程度上是可靠的。校标关联效度指测试本身以外的效度证据，如一项考试与其他测量相同构念且已得到公认的有效测试或测量的相关程度。后果效度指测试过程及测试结果对所有相关人员产生了什么影响，包括宏观的后果（如对机构、社会的影响）和微观的后果（如对考生、教师的影响）。由于本课题主体是基于考生的证据，而且是关于三项考试的效度对比研究，即多方面的效度证据收集将包含受试特征和校标关联效度，因此，受试特征和校标关联效度在本研究中没有单独列出。

本课题研究从“基于证据的社会—认知效度验证框架”出发，从情景效度、认知效度、评分效度和后果效度四个方面对六级、雅思、托福考试进行了全面深入的效度对比研究，总体回答了一个研究问题：六级、雅思、托福三项考试的效度有何异同？图 1为本课题的研究概览。

图 1 基于证据的六级、雅思、托福考试效度对比研究概览

5 本专著的结构

专著目录如下：

引言

传承性研究

情景效度

第1章六级、雅思、托福阅读词汇复杂度对比研究

第2章六级、雅思阅读文本来源与改编对比研究

认知效度

第3章基于有声思维的六级、雅思、托福听力长对话测试构念效度对比研究

第4章基于有声思维的六级、雅思、托福阅读测试构念效度对比研究

评分效度

第5章六级、雅思、托福口语考试形式与题型对考官和考生会话特征的影响

第6章六级、雅思、托福口语考试形式与题型对考官和考生主题发展的影响后果效度

第7章基于考生证据的六级、雅思、托福口语测试反拨效应对比研究

第8章基于考生证据的六级、雅思、托福写作测试反拨效应对比研究

创新性研究

情景效度

第9章数据挖掘技术在语言测试研究中的应用

第10章六级、雅思、托福阅读文本自动分类——基于数据挖掘技术认知效度

第11章眼动技术在语言测试研究中的应用

第12章认知效度理据、概念、模型及实证研究综述

第13章六级、雅思、托福阅读考试认知过程对比研究——基于眼动和访谈的证据

后果效度

第14章六级、雅思、托福写作测试的反拨效应机制对比研究——基于结构方程模型

结语

附录

参考文献

Alderson, J.C., ＆ Banerjee, J. (2001).Language testing and assessment[J]. Language Teaching , 35 (2) , 79-113.

Annie, B. (2003). An examination of the rating process in the revised IELTS speaking test (IELTS Research Report No.6) [R].[2020-10-23]https://www.ielts.org/teaching-and-research/research-reports/volume-06-report-2.

AERA., APA., ＆ NCME. (1966). Standardsfor educational andpsychological tests and manuals [M].American Psychological Association.

AERA, APA., ＆ NCME. (2014). Standards for educational and psychological testing (Revised Version) [M].American Educational Research Association.

Bachman, L.F. (1990). Fundamental considerations in language testing [M].Oxford University Press.

Bachman, L.F. (2005).Building and supporting a case for test use[J]. Language Assessment Quarterly , 2 (1 ) , 1-34.

Bachman, L.F., Davidson, F., Ryan, K., ＆ Choi, I. (1995 ).An investigation into the comparability of two tests of English as a foreign language: The Cambridge-TOEFL comparability study[ M].Cambridge University Press.

Bachman, L.F., ＆ Palmer, A.S. (1996). Language testing in practice [M].Oxford University Press.

Bachman, L.F., ＆ Palmer, A.S. (2010). Language assessment in practice [M].Oxford University Press.

Biber, D., ＆ Gray, B. (2013). Discourse characteristics ofwriting and speaking task types on the TOEFL iBT test : A lexico-grammatical analysis (TOEFL iBT Research Report No.19) [R].https://doi.org/10.1002/j.2333-8504.2013.tb02311.x.

Chapelle, C.A., Enright, M.K., ＆ Jamieson, J.M. (2008). Building a validity argumentfor the test of English as aforeign language [M].Routledge.

Cheung, K.Y.F., ＆ Emery, J. (2017). Applying the socio-cognitive framework to the Bio-Medical Admissions Test (BMAT) [M].Cambridge University Press.

Council of Europe. (2001). Common Europeanframework ofreferencefor languages : learning , teaching , assessment [Z].Cambridge University Press.

Davies, A., Hamp-Lyons, L., ＆ Kemp, C. (2003).Whose norms? International proficiency tests in English[J]. World Englishes , 22 (4) , 571-584.

Davies, A. (2008). Assessing academic English : Testing English proficiency 1950-1989— The IELTS solution [M].Cambridge University Press.

Educational Testing Service. (2011). Reliability and comparability of TOEFL iBT scores (TOEFL Research Insight Series No.3) [R].[2020-11-8]http://www.ets.org/research/policy research reports/publications/periodical/2011/isje.

He, L.Z., ＆ Dai, Y. (2006).A corpus-based investigation into the validity of the CET-SET group discussion[J]. Language Testing , 23 (3) , 370-401.

Jamieson, J., ＆ Poonpon, K. (2013). Developing analytic rating guides for TOEFL iBT integrated speaking tasks (TOEFL Research Report) [R].[2020-11-8]https://www.ets.org/research/policy research reports/publications/report/2013/jqoc/.

Jin, Y., ＆ Yang, H. (2006).The English proficiency of college and university students in China: As reflected in the CET[J]. Language , Culture ＆ Curriculum , 19 (1) , 21-36.

Kane, M.T. (1992).An argument-based approach to validity[J]. Phycological Bulletin , 112 (3) , 537-535.

Kelly, T.L. (1927). Interpretation ofeducational measurements [M].New World Book Company.

Kunnan, A.J. (1998).An introduction to structural equation modelling for language assessment research[J]. Language Testing , 15 (3) , 295-332.

Lado, R. (1961). Language testing [M].McGraw-Hill.

Merrifield, G. (2014). An impact study into the use of IELTS by professional associations in the United Kingdom , Canada , Australia and New Zealand (IELTS Research Reports No.1) [R].[2020-1026]http://www.ielts.org.pk/pdf/Report％201％20Vol％2011％20V.3.pdf.

Messick, S.Validity[A].In R.L.Linn (Ed.). Educational measurement ( 3rd edition ) [C].Macmillan, 1989.

Papp, S., ＆ Rixon, S. (2018). Examining young learners : Research andpractice in assessing the English ofschool-age learners [M].Cambridge University Press.

Powers, D.E., Roever, C., Huff, K.L., ＆ Trapani, C.S. (2003). Validating language ? Courseware scores against faculty ratings and student self-assessments (ETS Research Report No.1) [R].[2020-12-2]https://onlinelibrary.wiley.com/doi/epdf/10.1002/j.2333-8504.2003.tb01903.x.

Rahimi, F., Bagheri, M.S., Sadighi, F., ＆ Yarmoh, A. (2014).Using an argument based approach to ensure fairness of high-stakes tests’score-based consequences[J]. Procedia-Scocial and Behavioral Sciences , 98 , 1461-1468.

Read, J., ＆ Hayes, B. (2003). The Impact of IELTS on preparationfor academic study in New Zealand (IELTS Research Reports No.4) [R].[2020-10-28]https://search.informit.com.au/documentSummary; dn＝909013632781357; res＝IELHSS.

Sawaki, Y., Lawrence, J., Stricker, H.O., ＆ Andreas, H.O. (2009).Factor structure of the TOEFL Internet-based test[J]. Language Testing , 26 (1) , 5-30.

Shaw, S.D., ＆ Weir, C.J. (2007). Examining writing : Research and practice in assessing second language writing [M].Cambridge University Press.

Stricker, L.J. ＆ Attali, Y. (2010). Test takers ’ attitudes about the TOEFL iBT (TOEFL iBT Research Report) [R].[2020-12-2]https://onlinelibrary.wiley.com/doi/pdf/10.1002/j.2333-8504.2010.tb02209.x.

Tannenbaum, R.J., ＆ Wylie, E.C. (2008). Linking English-language test scores onto the Common European Framework of Reference : An application of standard-setting methodology (ETS Research Report Series No.1) [R].[2020-10-26]http://www.ets.org/research/policy research report.

Taylor, L. (2004).Issues of test comparability[J]. Research Notes , 15 , 2-12.

Taylor, L., ＆ Weir, C. (2012). IELTS collected papers 2 : Research in reading and listening assessment [M].Cambridge University Press.

Weigle, S.C. (2011). Validation ofautomated scores of TOEFL iBT tasks against non-test indicators of writing ability (TOEFL iBT Research Report) [R].[2020-11-6]http://www.ets.org/research/policy research reports/publications/report/2011/isty.

Weir, C. (2005). Language testing and validation [M].Prentice Hall.

Wolfe, E.W., ＆ Manalo, J.R. (2005). An investigation of the impact of composition medium on the quality of TOEFL writing scores (TOEFL Research Report) [R].[2020-11-6]https://www.ets.org/research/policy research reports/publications/report/2014/jtrs.

Xi, X., Higgins, D., Zechner, K., ＆ Williamson, D. (2012).A comparison of two scoring methods for an automated speech scoring system[J]. Language Testing , 29 (3) , 371-394.

Yates, L., Zielinski, B., ＆ Pryor, E. (2008). The assessment ofpronunciation and the new IELTS pronunciation scale (IELTS Research Reports No.12) [R].[2020-12-2]https://www.ielts.org/pdf/vol12 report1.pdf.

Zhang, Y. (, 2008). Repeater analyses for the TOEFL iBT test (ETS Research Memorandum) [R].[2020-11-6]http://www.ets.org/Media/Research/pdf/RM-08-05.pdf.

辜向东，2007.正面的还是负面的——大学英语四六级考试反拨效应实证研究［M］.重庆：重庆大学出版社.

辜向东，2013.大学英语四六级考试反拨效应历时研究（上、下卷）［M］.成都：四川大学出版社.

辜向东，张正川，刘晓华，2014.改革后的CET对学生课外英语学习过程的反拨效应实证研究——基于学生的学习日志［J］.解放军外国语学院学报（1）：44-164.

韩宝成，罗凯洲，2013.语言测试效度及其验证模式的嬗变［J］.外语教学与研究（3）：411-425.

贾国栋，2016.大学英语口语测试的预期反拨效应——以全国大学英语四、六级口语测试为例［J］.外语测试与教学（4）：1-9.

教育部考试中心，2019.中国英语能力等级量表［S］.北京：高等教育出版社.

金艳，2012.计算机化语言测试的效度研究——浅析计算机能力与测试构念的关系［J］.外语电化教学（1）：11-15.

金艳，吴江，1998.以“内省法”检验CET阅读理解测试的效度［J］.外语界（2）：47-52.

金艳，张晓艺，2013.技能综合对语言测试构念效度的影响——培生英语考试与大学英语六级网考的对比研究［J］.外语电化教学（154）：3-10.

李清华，2006.语言测试之效度理论发展五十年［J］.现代外语（1）：214-217.

李鑫，修旭东，2009.雅思和我国高考英语阅读测试题型的对比［J］.解放军外国语学院学报（5）：60-71.

仇茵晴，张艳莉，2011.新老大学英语四级和雅思听力试题的对比研究——改革后新四级成效初探［J］.外语测试与教学（3）：29-38.

王丽，2007.三种大规模标准化英语考试听力测试部分之比较——一项基于语篇、任务、说话人相关因素的研究［J］.外语电化教学（114）：67-72.

王跃武，朱正才，杨惠中，2006.作文网上评分信度的多面Rasch测量分析［J］.外语界（1）：69-76.

杨惠中，Weir，C.J.，1998.大学英语四、六级考试效度研究［M］.上海：上海外语教育出版社.

朱正才，2005.大学英语四、六级考试分数等值研究——一个基于铆题和两参数IRT模型的解决方案［J］.心理学报（2）：280-284.