传承性与创新性：基于证据的六级、雅思、托福考试效度对比研究(上)（下）最新章节_辜向东著

第2章
六级、雅思阅读文本来源与改编对比研究

摘要：本研究搜集六级（56篇）与雅思（39篇）阅读理解试题的文本及相应的源文本，运用学术科目编码系统，分析两项阅读测试的选材特点，并借助自动文本分析软件Web VocabProfile及Coh-Metrix探究六级和雅思阅读源文本的文本特征（长度、词汇、句法、衔接、文本抽象性及文本可读性）在改编后的变化。研究结果表明两项阅读测试选材话题覆盖面都比较广泛，但总体而言，六级话题更接近日常生活，而雅思话题更具学术性。两项阅读测试文本改编方式多样，且改编在语言层面可能增加文本难度。

关键词：六级；雅思；阅读测试；源文本；文本改编

1 引言

在教学活动中，为不同语言水平的语言学习者选择合适的阅读文本并进行改编十分普遍（Bunch，Walqui ＆ Pearson，2014），但目前鲜有研究关注以语言测试为目的的文本选择及改编过程。

六级和雅思作为国内外大规模标准化语言测试，其测试结果为众多组织机构了解考生的语言水平提供参考。阅读理解作为两项测试中不可或缺的一部分，引起了研究者的极大关注。已有研究主要评估阅读文本难度（如江进林、韩宝成，2018），并探究考生在完成阅读测试项目时的认知加工过程（如Bax，2013；Weir et al.，2012），鲜有研究关注试题文本的选择及改编过程。然而，文本的选择与改编很大程度上会影响试题文本及测试效度（Green ＆ Hawkey，2011）。

本研究通过搜集 2014—2018年六级和雅思阅读理解题型的试题文本及其源文本，分析两项测试的选材特点，并借助自动文本分析软件Web VocabProfile及Coh-Metrix对比分析试题及源文本的文本特征在改编前后的异同，以期为各级各类语言测试研发与效度验证，特别是阅读文本的选择与改编提供更为客观的参考证据。本研究拟回答以下两个研究问题：

1）六级、雅思阅读测试源文本的选材有何特点？

2）以测试为目的的文本改编对六级、雅思源文本的文本特征有何影响？

2 文献综述

2.1 文本选择级改编

选择合适的源文本是设计阅读测试的第一步，且语言测试中选择的源文本须反映测试的性质和目的（Green，2013）。在选择阅读测试的文本时应考虑文本的四项特征：长度、主题、风格和语言（Harris，1969）。然而，由于在语言测试中无法完全再现真实的语言环境（Galaczi ＆ Taylor，2018），且真实的阅读材料有时对于二语学习者而言难度过大（Nikolayeva，2019），因此，有必要对源文本进行改编以平衡文本真实性及其测评功能，有效评估不同语言水平的语言学习者。

文本改编的过程较复杂。Simensen（1987）曾提出三条文本改编原则：信息调控、语言调控及语篇调控。针对语言测试进行的文本改编需考虑更多因素，如评估个体语言能力、确保测试公平以及文本难度是否符合测试要求等（Nikolayeva，2019）。

现有研究通常以问卷及访谈的方式，从文本改编者的角度探索文本选择及改编的整个过程。Salisbury（2005）使用口陈报告法（verbal report）探究文本改编者设计用于听力理解测试的文本选取及改编过程，共分为三个阶段：探索阶段、编辑阶段、精炼阶段。改编者与同事对文本进行批判性审查。Kim等（2010）进一步明确了影响文本选择及改编的因素，包括语言测试规范的使用、群体成员协作及个体特征。

为了概括文本选择及改编所需的技能，Hawkey ＆ Green（2007）运用回溯性口陈报告及直接观察法，比较受过培训和未受过培训的教师如何进行雅思学术阅读源文本的选择和改编，并在此基础上设计测试题目。Green ＆ Hawkey（2011）进行了一项后续研究，进一步探究雅思阅读测试命题员文本选择及改编的主要方式和手段，发现在文本选择阶段，命题员常会考虑源文本的语言难度及话题的多样性，且会在平时的工作中积累大量的源文本以供测试设计使用。而在文本改编阶段，命题员通常使用合并、删除、替换、扩充等方法调控文本难度。然而，受命题员及文本数量的限制，该研究仅提供了一个潜在的文本选择和改编模式，需要更多的实证数据进一步验证。

总之，测试目的下进行的文本选择及改编过程研究大多运用描述性语言进行记录，缺乏更为详细、客观的数据支撑其观点或结论。

2.2 文本特征

考虑到文本特征在测试开发中的可用性及文本特征的可测性，本研究选取部分文本特征来探究两项测试的选材偏好及文本改编对源文本特征的影响，包括文本话题、文本长度、词汇、句法、衔接、文本抽象性及文本可读性。选取这些文本特征的理据如下：

考生对某一特定话题的熟悉程度会在很大程度上影响考生在高风险测试中的表现（Burgoyne et al.，2013）。因此，命题员须谨慎选择源文本，以确保话题的多样性及测试的公平性。

文本长度与文本中包含的题项数量高度相关，文本过长很可能会降低考生工作记忆的效率从而影响考生的发挥（Crossley，Yang ＆ McNamara，2014）。因此，文本长度也是选择源文本的重要标准。

词汇和句法的复杂程度是文本易读性的表征（Graesser ＆ McNamara，2011）。根据特定语境推测生词的含义常会消耗许多精力（Far，2016），复杂的句式结构也会增加阅读难度（McNamara et al.，2014）。在改编过程中，命题员常会替换源文本中不常见的单词并简化句子结构以加强理解（Oakland ＆ Lane，2004）。

衔接手段的使用是否会影响考生阅读理解仍存在争议（Green，Ünaldi ＆ Weir，2010）。高水平读者在文章主题相对熟悉的情况下，可结合文本内容与已有知识进行推理，因此缺少连接词并不会严重影响理解（Alderson，2000）。然而，已有研究表明，相邻从句之间的连接词和其他隐性的衔接手段确实会减少阅读时间，增强对文本的理解和记忆，对语言能力较低的二语学习者尤为如此（Crossley et al.，2014）。

一般认为“抽象文本比描述真实对象、事件和活动的文本更难理解”（Alderson，2000：62）。抽象文本中呈现的信息只会在抽象的语言系统中表现，而具体文本中使用的词语和句子可能与整个语境有更为紧密的语义关系（Corkill，Glover ＆ Bruning，1988），能同时在意象和语言系统中表现。因此，本研究把文本抽象性作为衡量文本难度的一个重要特征。

文本可读性虽不能直接影响文本的难易程度，却能在一定程度上揭示文本的复杂度。一些传统的易读度公式依靠相对简单的文本特征，包括词汇（字母或音节的数量）和句法（句子或段落长度）来衡量文本难度。由于命题员需要根据考生的语言能力来选择合适的测试文本并调整文本的难度，这些公式常作为便捷的选材指标被广泛使用，其所产生的分值也在很大程度上影响了源文本的改编过程（Alderson，2000）。然而，近年来有学者批评这些公式“过于简单而无法解释多变的语言和文本因素”（Benjamin，2012：64），且不适合二语学习者。因此，本研究选取三个易读性指标，分别为Flesch难度级数，Flesch易读度以及CohMetrix二语可读性评估文本难度。

综上，尽管已有部分研究探索试题文本选择和改编的过程，但大多数研究缺乏足够的数据来验证其发现。本研究搜集 2014—2018年六级、雅思阅读理解题型的试题文本及源文本，分析两项测试选材的来源及特点，并借助自动文本分析软件Web VocabProfile及CohMetrix探究试题改编过程如何影响源文本的文本特征，以期为各级各类语言测试研发与效度验证，尤其是阅读文本选择与改编提供更为客观的实证证据参考。

3 研究设计

3.1 语篇选择

本研究使用的语篇共四组：2014—2018年六级阅读理解文本及对应的源文本各 56篇；近五年剑桥雅思官方样题 9—13学术类中的阅读理解文本及源文本各 39篇。

所选六级语篇的题型均为单项选择题。由于雅思试题源文本搜寻较为困难，本研究并未对雅思不同题型的篇章做明确区分，因此所选语篇涉及的题型较多，包括信息匹配、单项选择、判断正误等。

3.2 文本处理级分析工具

本研究使用英国高等教育统计局对学术科目进行编码的系统（The Joint Academic Coding System），对六级和雅思语篇的文本主题进行分类。该系统包括十八个主要学科范畴。由于六级有两篇文章分别涉及气候变化问题（2016.12.test 1.1）和空气污染问题（2015.6.test 1.2），无法归入该编码系统，因此本研究增加了环境这一学科范畴，共计 15个。具体编码系统如下：

1）医学与牙医学

2）医学相关学科

3）生物科学

4）兽医学农业类及相关专业

5）自然科学数理科学

6）计算机科学工程技术类

7）建筑学

8）社会学

9）法学商业管理研究

10）新闻传媒与传播学

11）语言类

12）历史及哲学研究

13）艺术与创意设计类

14）教育学

15）环境类

本研究使用Coh-Metrix 3.0及Web VocabProfile对阅读文本进行自动分析。Coh-Metrix基于多层面理论框架，包括词汇、句法、体裁和修辞结构等（Graesser ＆ McNamara，2011），为自动文本分析提供一系列测量指标。Web VocabProfile为免费在线语料库，可为本研究提供部分词汇特征测量指标。

4 结果与讨论

4.1 文本选择

六级 56篇阅读材料均选自英语国家出版的原始阅读材料。六级命题员在选择源文本时偏好杂志（21篇）和报纸（19篇）。杂志和报纸主要包括《时代周刊》《经济学人》《纽约时报》。新闻网站、广播电台以及学术论文也是六级选材的重要来源。

雅思的阅读文本多选自杂志和书籍。本研究涉及的 39篇阅读文本中，18篇选自杂志，9篇选自书籍。此外，新闻网站、报纸、学术论文，甚至政府文件也是雅思阅读试题的重要来源。雅思阅读文本选材排名前三的来源分别是：《新科学家》《国家地理》以及《卫报》。

本研究发现六级和雅思阅读涉及的话题均比较多样。在选择合适的阅读源文本时，六级和雅思都会考虑文本话题的代表性，以避免专业知识或文化背景影响考试效度。但六级话题熟悉度相对高于雅思，这与两项考试的测试目的相符。六级旨在科学衡量大学生的综合英语能力，为各人事单位了解大学生的英语水平提供可靠参考（大学英语四级和六级考试大纲 2016）。雅思主要用于评估考生是否具备在英语国家开始本科或研究生阶段学习的能力，其话题不可避免地反映出学术研究的特征。

4.2 文本改编

4.2.1 文本长度

六级和雅思源文本的长度在改编后都大幅缩短（见表 2.1）。考虑到文本长度的限制，改编者往往会删除“与题目无关的重复信息和拓展的文本内容”（Green ＆ Hawkey，2011：120）。在改编过程中，源文本的段落数也大幅减少。改编后平均段落句子数也呈现出显著差异（ p ＜0.01）。

表 2.1 六级、雅思源文本与改编文本基本信息

研究发现，在删除与题目不相关的文本内容后，尽管该段落或句子和题目存在一定关联，六级的改编者会继续删除源文本剩下的整个段落或句子，而雅思改编者更倾向于整合两个或两个以上相关段落提供的信息（Green et al.，2010）。

4.2.2 词汇特征

六级和雅思试题文本中都会出现频率较高的单词，如英国国家语料库（British National Corpus，BNC）中最常出现的 1 000词所占比重在改编后显著增加（见表 2.2）。六级和雅思改编后的文本中BNC2 000的比例都较源文本有所下降，且雅思呈现出显著差异（ p ＜0.001）。在改编较为复杂的文本时，试题改编者常通过删除或替换不常用的单词来提高文本的可读性。

在本研究中，两项测试文本中的范围外词汇（off-list words）主要指未出现在BNC1 000、2 000以及学术英语词表中的单词。改编者常常会直接删除或是用更为常见的单词或短语来进行替换或解释，这就造成了此类词汇在改编后所占比重大幅下降。

六级改编后文本中的实词词频和实词多义度也有显著增加（见表 2.2）。雅思文本在改编前后实词词频和多义度虽未呈现出显著差异，但这两个指标也显示出相同的增长趋势。这一结果表明，改编者会使用更为常见的词汇来替代那些不太常见的词汇。然而，常用词汇常常在不同语境下具有不同含义，过度依赖这一改编方式可能会导致文本产生歧义，甚至会增加读者的认知负荷，使文本变得更难处理（Suzuki et al.，2016）。

表 2.2 六级、雅思词汇指标的均值、标准差及T检验结果

注： ^* 表示 p ＜0.05， ^** 表示 p ＜0.01， ^*** 表示 p ＜0.001。

4.2.3 句法特征

在与句法复杂度有关的六项测试指标中，有三项在六级源文本改编前后呈现出显著差异（见表 2.3）。改编后的六级源文本中名词短语密度大幅下降，雅思虽未有显著变化，但也呈现出同样的下降趋势，可能与源文本长度大幅缩减有关。六级改编后的文本被动句和否定句明显多于源文本。雅思试题文本中被动句密度的测量指标虽未有显著性变化，但也有增加趋势。由此可见，改编后的六级和雅思阅读文本句法难度有一定提升。

表 2.3 六级、雅思句法指标的均值、标准差及T检验结果

续表

数据显示，六级和雅思改编后的文本句子平均词数以及主句主动词前的单词量均有增加（见表 2.3）。这一结果表明改编后文本的句法复杂度有所提升。

4.2.4 衔接

连词通常被视为篇章格局中连接从句及其他句子成分最有效的工具（Crossley et al.，2007），属于显性衔接。数据显示，六级阅读文本中六类连词的使用在改编后都呈现出增加趋势。其中转折连词在改编前后呈现出显著差异（见表 2.4）。逻辑连词在改编后也有较明显的增长，这说明六级的试题改编者倾向于使用更为明显的衔接手段，如and，or，but，although等连词来增加改编后文章的连贯性。在雅思文本中，除时间连词外，其余五项连接词的使用均略有下降。

表 2.4 六级、雅思显性衔接指标的均值、标准差及T检验结果

在所有隐性衔接指标中，六级和雅思源文本改编前后都有显著增加（见表 2.5）。这些数据表明，两项测试的文本改编者常通过反复提及句子中的核心词，通常是承担句子主要信息的名词来增强信息的重复度，帮助读者理解（Crossley et al.，2007）。

两项测试试题文本的词义重叠在改编后有所增强，文本改编有时需要通过冗余（redundancy）和语义重叠等隐性衔接手段来调控文本难度，尤其是当源文本对于特定读者来说难度过大时（Webster et al.，2018）。

表 2.5 六级、雅思隐性衔接指标的均值、标准差及T检验结果

4.2.5 文本抽象性

与文本抽象性有关的三个测量指标在六级源文本改编前后都存在显著性差异（见表2.6）。这说明改编后的六级文本总体上变得更加抽象，理解难度可能相应增大。雅思与六级文本有相同的变化趋势，但雅思源文本与改编后的文本抽象性没有显著差异。

名词通常与文本主题联系紧密，因此需要更为具体的名词来描述文本中出现的物体或事件，以准确传达信息。这解释了为何六级和雅思文本中的名词在改编后下义词增多。但由于其他实词，如动词、形容词和副词往往不用来呈现文本中的特定信息，因此在改编后常会更加抽象（Graesser ＆ McNamara，2011）。

表 2.6 六级、雅思文本抽象性指标的均值、标准差及T检验结果

4.2.6 文本易读性

两种传统可读性公式结果表明，六级和雅思的源文本在改编后阅读难度增加（见表2.7）。在雅思源文本与改编文本中，Flesch易读度呈现显著差异（源文本均值＝47.72，改编文本均值＝45.58， p ＜0.05）。证明文本改编有时会增加文本难度，至少在语言层面情况如此。

表 2.7 六级、雅思文本易读性指标的均值、标准差及T检验结果

注：Flesch易读值越大表明文本难度越小。

然而，文本难度不仅受表面的文本特征影响，还受到其他深层因素的影响。本研究发现，改编后的六级和雅思Coh-Metrix二语可读性也显著提高（见表 2.7），这说明两项测试的阅读篇章在改编后都变得更容易理解。这些结果也进一步验证了当文本改编者意识到源文本难度过大或改编手段会增加文本难度时，将通过提升文本衔接度，尤其是隐性衔接手段来调整文本难度（江进林、韩宝成，2018）。

5 结语

本文探究了六级和雅思阅读理解试题文本特征改编前后的异同。结果表明，两类考试的选材话题覆盖面都比较广泛，六级在选材时更加青睐英语国家讨论国际时事的主流杂志与报纸，而雅思阅读文本大多选自关注科学技术发展或是学术研究问题的书籍与学术性杂志。

在进行文本改编时，两项阅读测试文本改编方式多样，都倾向于替代或删除不常用词汇、使用隐性衔接手段来调控文本难度。六级通过应用更为复杂的句子结构，如对被动句和否定句进行改编，而雅思却较少依靠这一改编策略。六级和雅思源文本语言特征的阅读难度在改编后有一定程度的上升，但就衔接而言阅读难度有所降低。

本研究不仅为考生备考、教师教学选择合适的阅读文本提供了参考，而且利用量化指标为调控六级和雅思阅读语篇的难度提供了相应的实证基础，可为各级各类阅读测试的研发与效度验证提供借鉴与参考。

参考文献

Alderson, C. (2000). Assessing reading [M].Cambridge University Press.

Bax, S. (2013).The cognitive processing of candidates during reading tests: Evidence from eye-tracking[J]. Language Testing , 30 (4) , 441-465.

Benjamin, G. (2012).Reconstructing readability: Recent developments and recommendations in the analysis of text difficulty[J]. Educational Psychology Review , 24 (1) , 63-88.

Bunch, G.C., Walqui, A., ＆ Pearson, P.D. (2014).Complex text and new common standards in the United States: Pedagogical implications for English learners[J]. TESOL Quarterly , 48 (3) , 533-559.

Burgoyne, K., Whiteley, H.E., ＆ Hutchinson, J.M. (2013).The role of background knowledge in text comprehension for children learning English as an additional language[J]. Journal of Research in Reading , 36 (2) , 132-148.

Corkill, A.J., Glover, J.A., ＆ Bruning, R.H. (1988).Advance organizers: Concrete versus abstract[J]. Journal of Educational Research , 82 (2) , 76-81.

Crossley, S., Louwerse, A.M.M., McCarthy, P.M., ＆ McNamara, D.S. (2007).A linguistic analysis of simplified and authentic texts[J]. Modern Language Journal , 91 (1) , 15-30.

Crossley, S.A., Yang, H.S., ＆ McNamara, D.S. (2014).What’s so simple about simplified texts? A computational and psycholinguistic investigation of text comprehension and text processing[J]. Reading in a Foreign Language , 26 (1) , 92-113.

Far, M. (2016).The effects of text type, text length and text difficulty on vocabulary retention through glossing[J]. The Journal of Language Teaching and Learning , 6 (1) , 92-104.

Galaczi, E., ＆ Taylor, L. (2018).Interactional competence: Conceptualisations, operationalisations, and outstanding questions[J]. Language Assessment Quarterly , 15 (3) , 219-236.

Graesser, A.C., ＆ McNamara, D.S. (2011).Computational analyses of multilevel discourse comprehension[J]. Topics in Cognitive Science , 3 (2) , 371-398.

Green, A., Ünaldi, A., ＆ Weir, C.J. (2010).Empiricism versus connoisseurship: Establishing the appropriacy of texts in tests of academic reading[J]. Language Testing , 27 (2) , 191-211.

Green, A., ＆ Hawkey, R. (2011).Re-fitting for a different purpose: A case study of item writer practices in adapting source texts for a test of academic reading[J]. Language Testing , 29 (1) , 109-129.

Green, A. (2013).Adapting or developing source material for listening and reading tests[A].In A.Kunnan[Ed.], The companion to language assessment 2 (pp.830-846) [C].John Wiley ＆ Sons, Inc.

Harris, D. (1969). Testing English as a second language [M].McGraw Hill.

Hawkey, R., ＆ Green, A. (2007). An empirical investigation ofthe process ofwriting academic reading test itemsfor the international English language testing system (IELTS research reports No.11) [R].[2020-10-12]http://citeseer.ist.psu.edu/viewdoc/download; jsessionid＝8A12F530D830 B442AFEFD4CC04BA7BFD? doi＝10.1.1.461.8000 ＆ re p ＝rep1 ＆ type＝pdf.

Kim, J., Chi, Y., Huensch, A., Jun, H., Li, H., ＆ Roullion, V. (2010).A case study on an item writing process: Use of test specifications, nature of group dynamics, and individual item writers’characteristics[J]. Language Assessment Quarterly , 7 (2) , 160-174.

McNamara, D.S., Graesser, A.C., McCarthy, P.M., ＆ Cai, Z. (2014). Automated evaluation of test and discourse with Coh-Metrix [M].Cambridge University Press.

Nikolayeva, L. (2019).Adapting a text for testing purposes: Approach to academic reading and writing assessment design in the Arab world[J]. Theory and Practice in Language Studies , 9 (2) , 204-211.

Oakland, T., ＆ Lane, H. (2004).Language, reading, and readability formulas: Implications for developing and adapting tests[J]. International Journal of Testing , 4 (3) , 239-252.

Salisbury, K. (2005). The edge ofexpertise : Towards an understanding oflistening test item writing as professional practice [M].University of London.

Simensen, A. (1987).Adapted readers: how are they adapted[J]. Reading in a Foreign Language , 4 (1) , 41-57.

Suzuki, T., Miyata, K., ＆ Hirokawa, S. (2016). Difficulty ofwords and their ambiguity estimatedfrom the result of word sense disambiguation [Paper presentation].The 2016 11th International Conference on Knowledge, Information and Creativity Support Systems.

Webster, J., Morris, J., Howard, D., ＆ Garraffa, M. (2018).Reading for meaning: What influences paragraph understanding in aphasia?[J]. American Journal of Speech-language Pathology , 27 (1) , 423-437.

Weir, C.J., Hawkey, R., Green, A., ＆ Devi, S. (2012).The cognitive processes underlying the academic reading construct as measured by IELTS[A].In L.Taylor (Ed.) , IELTS collectedpapers 2 (pp.212-269) [C].Cambridge University Press.

江进林，韩宝成，2018.基于Coh-Metrix的大学英语六级与托福、雅思阅读语篇难度研究［J］.中国外语（3）：86-95.

第2章 六级、雅思阅读文本来源与改编对比研究