摘要: 本研究采用在线文本分析工具Text Inspector,分析六级、雅思、托福三项阅读测试的文本,对比其词汇复杂度(包括难度与多样性)。研究结果表明:托福词汇难度最高,雅思其次,六级最低;相反,六级词汇多样性最高,雅思其次,托福最低,而且三项阅读测试的词汇难度和多样性均存在显著差异。本研究为三项阅读测试的进一步开发提供了一定的依据和启示,并为同类研究提供了研究方法上的参考。
关键词: 词汇复杂度;阅读测试;对比研究
阅读能力是取得学术成功的必备技能,是学生课外独立学习最简单、最易获取的方式(Schmitt,Jiang & Grabe,2011),是二语或外语学习中最重要的技能之一(Adamson,1993)。二语/外语阅读研究一直试图探究影响阅读能力的要素,词汇被认为是影响阅读理解最重要的因素之一(Laufer,1992;Qian,2002,2006),词汇复杂度是与阅读难度相关的一项文本特征。在语言测试领域,词汇复杂度也是开发阅读理解试题的关键因素。许多著名的语言测试效度验证理论,如Weir(2005)的社会—认知效度验证框架将词汇列为考查对象之一。因此,词汇复杂度或词汇任务需求成为考量阅读测试情景效度的重要方面,比如在Weir(2005)的社会—认知效度验证框架中就有具体体现。六级、雅思、托福三项考试规模大、风险高、影响广,其阅读测试文本的词汇复杂度如何,有何异同,值得进一步研究。比较阅读文本的词汇复杂度可以有效揭示六级、雅思、托福阅读测试的异同,并为我国阅读测试文本研究中调控词汇复杂度提供参考依据。
本研究拟采用在线文本分析工具Text Inspector分析六级、雅思、托福三项阅读测试的文本,从词汇难度和词汇多样性两个方面,对比其词汇复杂度,拟回答以下两个研究问题:
1)六级、雅思、托福阅读测试文本的词汇复杂度如何?
2)三项阅读测试文本的词汇复杂度有何异同?
词汇复杂度是统计传统易读度的参数之一(Graesser,McNamara & Kulikowich,2011)。研究表明,在词汇水平上,最能预测对二语文本理解的两个因素是词频和词汇多样性(Nation,2006;Crossley,Greenfield & McNamara,2008;Nation,2013)。最近一项研究中,Lu,Gamson & Eckert(2014)从词汇难度和词汇多样性两方面测量了词汇复杂度。
2.1.1 音节数
词汇长度是测量词汇难度最直接的方式,通常由单个词汇的字母数或音节数来衡量。直观地说,文本中较长词汇的字母数量越多,音节越多,文本阅读难度就越大。部分实证研究表明,英语阅读中处理较长词汇比处理较短词汇所需要的时间更长(Cosky,1976;Whaley,1978;Balota & Chumbley,1985)。音节数与文本难度密切相关;词汇音节越多,处理的时间就越长。
2.1.2 词频
词频是另一种广泛使用的估计词汇复杂度所方法。词频与阅读理解之间关系密切,即低频率词汇的数量越多,文本越难理解(McGregor,1989)。人们通常会引用大型通用语料库,如英国国家语料库(British National Corpus,BNC)词表(BNC,n.d.)和当代美国英语语料库(Corpus of Contemporary American English,COCA)词表(Davies,2008)来确定词频。为获悉整体的词频概况,本研究选择使用的文本检查器(Text Inspector)便是其中之一。它利用BNC和COCA两个大型通用语料库报告词频系数(Lexical Frequency Coefficient,LFC)。
词汇多样性是指话语中词汇的丰富度(Durán et al.,2004)或词汇重复率(Jarvis,2013)。在特定文本中,词汇多样性程度越高,读者需要花费的时间越长,因此也意味着文本复杂度越高(Wu,2014)。根据Read(2000)的研究,形符(type)数与词汇形式的总数相同,即在文本中出现多次的单个词汇在每次使用时都会被计入统计。类符(token)数是不同词汇形式的总数,因此重复多次的词汇只计算一次。基于形符的词频系数表示所有词汇都需统计在内,而基于类符的词频系数则只计算不同词汇的数量,对重复的词汇只统计一次。形符类符比值(Type-token ratio,TTR)是词汇多样性的指数(Johnson,1939,1944),该指数通俗易懂。形符类符比值越高,词汇多样性则越大,读者需要更长的时间来处理(Durán et al.,2004)。但类符数对样本量有较强的依赖性,随着文本长度增加,类符数会相对下降(Malvern et al.,2004;Covington & McFall,2010)。
研究人员一致认为MTLD(Measure of Textual Lexical Diversity)和VOCD(Measure of Diversity of Vocabulary)是两种更可靠的词汇多样性的测量指标(MacWhinney,2000)。但是,因为这些测量方法没有完全解决样本依赖性问题,所以研究人员建议至少使用两种指标来衡量词汇多样性(McCarthy & Jarvis,2010)。
鉴于六级在 2006年经历了一次大的改革,托福网考也于 2006年在全球范围内使用。因此,本研究收集的文本时段为 2006至 2017年。六级文本为网上收集的考试真题,雅思文本选自剑桥英语雅思真题 5—12集,托福文本选自托福网上练习(TOEFL Practice Online,TPO)1—51。数据集由 402篇文本组成,其中六级 153篇(总英文词数 102 596);雅思 96篇(总词数 84 492);托福 153篇(总词数 107 717)。
词汇难度从两个维度评估:音节数和词频。词汇多样性由VOCD和MTLD测量。本研究借助于文本检查器对上述文本特征进行测量。值得一提的是,文本检查器可以自动计算每 100个词汇的音节数。对于词频的维度,文本检查器可以参考BNC和COCA频率等级计算每篇文本的形符和类符词频系数。此外,文本检查器操作简单,用户只需要将文本粘贴到输入框中,就可以统计各项文本特征。词汇复杂度所有指标的测量结果都记录在Microsoft Office 2016 Excel中(如图 1.1所示)。本研究使用SPSS22.0做描述性和推断性数据分析。关于三个子数据集的比较,如果数据呈正态分布,所采用的推断统计方法是单因素方差分析(One-way ANOVA)和相应的事后检验;如果数据不呈正态分布,则采用Kruskal-Wallis H(KW)检验和相应的Nemenyi事后检验。
图 1.1 词汇复杂度指标的测量结果
为了直观地展示子数据集的分布,本研究采用R和RStudio绘制箱线图,使用的版本为GUI 1.70 EI Capitan Build(7 434)的R 3.4.2版本和RStudio 1.0.143版本。箱线图是一种通过四分位数图形化描述数字数据组的方法,可以直观地说明数据集的分布。在本研究中,箱线图有助于比较三项考试词汇复杂度测量指标之间的差异。本研究采用的箱线图由两个主要部分组成:箱子和从箱子垂直延伸的线。箱子的底部和顶部是第一个和第三个四分位数,箱子内部的水平线是中间值。线条的末端是潜在的最大值和最小值,线条上方或下方的点是异常值。箱线图的使用有助于明确这三项考试的词汇复杂度,尤其是词汇复杂度度量的分布。此外,还补充了数据集的均值,以更直接的方式呈现这三项考试之间的差异。
本研究使用的R包是 ggplot 2(版本 2.2.1)。绘制箱线图的代码示例如下:
ggplot ( the name ofthe dataset , aes (x= BNC LFC (token) , y=Test) )+geom boxplot ( )+
下画线内容可以用不同的词汇复杂度度量来代替,例如COCA LFC(类型)或VOCD。
根据本研究的分析框架,词汇难度将从音节数和词频两个维度进行分析。
4.1.1 音节数
表 1.1为六级、雅思、托福中词汇音节数的对比数据。托福的平均音节数最大,为168.90。其次是雅思和六级,分别为 164.50和 161.26。
图 1.2呈现了六级、雅思、托福的音节数数据及其分布特征,其中六级和雅思存在异常值。本研究使用Shapiro-Wilk检验来检验数据的正态性。Shapiro-Wilk检验表明雅思音节数数据集不呈正态分布( p <0.05),因此,使用非参数检验Kruskal-Wallis H来比较三项考试之间的差异。结果表明,三个数据集之间存在显著性差异( p <0.001)。Nemenyi事后检验表明,托福的音节数明显高于六级( p <0.001)和雅思( p <0.005),雅思音节数也高于六级( p <0.05)。
表 1.1 三项考试词汇音节数对比
图 1.2 三项考试音节数箱线图
4.1.2 词频
鉴于BNC和COCA的权威性,本研究采用这两个语料库,通过统计基于形符和基于类符的词频系数获悉文本词汇难度的信息。
(1)BNC形符词频系数
表 1.2为六级、雅思、托福BNC形符词频系数的描述性数据。托福的均值最高,为4 226.28,其次是雅思和六级(分别为 3 233.64和 3 191.27)。从箱线图 1.3看,六级和雅思的BNC形符词频系数没有明显差异,而托福BNC形符词频系数明显高于六级和雅思。此外,箱线图显示六级存在异常值。
表 1.2 三项考试BNC形符词频系数描述性统计
图 1.3 三项考试BNC形符词频系数箱线图
根据Shapiro-Wilk检验,六级和托福BNC形符词频系数不呈正态分布( p <0.05),因此,本研究对其进行了非参数Kruskal-Wallis H检验。结果表明这三项考试的BNC形符词频系数存在显著性差异( p <0.001)。Nemenyi事后检验表明,托福BNC形符词频系数明显高于六级( p <0.001)和雅思( p <0.001),而六级和雅思之间没有显著性差异( p =0.837)。
(2)BNC类符词频系数
BNC类符词频系数可参见表 1.3的统计结果。托福在三项考试中均值最高,为5 692.06,其次是雅思和六级。同样,箱形图 1.4显示,托福的BNC类符词频系数明显高于雅思和六级,而且托福和六级存在异常值。
表 1.3 三项考试BNC类符词频系数描述性统计
图 1.4 三项考试BNC类符词频系数箱线图
雅思和托福BNC类符词频系数Shapiro-Wilk检验 p 值分别为 0.055和 0.060,有很强的统计显著性趋势。由于这两个数据集不呈正态分布,因此需要进行非参数Kruskal-Wallis H检验。结果表明,三项考试的BNC类符词频系数之间存在显著性差异( p <0.001)。根据Nemenyi事后检验,托福BNC类符词频系数显著高于六级( p <0.001)和雅思( p <0.001),但六级和雅思之间没有显著性差异( p >0.05)。
(3)COCA形符词频系数
表 1.4显示三项考试的COCA形符词频系数的描述性数据。托福的均值最高(4 007.29),其次是雅思(3 418.51)和六级(2 757.36)。箱线图 1.5可以看出三者有明显的差异,且六级和托福存在异常值。
根据Shapiro-Wilk检验,六级和托福COCA形符词频系数不呈正态分布( p <0.05)。对相关数据进行了非参数Kruskal-Wallis H检验,结果表明,COCA形符词频系数三者存在显著性差异( p <0.001)。Nemenyi事后检验表明,托福COCA形符词频系数显著高于六级( p <0.001)和雅思( p <0.001)。雅思COCA形符词频系数也显著高于六级( p <0.001)。
表 1.4 三项考试COCA形符词频系数描述性统计
图 1.5 三项考试COCA形符词频系数箱线图
(4)COCA类符词频系数
由表 1.5可知,托福的COCA类符词频系数均值最高,为 5 551.41。其次是雅思和六级,分别为 5 008.85和 3 968.24。箱线图 1.6显示,托福的COCA类符词频系数明显高于雅思和六级,六级和托福有异常值。
表 1.5 三项考试COCA类符词频系数描述性统计
图 1.6 三项考试COCA类符词频系数箱线图
Shapiro-Wilk检验表明雅思和托福COCA类符词频系数数据集不呈正态分布( p <0.05),因此,需要进行非参数Kruskal-Wallis H检验。结果表明,三个数据集之间存在显著性差异( p <0.001)。Nemenyi事后检验表明,托福的COCA类符词频系数明显高于六级( p <0.001)和雅思( p <0.005),雅思的COCA类符词频系数显著高于六级( p <0.001)。
从词频的维度来看,BNC和COCA在词频分布上结果不同。基于形符和基于类符的BNC词频系数表明,六级和雅思之间没有显著性差异,而基于形符和基于类符的COCA词频系数表明,六级和雅思之间存在显著性差异。
为了探究造成差异的原因,本研究对两个语料库的取样或构成进行了细致的研究。两者的主要区别在于,BNC自建成以来一直没有更新,而COCA每年增加 2 000万词。词汇的使用词频可能会随着时间的推移而变化,因此没有更新的BNC文本可靠性也许较低,不适合用于评判较新文本语言词频的等级。所以,较为可信的结果是六级和雅思在词频系数方面有显著性差异。
总之,研究发现,托福的词汇难度比雅思和六级大,而六级词汇难度最小。托福的词汇难度高于雅思,这意味着考生应该掌握更多的词汇以适应托福。换言之,就词汇难度而言,托福比雅思要求更高。
六级的词汇难度值最低。大学英语教学大纲(教育部高等教育司,2007)中的词汇列表包含 5 418个词汇条目。《大学英语课程要求》中的词汇列表是大学英语教学大纲后来的版本,包含 7 676个词汇,其中大学英语 1—4级 4 795个,大学英语 5—6级1 601个,更高要求的有 1 281个。该词表为中国的大学英语教学制定了标准,CET是根据大学英语教学大纲的要求设计的,旨在评估大学英语教学的质量以及准确地测量我国在校大学生的英语综合应用能力,CET使用的词汇不应超过大学英语教学大纲的要求,雅思和托福没有专门的词汇标准,因此可以理解为何六级的词汇难度低于托福和雅思。在词频测量中,基于形符和基于类符的词汇词频系数都存在差异,这意味着使用频率较低的词汇的确会增加阅读测试文本的整体词汇难度。
词汇多样性是词汇复杂度的另一个方面,本研究采用了两个测量指标对词汇多样性进行测量:VOCD与MTLD。
4.2.1 VOCD统计结果
VOCD测量的词汇多样性结果可参见表 1.6。与词汇难度测量不同,VOCD作为词汇多样性的一种测量手段,呈现出相反的特征,即六级的测量均值(119.67)高于雅思(104.87)和托福(92.63),托福的VOCD数值最低。箱线图 1.7也显示VOCD作为词汇多样性的量度,与词汇难度指标差异较大。托福的VOCD值最低,六级的VOCD值最高。
表 1.6 三项考试VOCD值描述性统计
Shapiro-Wilk检验表明六级和雅思词汇数据呈非正态分布( p <0.05),因此,进行了非参数Kruskal-Wallis H检验。结果表明,这三项考试的VOCD值存在显著性差异。Nemenyi事后检验表明,六级的VOCD值明显高于雅思( p <0.001)和托福( p <0.001),雅思的VOCD值也明显高于托福( p <0.001)。
4.2.2 MTLD统计结果
表 1.7为六级、雅思、托福的MTLD数据,该统计结果是词汇多样性的另一参考指标。与VOCD相一致,六级MTLD词汇多样性最高(118.90),其次是雅思(104.00)和托福(86.68)。箱线图 1.8显示,三项考试之间存在显著差异。
图 1.7 三项考试VOCD值箱线图
表 1.7 三项考试MTLD值描述性统计
图 1.8 三项考试MTLD值箱线图
根据Shapiro-Wilk检验,雅思和托福的MTLD数据呈非正态分布( p <0.05),因此,需要进行非参数Kruskal-Wallis H检验。结果表明,三项考试的MTLD值之间的差异具有显著性。Nemenyi事后检验结果表明,六级的MTLD值显著高于雅思( p <0.001)和托福( p <0.001),雅思的MTLD值也显著高于托福( p <0.001)。
总之,这两种词汇多样性测量方法产生了一致的结果:在三项考试中,六级词汇的多样性最高,其次是雅思和托福。六级词汇多样性最高,如果不考虑相对较短的文本和样本量的影响,我们有理由认为六级阅读文本中的词汇更加多样化。如果一些词汇或信息重复出现,读者需要处理的认知负荷会更少,因此文本本身也更容易理解(Shiotsu,2010)。尽管托福词汇难度最高,但托福阅读文本多源于学术课本/教材,围绕某个话题或理论(ETS,2017),此结果说明词汇复杂度系数能反映文本本身的特点。
此外,这三项考试中某些词汇复杂度系数有一些异常值,并且这些异常值的范围很大,这要求测试开发人员在选择阅读短文的文本时注意其文本特征,以便提高语言测试的信度。因为语言测试与其他测试不同,需要文本和读者之间的高度交互,因此应该关注文本的选择(Liontou,2015)。
本研究采用在线文本分析工具Text Inspector,从词汇难度和词汇多样性两个方面分析了六级、雅思、托福三项阅读测试的文本,并对比了三项考试阅读文本的词汇复杂度。研究结果表明:三项考试的词汇难度和多样性存在显著差异。总体上,托福词汇难度最高,其次是雅思和六级;然而,就词汇多样性而言,六级词汇多样性最高,其次是雅思和托福。这说明词汇难度和词汇多样性是两个相对独立的构念,而且词汇复杂度系数能够反映阅读文本本身的特点。本研究为三项阅读测试的情景效度对比提供了词汇复杂度方面的实证数据,也为三项阅读测试的进一步开发提供了一定的依据和启示,并为同类研究提供了方法参考。
Adamson, H.D. (1993). Academic competence , theory and classroom practice : Preparing ESL students for content course [M].Longman.
Balota, D.A., & Chumbley, J.I. (1985).The locus of word frequency effects in the pronunciation task: Lexical access and/or production[J]. Journal of Memory and Language , 24 (1) , 89-106.
Cosky, M.J. (1976).The role of letter recognition in word recognition[J]. Memory & Cognition , 4 (2) , 207-214.
Covington, M.A., & McFall, J.D. (2010).Cutting the Gordian Knot: The moving-average type-token ratio (MATTR) [J]. Journal of Quantitative Linguistics , 17 (2) , 94-100.
Crossley, S.A., Greenfield, J., & McNamara, D.S. (2008).Assessing text readability using cognitively based indices[J]. TESOL Quarterly , 42 (3) , 475-493.
Davies, M. (2008). The Corpus of Contemporary American English [EB/OL].[2020-10-23]http://corpus.byu.edu/coca/.
Durán, P., Malvern, D., Richards, B.J., & Chipere, N. (2004).Developmental trends in lexical diversity[J]. Applied Linguistics , 25 (2) , 220-242.
ETS. (2017). The official guide to the TOEFL Test with DVD-ROM [M].McGraw-Hill Education.
Graesser, A.C., McNamara, D.S., & Kulikowich, J.M. (2011).Coh-Metrix: Providing multilevel analyses of text characteristics[J]. Educational Researcher , 40 (5) , 223-234.
Jarvis, S. (2013).Capturing the diversity in lexical diversity[J]. Language Learning , 63 (1) , 87-106.
Johnson, W. (1939). Language and speech hygiene : An application ofgeneral semantics [M].Edward Brothers.
Laufer, B. (1992).How much lexis is necessary for reading comprehension?[A].In P.J.L.Arnaud & H.Béjoint (Eds.) , Vocabulary and applied linguistics (pp.126-132) [C].Macmillan.
Lu, X., Gamson, D., & Eckert, S.A. (2014).Lexical difficulty and diversity of American elementary school reading textbooks: Changes over the past century[J]. International Journal of Corpus Linguistics , 19 (1) , 94-117.
Liontou, T. (2015). Computational text analysis and reading comprehension exam complexity : Towards automatic text classification [M].Peter Lang.
MacWhinney, B. (2000). The CHILDES project : Toolsfor analyzing talk [M].Lawrence Erlbaum.
Malvern, D., Richards, B., Chipere, N., & Durán, P. (2004) Lexical diversity and language development : Quantification and assessment [M].Palgrave Macmillan.
McCarthy, P.M., & Jarvis, S. (2010).MTLD, vocd-D, and HD-D: A validation study of sophisticated approaches to lexical diversity assessment[J]. Behaviour Research Methods , 42 (2) , 381-392.
McGregor, A.K. (1989).The effect of word frequency and social class on children’s reading comprehension[J]. Reading , 23 (2) , 105-115.
Nation, I.S.P. (2006).How large a vocabulary is needed for reading and listening?[J]. The Canadian Modern Language Review , 63 (1) , 59-82.
Nation, I.S.P. (2013). Learning vocabulary in another language [M].Cambridge University Press.
Qian, D.D. (2002).Investigating the relationship between vocabulary knowledge and academic reading performance: An assessment perspective[J]. Language Learning , 52 (3) , 513-536.
Qian, D.D. (2006).Assessing the roles of depth and breadth of vocabulary knowledge in reading comprehension[J]. Canadian Modern Language Review , 56 (2) , 282-307.
Read, J. (2000). Assessing vocabulary [M].Cambridge University Press.
Schmitt, N., Jiang, X., & Grabe, W. (2011).The percentage of words known in a text and reading comprehension[J]. The Modern Language Journal , 95 (1) , 26-43.
Shiotsu, T. (2010). Components of L2 reading : Linguistic and processing factors in the reading test performances of Japanese EFL learners [M].Cambridge University Press.
Weir, C. (2005). Language testing and validation : An evidence-based approach [M].Palgrave Macmillan.
Whaley, C.P. (1978).Word-nonword classification time[J]. Journal of Verbal Learning and Verbal Behaviour , 17 (2) , 143-154.
Wu, R.Y.F. (2014). Validating second language reading examinations : Establishing the validity ofthe GEPT through alignment with the Common European Framework of Reference [M].Cambridge University Press.
教育部高等教育司,2007.大学英语课程教学标准[S].北京:高等教育出版社.