第2章
国内学习者语料库研究现状及发展趋势

2.1　引言

学习者语料库研究（learner corpus research，简称为LCR）开始于20世纪80年代末。进入90年代后，该研究领域取得实质性进展，并呈现出蓬勃发展的趋势。新鲁汶大学的英语语料库语言学研究中心（the Centre for English Corpus Linguistics，简称为CECL）收集了国际上该研究领域公开发表的文献，创建了学习者语料库文献库（the Learner Corpus Bibliography，简称为LCB）。截至2015年2月，LCB共收集了1 276份文献（Paguot & Plonsky，2017），研究的类型不仅包括实证型、实践导向型，还包括了理论探索型。这些统计数据充分说明了学习者语料库研究在学界业已具有较高的关注度。

那么，什么是学习者语料库呢？Sinclair（1996a）称之为“特殊语料库”（special corpora）。Granger（2002：4）基于Sinclair对于语料库的定义，把学习者语料库定义为“根据一定的设计标准收集的真实的外语／二语文本数据的电子集，用于二语习得和外语教学研究。数据用一种标准化的同质性方式进行编码，并详细记录数据来源等信息”。该定义明确规定了学习者语料库的语料来源和属性、建库原则以及用途。Paguot & Plonsky（2017）从六个维度对LCB收集的1 276份文献做了详细的统计分析，包括发表类型、研究重点、方法特征、统计分析和报道方式等。分析结果指出了目前学习者语料库研究的主要特征、成就以及存在的问题等。

目前，学习者语料库研究呈现出跨学科特点。Granger，Gilquin & Meunier（2015）编辑出版的《学习者语料库研究剑桥指南》（ The Cambridge Handbook of Learner Corpus Research ），汇集了该领域多个专家学者的作品，探索当下形式多样的学习者语料库研究，广泛涉及学习者语料库的建立、标注、研究方法、理论、分析和应用，为相关研究者以及语言学习者和教师提供了全新的视角。本章则聚焦于国内学习者语料库研究，通过综述相关研究报道，归纳研究特点，并瞻望未来的发展趋势。

2.2　学习者语料库研究现状概述

国内学习者语料库研究起步稍晚于国际同类研究，于20世纪90年代末开始建设第一个学习者语料库，即中国学习者英语语料库（CLEC），该语料库于2003年正式出版发行（桂诗春、杨惠中，2003）。李文中（1999）曾简要介绍过CLEC的建设，但基于CLEC的实证性研究多见于CLEC公开发表之后。继CLEC之后，国内又建设了一批学习者语料库，如COLSEC，SWECCL，MSEE等，并触发了大量的学习者语料库的理论、实证以及应用研究。已有学者曾对国内学习者语料库研究及其在二语习得研究中的应用做过述评（如：王立非、孙晓坤，2005；邓耀臣，2007），并且指出了该领域有待深入探讨的问题。但这些讨论距今也有十余年的时间，其间该研究领域也发生了一些新的变化，在研究的理论、视角和方法上呈现出新的特点。因此，我们非常有必要进一步梳理相关文献，归纳出该研究领域出现的新特点，找到目前研究存在的问题，并提出未来的研究重点和方向。

2.2.1　开拓跨学科的研究视角

学科交叉是当下学术界一个非常时髦的话题，学科之间在理论和方法上相互借鉴与补充，其目的是拓宽研究思路，找到新的研究视角，以期获得新的研究发现，抑或对已有理论加以修正、完善乃至更新重构。与国际上学习者语料库研究一致，国内相关研究也呈现出跨学科的特点。学习者语料库除了继续与二语习得研究和外语教学研究相关联外，还应用于语用学、翻译学、心理语言学、认知语言学、话语分析、测试、语义分析等领域，在很大程度上提升了学习者语料库的应用价值和显示度。桂诗春（2004）基于CLEC语料库中的英语失误现象，提出了一个认知模型，把失误分为三个层面：单词层面上的词汇感知失误、词际层面上的词汇语法失误以及句子层面上的句法失误，并且提出学习者有两个语言系统可供驱使，一个比较完整，一个较不完整，使用哪一个系统取决于具体的交际任务。这项研究的价值在于，改变了以往心理语言学主要依赖心理实验数据的研究方法，直接采用了真实的语言输出数据材料，从语言行为推导出语言使用者认知加工机制。尽管该研究并没有通过心理实验的方法得到验证，但无疑在研究方法上是一次有益的尝试。最近十年，以Stefan Th. Gries为代表的一批具有认知语言学学术背景的学者在他们的研究中大量使用了语料库的实证数据，并借助复杂的统计手段，开展语言认知研究，这与当初桂诗春教授的主张有相似之处。语料库数据以其真实性、数量大等特点，被越来越多的认知语言学研究者采用，实现了认知语言学研究的“语料库转向”。但同时，我们也应该清醒地认识到，语料库数据应用于认知研究也有其局限性，基于语言输出数据推导出来的心理认知加工机制，还需要通过精密的心理认知实验进行验证，语料库数据和心理认识实验数据应当互为补充。

张威（2017）介绍了中国口译学习者语料库建设的理论与实践。实际上，早在2007年，国内就开始建设学习者翻译语料库。当时，由上海外国语大学及其他二十余所院校共同建设中国高校外语专业多语种语料库，其中一个子库收集了全国各类院校专业学生从2004到2006年的部分四、八级考试汉译英译文，并做了文本失误标注（张雪梅，2008）。稍显遗憾的是，该学习者翻译语料库的应用并不是特别广泛，原因有二：其一是该语料库的库容较小，语料受限于考试的内容；其二是因为该语料库并没有公开，只是在小范围的科研机构内使用。目前语料库建设的确存在这样的现象：研究者为了建设语料库投入了大量的人力和物力，建成后一般不会愿意公开，为广大研究者使用。这种现象制约了语料库的普及，其应用受到了限制。这个问题值得引起学界同仁的重视，大家应当互通有无，避免语料库的重复建设，同时充分利用已有语料库的使用价值，当然，也要注意保护语料库建设者的知识产权。国内这几年语料库翻译学（胡开宝，2011）的飞速发展促进了口译学习者语料库的建设。但与其他类型的平行语料库相比，国内的口译学习者语料库的建设与研究尚处在发展初期阶段，基于口译学习者语料库开展的语言及教学研究尚不多见，但随着相关语料库的建成，必定会触发一系列学习者口译研究。

学习者语料库与学术语篇的交叉也是近些年的一个研究热点。如，徐宏亮（2011）收集了中国高级学习者撰写的应用语言学方向的博士论文，自建了一个小型的学习者学术英语语料库，并与英语本族语者学术英语语料库进行对比分析，主要考察学习者在语篇中使用作者立场标记语的情况，得到的结论是，中国的学习者在学术语篇中立场标记语的使用频率低于英语本族语者，并且往往倾向于更直接地、直率地表达自己的立场态度。基于学习者语料库的学术语篇分析范围包括了词、短语、句法、评价意义、功能立场等多个范畴（如：周惠、刘永兵，2015；娄宝翠，2017；雷蕾，2017；李梦骁、刘永兵，2017）。梁新亮（2018）采用了系统功能语言学的概念语法隐喻理论，以中国本科、硕士和博士学位论文摘要为语料，通过分析体现因果关系的句隐喻的数量突显程度及其聚合复杂性的发展程度，探讨中国英语学习者学术语言发展的状况，结果显示，学术英语发展与句隐喻的数量突显程度显著关联，但句隐喻的数量并非随着学习阶段的增长而一直增长。这项研究的新颖之处在于将学习者的学术英语与系统功能语言学的相关理论相关联。

2.2.2　引介新的语言学理论

由于其特殊性，学习者语料库研究从一开始就与二语习得和外语教学研究有着紧密联系。近些年，二语习得研究领域新的成果层出不穷，并涌现出了一些新的理论假设。学习者语料库为验证这些理论假设提供了更为直接的语言产出证据，或者说，这些理论假设为解释说明从学习者语料库中观察到的语言现象提供了新的视角。例如，王瑞（2015）基于CLEC语料库，分析了学习者英语中动名搭配错误，并使用概念迁移理论假设来解释错误产生的原因，分析的结论是，语际错误、语内错误、基于交际策略的错误是概念迁移视角中动名搭配错误产生的主要原因。贾光茂（2017）也通过概念迁移的视角，分析了中国英语学习者的动名搭配错误。不同是，贾的研究重点考察了概念迁移导致的错误类型，即由英汉概念详略度差异导致的名词误用和动词误用、英汉概念突显度差异造成的名词误用和动词误用以及英汉小句概念结构差异造成的名词误用等，其研究结论是汉英识解差异是导致动名搭配错误的重要原因。

认知语言学是近些年语言学研究领域中的热点，受认知语言学研究的影响，二语习得研究范式也取得了新进展，如隐喻关照下的二语习得研究（于翠红、刘件福，2015）。钟兰凤、陈希卉和赵梦娟（2013）通过对隐喻识别与词典义项区分的界面研究，提出了义项区分模式，该模式在一定程度上反映了潜在意义的发展轨迹，并且可以帮助以英语为外语的语言学习者发展隐喻能力。周蕙和刘永兵（2017）采用了系统功能语法中经典语法隐喻理论，考察了我国高级英语学习者与英语本族语者学位论文摘要中的语法隐喻分布情况，并进行了语篇功能的分析。研究发现了我国英语学习者在语法隐喻使用上的一些特点和不足，如对概念语法隐喻使用的匮乏，直接影响了学术语篇的抽象性和客观性，造成这些问题的原因可能是受到学术文类意识以及母语迁移的影响。石进芳和唐斌（2018）对比分析了中国英语学习者与英语本族语者人体多义词隐喻性词义知识的差异，结果显示隐喻性词义是二语多义词习得的难点，主要影响因素是英汉语义范畴结构差异、隐喻性词义生成与加工机制、母语概念迁移以及接触频率等。另外，动态系统理论是近些年二语习得研究中出现的一个新的理论，目前该理论尚处于逐步完善阶段，并且开始有一些实证性研究（如：李小鹏、詹全旺，2018），但是基于大型学习者语料库数据的相关研究尚未出现。

上述研究有个共同特点，都采用了基于语料库的研究范式（corpus-based approach）。Tognini-Bonelli（2001）用“语料库驱动”和“基于语料库”来区分两种不同类型的语料库研究。基于语料库的研究把语料库看成方法，目的是解释、验证或者说明现有的语言理论或者假设。从语料库语言学发展的历史来看，很早就有人主张基于语料库的研究范式。如G. Leech早年在参加英语用法调查语料库建设时，就提出要把语料库看成一种方法，受其思想影响，之后也有不少研究者选择基于语料库的研究范式。例如，Xiao（2009：995）曾指出“基于语料库的方法更有助于语言学理论研究”。这种提法的确有其道理所在：从现有的理论出发，再使用语料库方法证明之，强化之，当然会有助于其所支持的“语言学理论研究”。但问题的关键是，基于某种已有理论的语料库研究并不会推进语料库语言学研究。语料库语言学研究的发展还是需要依靠语料库驱动的研究范式，因为，不基于任何已有的理论假设或者语言直觉去观察文本实际上是一种更为开放的态度，以免我们在文本分析时把婴儿连同洗澡水一起倒掉。

短语学是这些年语料库驱动研究的主要内容，也取得了许多颇具影响力的研究成果，如搭配、词项、扩展意义单位、语义韵、意义移变单位等。这些研究成果也被应用到对学习者语言的研究。例如，陈鹏和濮建忠（2011）采用Sinclair的词项模型分析方法，对比描述了本族语者和中国学习者英语写作中的词汇衔接特点，结果发现，意义单位是词汇衔接的重要手段和具体体现，但与本族语者相比，学习者在使用词汇共现型式时较为单一，或者使用不够贴切，词汇的衔接度相对比较低。李文中（2017）从搭配的界定入手，讨论语料库搭配研究的各种测量手段及存在的难题，并探讨和评价中国学习者搭配分析的作用与意义。分析发现：由于不同学科和领域观察和分析搭配的视角不同，对搭配的定义也不同，这反映了搭配研究的多元化特征；另外，搭配研究不能完全依赖统计测量及自动处理，因为搭配意义的产生并不纯粹遵从逻辑和概率，对于学习者而言，学习重点是处于固定与自由组合之间的各种变异性搭配的使用。甄凤超和王华（2012）采用语义序列的方法，分析了CLEC语料库中of的词汇—语法型式及其在语义上的差异，并比较不同英语水平的学习者，尝试找到学习者在习得该语义序列上的发展性特征。这些研究的共同特点就是都采用了语料库驱动的研究驱动，把学习者语料库数据看成一个整体，在描写语言事实的基础上阐释理论。当然，在这个过程中，并不排除研究者使用已有的知识、经验和智慧。

2.2.3　加强口语研究

Sinclair在20世纪60年代就开始从事英语口语的研究，并且认为口语可以为“语言中普遍的经常出现的型式”提供证语（Sinclair，Jones & Daley，2004）。Halliday（2005：157）也曾经表示，口语语料库具备广阔的研究前景，为深入洞察语言的本质提供主要的数据源。但同时，他也指出了目前口语语料库建设研究存在的主要问题，即由于受到笔语研究范式的影响以及技术限制，口语语料库在建设时丢失了诸如语调、韵律等重要的口语特征信息，在很大程度上限制了口语语言的研究。的确，在世界范围内，与笔语语料库相比，口语语料库建设显得极度不平衡，原因除了对口语重要性的认识不足之外，还与口语语料库的建设难度有关。令人感到可喜的是，大力发展口语语料库是目前语料库建设的主要趋势。 International Journal of Corpus Linguistics 2016年第3期全部是各类口语语料库建设的相关研究报道，内容涉及语料撰写、语用特征标注、多模态语料库等，该杂志2017年第3期则是BNC口语语料库建设和研究特辑。随着口语语料库建设的不断完善和加强，必定会触发一系列口语语言的研究。

中国学习者英语口语语料库（COLSEC）是国内第一个学习者英语口语语料库。卫乃兴（2004）在COLSEC建设过程中，基于现有的数据，分析了我国大学生英语会话中的词块使用特征、话语结构特征和会话管理策略特征等。分析结果发现：学生能熟练使用的词块数目较少、长度偏短、缺乏应有的变体，并由此推断学生在话语输出中仍旧依赖“开放选择”原则，而运用“成语原则”依据词块将其链接为话语的技能较低；在话语结构上，虽有I-R-F型式，但F话步的实现形式较为贫乏，功能也少，总的会话管理策略较差。甄凤超（2009）基于COLSEC数据，从使用预制性语块的能力、通过目的语运用图式知识的能力、语用能力和策略能力等几个方面，对比分析了不同口语交际能力水平的学习者之间以及中国学习者与英语本族语者之间的差异，目的是找到中国学习者英语口语的特征和问题。

COLSEC收集的语料是大学英语四、六级考试口语考试的转写文本，用一系列符号对话轮转换、语音、语调、停顿、犹豫、打断、非语言交际等逐一标注，并详细标注了学生的发音失误，如吞音、加音、错音、重音等错误，因此，“该语料库可以看作是对我国大学生英语口语能力现状的真实描写”（杨惠中，2004：3）。冯友（2005）基于COLSEC语料库，调查了中国学习者英语口语中的吞音现象。研究结果显示，中国英语学习者普遍存在吞音现象，吞音多发生在词尾，以辅音吞音最为常见，并且在发音部位、发音方式和清浊差别上的分布也不均匀。程春梅和何安平（2008）基于COLSEC和LINDSEI-China（国际英语学习者口语语料库－中国子语料库），具体分析了中国高级英语学习者的音段错误，错误分元音和辅音错误，错误类型包括替换型错误、脱落型错误、添加型错误等，并就每种错误类型做了频数统计。

继COLSEC语料库之后，国内又建设了一些小型的学习者英语口语语料库，并触发了一系列相关研究。巫玮和肖德法（2011）从2005年PETS三级口试录音资料中随机抽取32个样本，对其转写且标注语音错误，并统计分析了学习者的加音现象。分析结果发现学生的加音错误主要可以分为辅音后添加元音、元音后添加辅音、在某些音素后添加卷舌音三种类型，并且第一种的频数要远远大于后两种。李冰冰和邓耀臣（2009）基于SECOPETS语料库（语料全部取自公共英语等级口语考试），调查分析了中国学习者英语口语中的言语失误，发现失误频数较高的是动词、名词、句子和介词，失误类型与中国学习者英语水平之间呈现明显的对应关系，并且指出母语迁移可能是造成口语言语失误的重要原因。同样是基于SECOPETS语料库，潘琪（2011）采用中介语对比分析的方法，对中国学习者英语口语中的情态词语、交互词语和多词惯用语三类语用标记语的使用特征进行了实证分析。研究结果表明中国学习者在上述三个方面均不同程度地过少使用，但同时又过度使用某些高频情态助动词和副词，集中使用其一两种用法，并存在误用的现象。

随着基于语料库的翻译研究在国内蓬勃发展，这几年也开始出现学习者翻译语言的语料库。张威（2015，2017）详细介绍了中国口译学习者语料库（CILC）的建设及其副语言标注的标准和程序。副语言主要包括口译中出现的停顿、填充、语速、音量、语音拖长五类，其作用体现在信息判断、解释、更正等方面。该语料库的建设必定会促进对口译普遍性、口译认知加工机制、口译策略应用、口译质量评估等议题的探索。

尽管这些年国内学习者口语语料库建设研究开展得如火如荼，但与学习者笔语语料库研究相比，尚存在不小的差距，这主要是受到口语语料库建设规模的限制。另外，研究者对于口语的认识尚不统一。一种观点认为，语言这种东西并不存在，只有说出的话语和写下来的文本，因此我们应当把它们分开来描写，并且其各自有着不同的语法体系。当然，也有不同的声音。不少学者就口语与笔语语法是相同还是各自不同的议题进行过讨论，如Brazil（1995），Leech（2000）和Stubbs（1996），双方各执一词，尚无定论。Halliday（2005：173）指出，口语语料库在语言的词汇研究层面具有强大的优势，但是在语法分析层面却存在着不足，要想开展语料库驱动的口语语法研究，首先需要一个语法驱动的口语语料库。但毫无疑问，口语语料库的建设为我们更好地理解语言增加了一个新的研究维度。国内开展的一些极富价值的学习者口语语料库研究也为我们更好地理解学习者语言开拓了一个全新的视野，相关研究应当继续深入下去。

2.3　国内学习者语料库研究的新议题

2.3.1　教学语料库的开发与应用

语言教学是语料库语言学研究的主要应用领域之一，现代语料库语言学奠基人Sinclair很早就开始了基于语料库的语言教学研究，并做过许多极富价值、观点独特且具有前瞻性的论述及研究实践，如他提出的词语教学大纲（Sinclair & Renouf，1988）、语言教学中的四个难题及解决方案（Sinclair，2004a）、四种语言技能（Sinclair，2004b）等重要思想。他的这些教学思想都是建立在其长期从事的大型语料库实证分析的基础上，具有坚实的语言学理论和数据支撑，且有着很高的实用价值。较为遗憾的是，由于与当下所谓的主流教学理念不同（如传统语言教学主张将语法与词语分割开来，并主张语法优先，而交际教学同样把词语置于语言功能之后），Sinclair的这些教学理念的价值并没有得到充分体现。但随着语料库语言学研究的不断深入，我们对语言本质的认识也在不断更新，Sinclair基于语料库研究提出的教学理念也开始备受关注。数据驱动学习方法（Johns，1991a）就是在这个大背景下被提出来的，该方法主张学习者直接进入语料库数据，通过观察分析语言数据，探索语言规律，实现自主学习。

最初应用到语言教学中的语料库主要是英语本族语者语料库。20世纪90年代由S. Granger主持建设了世界上第一个学习者语料库，即学习者英语国际语料库（ICLE），学习者英语语料库开始进入语言教学。Leech（1998）把学习者语料库定义为“外语学习者语言产出的电子文本数据库”。当然，建设ICLE的主要目的是全面系统地描写外语学习者的中介语特点，这包括两方面的内容：一个是学习者的语言错误，通过跨语言的中介语对比分析，判断语言错误是普遍性的还是因语言而异的；另一个是学习者语言的外国腔，主要通过与英语母语者相比，学习者语言中哪些词语或者结构是过度使用，或者过少使用的。Granger（2002）把这些研究方法总结为中介语对比分析法（contrastive interlanguage analysis），该方法被学习者语料库研究者普遍采用。

尽管大多数语料库教学研究强调了英语本族语者语料库在教学中的作用，但Granger（2002）指出在外语教学中只关注本族语者的语言使用是不够的，因为本族语者语料库无法提供有关学习困难和可学性的信息，也无法清楚地告知语言学习者和教师哪些才是真正有用的语言知识。但同时她也指出（Granger，2002：26）：“是否在语言课堂上使用学习者语料库是个极具争议的命题，一方面提供给学习者错误语言使用数据存在潜在的危险性，这一点我们必须清楚；同时我们也要明确能够使用学习者语料库的两种情景，即聚焦于语言形式的教学，以及让学生注意到与目的语言形式之间的差距”。关于学习者语料库数据在外语教学中的应用价值，我们将在本书的下篇中展开详细论述。

近些年出现了一个新的概念，即教学语料库（pedagogic corpus），但是有关它的定义及内涵，学术界并无统一的说法。提出建设教学语料库的初衷，是为了强调创建语料库的理据，即为了服务教学而不是语言研究。其他一些研究则把教学语料库定义为由兼有教师和研究者身份的人创建的语料库，其内容主要是学习者接触到的文本，如Meunier & Gouverneur（2009）建设的教材语料库。在Meunier & Gouerneur（2009）定义的基础上，Chambers（2015：447）给出了一个非常宽泛的定义：“所谓教学语料库，指一个足够大的且具有代表性的语言样本库，无论是口语的，还是笔语的，都应是学习者通过多种渠道曾经接触过的，或者可能会接触到的语言。可能包括课内或者课外自学使用的教学材料，以及学习者到海外游学或者通过技术中介传播渠道接触的语言”。但是，多数研究者并不接受这个概念，而是聚焦于因某种特殊教学需求而建立的语料库。

另外有一个议题也引起了研究者的争论，即是否要在教学语料库中放进学习者自己使用的语言数据。如Nesselhauf（2004a：140）认为，如果学生在课堂上可以直接获得语料库数据，那么，教师则需要小心谨慎地处理学习者数据中出现的消极性语言实例。但是，Chambers（2015）却强烈建议在教学语料库中加入学习者语言数据，目的是将其与本族语者数据进行比较，找到语言学习的难点，更好地满足学习者的需求。Seidlhofer（转引自Chambers，2015：449）把教师因特殊需求而收集的学生文本数据称为“本地学习者语料库”（local learner corpus），并且与本族语者语料库一道，为教学语料库的建设和应用研究提供崭新的视角。从理论上讲，教学语料库是为了教学需求而建设的，自然应当包括本族语者的语言，也要包括学习者的语言，这样，教学不仅有规范性语言作为学习参照，而且通过对比，发现学习困难以及一些规律性特征，提高教学效率。但在实践上，教学语料库的建设和应用有着许多亟须解决的问题。例如，如何选择具有可比性的英语本族语者和学习者语言数据？两类数据在整个语料库中占多少比例才合适？教学语料库是否应该具有学科特点？学习者语料库是否需要进行错误标注？基于教学语料库应该设计什么样的教学活动？通过这些活动，学习者是否能够学到更多的语言知识以及语言学习的策略？教师和学生是否会有积极的学习体验？

还有一个相关问题值得深思，即除了编制词典和相关练习之外，语料库语言学的研究成果还有哪些可以直接应用到教学中去？将语料库应用到教学中的概念已经提了几十年，但至今仍是个概念产品，除了柯林斯词典及语法手册系列，很少见到直接应用语料库而产出的教材、课堂设计、活动材料等，说明从语言研究到教学应用，中间还存在着诸多问题，这不仅仅是语料库研究的问题，还涉及教学理念的转变、教学技术的更新等。

2.3.2　学习者专门用途英语语料库研究

专门用途语言（language for specific purpose，简称为LSP）指用于学术或者职场交流的语言，该领域研究尤其关注科学、技术和商务用途英语。在LSP领域内，主要研究对象是专门用途英语（English for specific purpose，简称为ESP），许多大型的专门用途英语语料库业已建成，即便是其他语言的专门用途语料库的建设，也会同时建设一个具有可比性的专门用途英语语料库，便于开展跨语言或者跨文化的对比分析（Flowerdew，2015：467）。在多数情况下，专门用途英语语料库主要包括科学和人文社科领域内的研究论文，或者仅限于某一种特定学科领域，相关研究主要关注不同学科或者体裁之间的变体和差异，研究对象主要是核心词汇或者与学科相关的词汇（同上）。这类研究不仅深入了解专门用途英语的语言特征，而且为相关语言教学提供了有益的参考。

学习者语料库从一开始就关注了专门用途英语，ICLE语料库的其中一个子库就是不同母语背景的在校大学生写的议论性文章，这些文章是教师在学术用途英语（English for academic purpose，简称为EAP，是LSP的一种类型）课堂上布置给学生的作文。虽然文章的题目都是些较为笼统的议题，但是要求学生在文章中进行连贯的条理清晰的讨论，并且要练习使用与相关学科写作相同的修辞方法。Flowerdew（2015）把这类的学习者语料库称为通用学术用途英语语料库（English for general academic purpose，简称为EGAP），并且提出另外一种类型，即专门学术用途英语语料库（English for specific academic purpose，简称为ESAP），它不仅包括各类学科写作，而且包括了在基于写作技能的ESP课程上布置给学生的写作任务。但是划分这两种类型学习者语料库的界限并不是很清晰。上文提到的ICLE语料库的其中一个子库应该更接近EGAP，而21世纪初期才开始出现ESAP语料库研究，如Hewings & Hewings（转引自Flowerdew，2015：468）收集了非英语母语的MBA学生写的学科论文，建设成一个小型的ESAP语料库。Flowerdew（2015）还介绍了目前正在建设的两个大型的ESAP语料库，一个是The Varieties of English for Specific Purposes Database（简称为VESPA），另外一个是The Corpus of Academic Learner English（简称为CALE），其语料都是学习者写的研究型文章。尽管语料的具体内容不同，但这两个语料库有着一些共同特征，如，学习者不同的母语背景、多体裁和多学科等。

过去国内学习者语料库大多关注学习者的普通意义上的命题或者自由写作，如CLEC，SWECCL等，以后可以朝着ESAP的方向努力。但是，在国内建设此类语料库具有较大难度，主要是语料获取难。国内绝大多数高校，除了英语专业的本科生，其他专业的本科生基本上不用英语撰写毕业论文。许多高校开设了针对本科生的学术英语写作课程，但基本上都是通用学术英语写作，并没有深入到不同的学科专业领域。其他专业的硕士和博士生基本上也不用英语撰写毕业论文，可以收集到的材料是他们发表在国际期刊的文章，但是已发表的文章一般要经过编辑或者专家修改，在很大程度上会丢失学习者原有的语言特点。另外一种办法是，为了建设语料库，专门要求其他专业的学生（包括本科生、研究生和博士生）就其专业领域的某一个研究话题用英语撰写文章。尽管具体操作起来具有一定难度，但建设这样的语料库具有重要的意义，不仅可以从文类、学科的角度去深入分析学习者学术英语的特征，而且能够找到学习者语言中的问题，反馈给语言教学，提高学生的学术英语能力。另外，除了写作之外，我们还可以建设学习者ESAP的口语语料库。

一谈到学习者语料库研究，自然会想到对比分析，而如何选择合适的参照语料库是一个无法回避的问题。Flowerdew（2015：469）指出：“学习者语料库研究的一个关键问题是我们通常会拿学习者语料库与一个与之平行的母语语料库做对比分析，两个语料库需要在许多参数上相互匹配，如任务类型、文本长度等”。在学习者语料库研究中，The Louvain Corpus of Native English Essyas（简称为LOCNESS）常常用来与ICLE比较。另外，The British Academic Written English Corpus（简称为BAWE）和The Michigan Corpus of Upper-level Student Papers（简称为MICUSP）也经常用作参照语料库，与学习者语料库进行对比分析。当然，这两个语料库中有一部分是学习者的语料，在对比分析中需要将这部分语料过滤掉。另外一个研究思路是，除了对比分析英语本族语者和学习者之外，我们还可以按照英语水平、不同学习阶段、不同学科等参数对学习者进行分类比较。

2.3.3　从短语学视角分析学习者语料库

现代语料库语言学的根本任务是描写自然语言的意义，并找到语言真正的意义单位。基于对大型语料库的数据分析发现，语言的意义单位往往要大于传统意义上的单词形式，实现为不同类型的短语形式。语言中除了短语，还是短语，不存在任何其他的形式（Sinclair，2008b）。短语学成为现代语料库语言学研究的重要内容。在短语学研究的框架下，衍生出许多具体的方向，如搭配、搭配框架、型式语法、语义序列、扩展意义单位、词项、语义韵、词束、意义移变单位、同现词列、配价型式、局部语法等。语料库短语学业已出现大量的卓有成效的研究成果，并且在未来将继续深入下去。

这里需要指出的是，有关上述内容的探索性研究都是基于英语本族语者语料库的。基于学习者语料库的相关研究主要是应用性的，即通过中介语对比分析调查学习者与英语本族语者在某类短语特征上的差异。在国内，基于学习者语料库的短语学研究主要聚焦在搭配上，虽然也有研究涉及其他类型的短语，但研究数量并不是很多。在短语学研究框架下开展学习者语料库研究尚有很大的研究潜力有待挖掘。

首先，需要跳脱出传统的错误分析的研究思路，研究学习者语言不一定就是要找出语言错误，或者研究多用或少用某些语言特征的现象。学习者语言本身也是一种自然语言，或者说是一种真实的语言变体形式，只是它受到了学习者的母语、目的语、学习环境、跨文化、习得规律等诸多因素的影响而变得异常复杂。观念上的更新会拓宽研究的思路和视野。其次，不能完全一成不变地照搬现有的语料库短语学研究框架，要结合学习者语言的实际情况，采用语料库驱动的研究范式，通过观察大量的学习者语言数据，从中归纳和总结出学习者语言特有的短语特征。为此，要开展更为广泛的对比研究，除了与目的语对比之外，还要在不同母语背景的学习者之间、不同外语水平的学习者之间、不同学习阶段之间、学习者语言与其母语之间等展开更为广泛的横向和纵向对比分析。另外，也可以与社会语言学、心理语言学、认知语言学等进行交叉互补性研究，从不同的理论和视角对学习者语料库的数据分析结果进行阐释说明或者加以验证完善。第三，可以尝试建设动态的监控学习者语料库。目前，国内已经建成的学习者语料库多数是静态的横向的语料库。有些研究把不同外语水平的学习者假设成不同学习阶段的学习者来进行纵向分析，但这样的研究只能隔靴搔痒，无法真正跟踪和监控学习者在语言学习上的发展和变化，研究结论也因此不具有普遍性。最后，可以与语言测试研究结合起来。短语能力（phrasological competence）（Paguot，2018）作为使用地道语言能力的一个重要成分，已经被普遍认同，但是在已有的大型测试中尚未得到重视。建设学习者专门用途语料库，并且把基于该语料库的短语学分析与测试的评分标准和效度研究结合起来，建构新的测试构念，开发新型测试题目，对于提高测试的效度和信度都将起到关键作用。

2.4　结语

国内的学习者语料库建设和研究风雨兼程二十年，不仅建设了一批具有代表性的学习者语料库，而且产出了许多颇有价值的科研成果，在国际上也产生了一定的影响。但是，与国际上学习者语料库研究相比，国内的研究还存在一些差距，尤其这些年还出现了下滑趋势。究其原因：其一，语料库缺乏更新换代，已有的语料库类型单一、数据陈旧，不能反映当下学习者的语言特征；其二，研究思路比较落后，多数还是采用中介语对比分析方法，或进行错误分析，或流于表面描述学习者多用或者少用等现象，研究缺乏更为宽阔的思路和视角，惯性思维容易产生疲劳。

曾经有一位期刊主编用“简单无新意”来评价国内的学习者语料库研究，言辞虽有些偏激，但从一定程度上也确实指出了目前国内学习者语料库研究的尴尬境地。实际上，我们搞学习者语料库建设与研究，步子可以再大一些，思路可以再宽一些，多一点创新，少一些重复，一定会有巨大的发展空间与潜力。

第2章 国内学习者语料库研究现状及发展趋势

2.1 引言

2.2 学习者语料库研究现状概述

2.2.1 开拓跨学科的研究视角

2.2.2 引介新的语言学理论

2.2.3 加强口语研究

2.3 国内学习者语料库研究的新议题

2.3.1 教学语料库的开发与应用

2.3.2 学习者专门用途英语语料库研究

2.3.3 从短语学视角分析学习者语料库

2.4 结语