第1章
语料库语言学在中国的成长与发展

1.1　引言

20世纪80年代早期，上海交通大学杨惠中教授组建研究团队，策划建设中国第一个大型电子语料库，即交大科技英语语料库（JDEST），启动了语料库语言学在中国的发展。风雨兼程四十载，国内语料库语言学研究队伍不断壮大，研究不断深入，研究水平不断提高，不仅建成了一批可与国际同类语料库相比的专门语料库、学习者口笔语语料库、平行语料库、可比语料库，研究话题也从词汇、语法和词典学扩展到语言教学、二语习得、翻译、自然语言处理、话语分析、认知语言学、功能语言学乃至抽象的理论语言学等广泛的领域。越来越多的具有不同学术背景的研究者都积极加入语料库语言学研究的队伍中来，刮起了一股强劲的“语料库风”，而国内外不同学术领域的交流与合作也给中国的语料库语言学研究开辟了更为广阔的发展空间。本章首先将回顾国内语料库建设的三个主要阶段，然后以语料库语言学研究类型为主线，综述语料库语言学研究在中国的发展动态，找到发展中存在的问题，并对未来发展趋势作出展望。

1.2　国内语料库建设的三个主要阶段

我们按照每个阶段建设的语料库的特点，将国内语料库建设大致划分出三个主要阶段：

第一个阶段始于20世纪80年代早期，其主要特征是建设专门用途语料库（specialized corpus），主要有上海交通大学建设的JDEST语料库（库容为100万形符）和中国石油大学广州分部创建的广州石油英语语料库（库容为411 000形符）。这些是我国乃至世界范围内的第一代大型电子语料库，是我国在20世纪80年代对早期计算机语料库建设所做出的重要贡献，受到国际学术界的广泛关注。基于这些语料库产生的索引大全与词频表（如《石油英语频率词典》，祝启波著），为全国大学英语教学改革尤其是对大学英语教学大纲的制定、研究专门用途英语词汇以及语言对比和教材编写提供了数据资源。此外，国内同时期还建成了一批汉语语料库，如汉语现代文学作品语料库（527万字，武汉大学）、现代汉语语料库（2 000万字，北京航空航天大学）、中学语文教材语料库（106万字，北京师范大学）和现代汉语词频统计语料库（182万字，北京语言学院）。进入20世纪90年代后，汉语语料库的库容进一步扩大，如北京语言文化大学建立了一个约5亿字的中文语料库，清华大学建立了7—8亿汉字的语料库，等等。这些汉语语料库主要应用于中文信息处理研究，如汉语的切词和消歧。

第二个阶段开始于20世纪90年代中后期，主要以建设学习者英语语料库为主。代表性语料库包括广州外语外贸大学和上海交通大学联合建成的中国学习者英语语料库（CLEC，100万形符），上海交通大学、河南师范大学和解放军外国语学院联合建成的中国大学生英语口语语料库（COLSEC，70余万形符），南京大学建成的中国英语学生口笔语语料库（SWECCL，200万形符）和华南师范大学建成的中学英语教育语料库（MSEE，450万形符）。此外，还有华中科技大学的硕士写作语料库（MWC，12万形符），华南师范大学的国际外语学习者英语口语语料库－中国子语料库（LINSEI-China，10万形符）。这些语料库收集了学习者学习英语时所产生的中介语，因此也被称为中介语语料库，为研究学习者中介语的语言特点和语误现象以及二语习得提供了真实可靠的数据。

第三个阶段开始于21世纪初，是我国语料库建设全面发展的时期。随着建库技术的不断完善，各种类型的语料库如雨后春笋般迅速发展起来。首先，建成或在建一批汉英平行语料库，如中国科学院计算技术研究所的汉英双语语料库（20万句对，提供网上查询服务），北京大学汉语语言学研究中心的CCL汉英双语语料库（233 589句对），北京大学计算语言学研究所的BABEL汉英平行语料库（20万句对），东北大学的英汉双语语料库（100万句对），哈尔滨工业大学的英汉双语语料库（50万句对），北京外国语大学中国外语教育研究中心的通用汉语对应语料库（约3 000万汉字／英文词），南京大学的南大—国关平行语料库，外语教学与研究出版社的英汉文学作品语料库，国家语言文字工作委员会语言文字应用研究所的计算机专业的双语语料库，上海交通大学的汉英双向平行语料库、莎士比亚多译本平行语料库、汉英会议口译语料库、当代英汉／汉英法律平行语料库等一系列平行语料库以及燕山大学的《红楼梦》中英文平行语料库，等等。这些语料库触发了一系列相关研究，如语言对比研究、翻译研究、双语词典编撰研究、教学研究和机器翻译研究。其次，建成或在建一些特殊英语语料库，如解放军外国语学院的军事英语语料库，河南师范大学的中国英语（China English）语料库等。这些语料库已呈现出良好的应用前景，其中中国英语语料库为研究中国英语变体的形成，研究英语语言从其本族文化的联结中被剥离出来后与其二语或者外语学习者和运用者的本土社会文化及环境的对接提供资源。需要说明的是，上述三个阶段并非楚河汉界、泾渭分明，而是一个彼此交错、相互渗透的过程。

随着语料库的建设与开发，基于语料库的语言研究不断涌现，我们借助中国期刊网的检索平台，统计出与语料库相关的文章数量，如表1.1所示。表1.1显示了一组CSSCI来源期刊发表的有关语料库文章的统计数字：

表1.1　国内与语料库相关的CSSCI期刊文章数量统计表

从时间维度上看，语料库语言学研究最近二十年的发展尤为突飞猛进，研究话题也从词汇、语法和词典学扩展到包括语言教学、二语习得、翻译、自然语言处理、话语分析、认知语言学、功能语言学，乃至理论语言学等更为广泛的研究领域。接下来我们以语料库研究的类型为主线，分析语料库语言学在我国的发展动态和存在的问题。

1.3　语料库语言学研究和外语教学研究

外语教学研究是语料库语言学主要应用领域之一，一直备受国外语言学家和语言教育家的关注（Leech，1997；Renouf，1997；O'Keeffe，McCarthy & Carter，2007）。而语料库语言学在中国发展的初始阶段就与外语教学有着密切的联系。JDEST语料库，是中国和亚洲地区的第一个学术英语语料库，基于该语料库提取的学术英语领域通用词汇、技术词汇、次技术词汇等信息，为中国大学英语教学大纲的制定提供了可靠的科学量化依据，为推动大学英语教学改革发挥了重要作用。杨惠中教授提出制定教学词表的“定量分析为主，定性分析为辅”的原则：在通过频数、覆盖率和分布率等主要统计特征确定词表之后，经由定性分析做进一步筛选，筛选的依据包括社会学标准、语言教学标准和语言学标准。基于这一原则，上海交通大学从JDEST语料库中提取并编写了含6 000个词汇的常用科技英语词汇表，为制定“大学英语教学大纲通用词汇表（1—4级）”提供了重要参考。JDEST项目的重要意义在于，它开创了我国外语界进行语料库研究的先河，为世界范围内的第一代语料库建设，尤其是专门语料库建设提供了一套经典的原则、方法和技术范式，被John Sinclair和Geoffery Leech等誉为东方语料库建设的先驱。20世纪90年代中后期国内开始有学者提出把语料库应用到外语教学实践中（谢应光，1996；郭杰克，1997；何安平，2001）。如郭杰克（1997：5）指出：“语料库所提供的信息不仅为我们编写教学大纲、教学词表和教材提供了客观和可靠的依据，它还为我们进行外语教学提供了新的思路”。卫乃兴（2007b）在《John Sinclair的语言学遗产中》一文中也指出，Sinclair一直对语料库语言学与语言教学的结合秉持积极的立场和态度，并提出了学习者在学习过程中需要掌握的关键技能：①将话语切分为有意义成分的能力；②区分向心式结构与离心式结构的能力；③使用语言对语言认识、讨论、重组的能力；④释义的技能。这些观点的提出均是基于语言描述的研究成果，折射出语料库语言学理论的立场，既具挑战性也有可行性。濮建忠和卫乃兴（2000）在探讨词汇与语法的关系时指出，每个词汇都有其语法，词汇的意义和结构之间存在着极为密切的关系，从而主张从词汇出发，以词的核心用法为中心设计英语教学内容。这与Sinclair & Renouf（1988）提出的词汇大纲的思路和设想是一致的。他们认为英语教学的重点应放在语言中最常见的词形、其核心用法模式以及典型组合。这种设想的提出，无疑是对传统外语教学中词汇与语法处于相对独立状况的一个突破。2010年9月24—25日，首届广外英语语言学论坛在广东外语外贸大学成功举办，其间，举行了题为“语料库语言学与外语教学”的高层论坛，由桂诗春、冯志伟、杨惠中、何安平、卫乃兴、李文中、梁茂成等国内知名语料库语言学专家参加，就语料库语言学与外语教学等主题展开了互动讨论，专家发言内容刊登在《现代外语》2010年第4期上。如杨惠中先生在讨论中指出：“语料库语言学本身就是实践性、应用性很强的一门学科……外语教学证实语料库语言学的重要应用领域，语料库语言学以实际使用中的语言事实作为研究对象是一种着眼于语言语用的研究方式，因此跟语言教学有着直接的关系……语料库研究成果可以应用在教学大纲的设计中，为确定教学内容、制定教学目标提供坚实可靠的决策依据”（参见桂诗春、冯志伟和杨惠中等，2010：422）。

至于如何将语料库应用到实际的外语教学中，Sinclair提出师生可以直接进入语料库资源，通过观察词语索引和扩展语境，自我发现和归纳语言型式。教师也可以按照教学需求自建语料库，或对现有语料库资源进行深加工研究，应用到语料库辅助的语言教学中。根据我们的不完全统计，自2000年以来，CSSCI来源期刊发表的有关语料库和教学研究的文章多达千余篇，特别是从2009年开始，文章发表数量每年都保持在70余篇。话题涉及基于语料库的外语教学的理论基础以及各种应用性研究，如基于语料库的词汇、语法、语篇、翻译等外语教学模式。由于这方面的文章数目较大，我们拟以语料库应用于外语教学中的直接程度为线索，对相关文献进行梳理，总结特征，分析潜在问题和困难。

数据驱动学习（data-driven learning，简称DDL）是一种把语料库数据和检索技术直接应用于外语教学的方法。该方法由英国伯明翰大学的T. Johns教授（Johns，1991a）提出，其主要思想是引导学生基于语料库中大量真实语言数据，通过观察、描述、归纳语言使用现象，自我发现语言规律。在国内，李文中和濮建忠（2001）较早介绍了数据驱动学习的方法，探索了语料库索引技术在外语教学中的应用。他们提出了数据驱动学习的三种基本实现手段：其一是开发独立的DDL软件，把语料库索引行以及词汇练习一同打包；其二是与其他学习材料结合起来，针对语篇中词汇和搭配制作基于语料库索引的交互式练习，利用网络技术供远程课堂或局域网网络教室使用；其三是利用词语索引进行课堂实时演示，通过教师的参与和指导进行语言学习。甄凤超（2005a）也讨论了语料库数据驱动外语学习的思想、方法和技术。由卫乃兴、李文中和濮建忠等人承担的国家社会科学基金项目“语料库与多媒体技术在外语教学中的应用”（02BYY016）首次在国内实现了语料库资源的在线查询、检索和免费共享，实现了4个语料库的700多万词的文本资源KWIC网络在线转换和实时传送与共享，开发了数据驱动学习系统。以沈阳师范大学白志刚（2009）为核心的团队利用语料库和Wiki平台等手段，进行了对英语专业高年级自主学习模式的探索。有研究者对比数据驱动学习模式与传统外语教学模式，结果显示前者能有效提高学生词汇水平，并对培养学生自主学习能力和研究性思维有一定促进作用（俞燕明，2009）。显而易见，语料库数据驱动的外语学习和网络多媒体技术为外语教学提供了一条崭新的思路。另外，许多功能强大、操作简单的语料库检索软件的出现使得语料库技术更为方便地进入外语教学课堂。除了一些商业软件如Wordsmith Tools，Concordance之外，许多检索软件可以免费下载使用，如AntConc等。语料库数据驱动的外语学习强调大量自然语言数据的输入、真实语言学习环境的营造、自主学习能力的培养，而这些都是传统外语教学规约式课程和内省式数据所无法比拟的。但是，必须同时指出，DDL教学模式和实践仍处于探索阶段，加上目前国内外语教学条件的限制，语料库数据与技术在外语教学中的应用仍有漫长的路要走。

语料库间接应用于外语教学的一条重要途径，是外语教师对语料库资源，特别是学习者语料库进行深加工研究，用于诊断式外语教学。国内目前建成的具有一定规模的学习者语料库有CLEC，COLSEC，SWECCL和MSEE等。利用英语本族语语料库和学习者语料库，开展中介语对比研究，概括、描述学生中介语的使用特征并诊断其错误，对症下药，保证了教学的效果。

国内一批平行语料库的建设以及基于平行语料库的翻译研究成果，触发了大量的基于语料库的翻译教学研究。例如，王克非（2004）较早地介绍了双语平行语料库在翻译教学上的用途，主要体现在三个方面：①对某一检索词或短语提供丰富多样的双语对译样例；②为常用结构提供多种双语对译样例，供讲解和仿习；③提供丰富的可随机提取的一本多译作为对照参考。近些年，基于语料库的翻译教学研究呈现多学科交叉的趋势，如人工智能以及大数据挖掘技术在语料库翻译教学中的应用（王克非、刘鼎甲，2017；徐琦璐，2017），从认知语言学的视角谈语料库翻译研究及教学应用（如：郭高攀、廖华英，2016；胡开宝、李晓倩，2016）。

1.4　语料库语言学与二语习得研究

我国自20世纪90年代中后期开始建设学习者语料库，近年来发展迅速。到目前为止，已建成如下几个颇具规模的学习者语料库：

（1）CLEC是国家哲学社会科学“九五”规划项目，由广东外语外贸大学桂诗春教授和上海交通大学杨惠中教授主持建设，建库的目的就是为了对学习者的英语进行深入的研究，语料库光盘版已于2003年由上海外语教育出版社出版。CLEC收集了包括中学（St2）、大学英语4级（St3）和6级（St4）、英语专业低年级（St5）和高年级（St6）在内的5种学习者语料共100多万词，并对言语失误进行标注。

（2）COLSEC是国家哲学社会科学“九五”规划项目，由上海交通大学杨惠中教授主持，上海交通大学、洛阳解放军外国语学院、河南师范大学等高校的教师和研究人员参加。语料采自从2000年至2004年全国大学英语考试口语考试的实景音像资料，涵盖教师—学生型晤谈、学生—学生型自由讨论、教师—学生型讨论共三类题材的内容，较为全面地反映了中国大学生在英语交谈活动中的语音语调特征、词汇语法结构特征、话语结构特征与会话策略使用情况，全库总容量为723 299个形符。该语料库应当是我国国内第一个可与国际同类语料库比较的学习者英语口语语料库，为研究我国大学生的英语口语能力建造了较为坚实的数据资源。关于COLSEC语料库建设与研究的专著《中国学习者英语口语语料库建设与研究》（杨惠中、卫乃兴主编）已由上海外语教育出版社出版。

（3）SWECCL由国家“211工程”二期子项目中国学生英语口语语料库（简称SECCL）和教育部人文社科项目“中国大学生英语写作能力发展规律与特点”的数据库中国学生英语笔语语料库（简称WECCL）两个子项目组成，语料库的设计总规模为200万形符，其中SECCL口语子库和WECCL子库各为100万形符，项目由南京大学主持、与外语教学与研究出版社合作共同开发。SECCL语料收集了从1996年至2002年英语专业四级的口试录音资料。WECCL语料主要收集国内9所不同层次的高校英语专业的1—4年级学生的命题作文，文体为议论文，也有少量的记叙文和说明文。此外，两个语料库皆标注词性码。

（4）MSEE是1998年广东省高等学校电化教育“五个一百工程”的立项课题之一，由华南师范大学何安平教授主持。该语料库包括180万形符的英语教材语料（含初中、高中和大学英语课本教材），120余万形符的国内外英语课堂（大、中、小学）130节课的教学实况语料（配录音或录像）和150万形符的国内初、高中、大学学生英语口语和书面语语料。该语料库光盘版于2000年由广东教材音像出版社出版。

另外，还有一些研究者根据不同研究目的自建的学习者语言语料库，包括英语之外的其他语种的学习者语料库。

这些语料库的建成触发了一系列对中介语和二语习得的研究。其中，CLEC的应用最为广泛，据中国期刊网的不完全统计，基于CLEC的研究论文多达百余篇。研究多数通过对比学习者英语与本族语者英语，进行学习者英语特征分析和错误分析。研究话题涉及搭配、类联接、语义韵、句型、语篇、语体等特征描述，成果斐然，对二语习得研究以及英语教学研究具有重要的参考价值。到目前为止，COLSEC，SWECCL和MSEE的应用价值也日益彰显，相关研究成果也逐渐增多（罗颖，1999；冯友，2005；甄凤超，2005b；卫乃兴，2007a；王立非、文秋芳，2007；郑群，2011；杨江锋，2013；徐璐，2015）。与经典二语习得研究相比，语料库证据支持的中介语研究具有以下特点：

（1）采用自下而上的研究方法。自下而上，即从真实语言使用的数据出发，依赖语言数据的频数或者概率信息，通过提取（extraction）—观察（observation）—概括（generalization）—解释（interpretation）的研究过程，描述语言事实，抽象语言学理论。语料库证据支持的方法，与经典二语习得研究不同，不预设研究假设，不受太多的理论模型约束，所使用的数据也较之经典的二语习得研究惯用的内省数据和诱导数据（主要通过问卷调查、实验研究和个案追踪的方法获得）更加客观、真实和丰富。

（2）采用对比研究的方法。Granger（1998）提出的基于语料库的“中介语对比分析”（contrastive interlanguage analysis）是近年来兴起的二语习得研究的方法。该方法采用语料库研究的基本技术手段和方法，通过对比本族语与中介语、不同母语背景的中介语、相同母语但不同习得阶段的中介语在一系列维度上的相关数据，概括出学习者和本族语者的差异、中介语的模式和学习者行为趋势，发掘中介语的非本族语特征，并探索引起这些特征的背后原因（卫乃兴，2006a）。

需要指出的是，上述提及的多数学习者语料库从建成到现在，已有十余年时间，有的甚至超过了二十年，语料相对陈旧，不足以呈现目前我国学习者的语言特点。我们需要收集新的学习者语料，按照统一的建库标准，建设一批新的学习者语料库，一来可以与上一代语料库进行纵向比较，二来也可以从共时的角度，系统分析目前我国学习者的语言使用特征。

1.5　语料库语言学与翻译研究

基于语料库的翻译研究是近年发展起来的又一重要研究领域。英国学者M. Baker教授（1993）最早创设了“语料库翻译学”的研究范式，突破了传统翻译学重视原文本与翻译文本为对等的核心概念，打破了原作的主宰地位，摒弃内省法与规约法，基于大量的真实翻译文本语料，借助语料库分析技术手段，采用语内对比与语际对比相结合的模式，进行翻译描述，归纳并解释和探索翻译的本质（王克非、黄立波，2008）。在国内，廖七一（2000）较早介绍了语料库与翻译研究，重点介绍了与翻译有关的三类语料库，即平行语料库（parallel corpus）、多语语料库（multilingual corpus）和可比语料库（comparable corpus），及其对翻译教学、探索翻译规范与验证翻译理论家提出的翻译普遍性的积极意义。王克非和黄立波（2008）后来又提到了用于语料库翻译学研究的翻译语料库（translational corpus）。为了行文方便，本文采用平行语料库的说法。

相较其他类型语料库，平行语料库建设起步较晚，直到20世纪90年代初才开始，而国内的平行语料库的建设还要再晚些。在欧美，已建成的大规模的平行语料库有10多个，涉及10多个欧洲语种，较为著名的有最早建立的Hansard英法平行语料库、Johanson等人在挪威奥斯陆大学建立的英语—挪威语平行语料库等。在国内，业已建成的颇具规模的平行语料库有北京外国语大学中国外语教育研究中心的通用汉英对应语料库、北京大学汉语语言学研究中心的CCL汉英双语语料库、北京大学计算语言学研究所的BABEL汉英平行语料库、中国科学院计算技术研究所的汉英双语语料库、东北大学的英汉双语语料库、哈尔滨工业大学的英汉双语语料库等。这些语料库的建设主要是为了机器翻译研究的目的，但同时也触发了一系列相关的语言研究（如语言对比研究、翻译研究和双语词典编撰研究等）和教学研究。由燕山大学刘泽权带领的项目组主持建设《红楼梦》中英文平行语料库，收集了曹雪芹、高鹗120回原文文本、英国人乔利的前56回译本、英国汉学家霍克斯和闵福德的120回全译本以及我国杨宪益、戴乃迭夫妇的120回全译本（刘泽权、朱虹，2008）。该语料库的建成有助于对经典名著及其英文译本展开全面、系统、科学的研究（刘泽权、朱虹，2008；刘泽权、田璐，2009）。在上海交通大学，卫乃兴教授等人建设了汉英双向平行语料库，库容达1 000万词（字），包括四个子语料库：国际政治、科技、经贸和人文。该平行语料库突破传统平行语料库创建句对的对齐做法，通过人工匹配和计算机智能匹配相结合的办法，建立汉英对应意义单位数据库。另外，上海交通大学翻译研究团队这些年建设了一批平行语料库，如莎士比亚多译本平行语料库、汉英会议口译语料库、当代英汉／汉英法律平行语料库等，这些语料库建设已展现出良好的发展和应用前景。

如何在语言研究和教学研究中有效利用平行语料库始终是语料库语言学的一个核心问题。总的来讲，基于平行语料库的研究主要采用了经验论视角，依赖大量的真实语料，借助语料库统计手段，进行对语言的描述和概括以及对理论的抽象。就目前国内平行语料库的应用研究文献来看，该领域主要包括语言对比研究、翻译研究和翻译教学研究。Granger，Jacques & Stephanie（2005）指出，随着多语语料库（multilingual corpus）的建立，语言对比研究和翻译研究呈现合流趋势，主要是由于两者都使用相似或者相同的语料，在创建和使用语料库时也遇到和处理相似的问题。下面将简述国内基于语料库的翻译研究和翻译教学研究。

王克非和黄立波（2008）介绍了语料库翻译学的三个主要研究课题，即翻译语言共性特征研究、翻译文体研究和翻译转换过程研究。翻译共性特征研究又以显化讨论为主。柯飞（2003）通过考察大量语料，发现汉语翻译作品比原创的汉语作品使用更多的“把”字句，文学类作品比非文学类作品使用更多的“把”字句，这进一步证明了翻译文本的显化特征。黄立波（2008）借助双语平行语料库，考察了英汉翻译中人称代词主语在文学和非文学两种文类中的频数和转换类型，结果显示在英译汉过程中，人称代词主语语际转换表现出源语迁移的现象，语内类比显化突出。胡显耀和曾佳（2009）考察汉语翻译小说中定语的容量和结构，研究结果反映了翻译文本的语法“外显化”趋势。秦洪武和王克非（2009）基于汉英双向对应语料库描述和分析英译汉语言的词汇特征，并探讨了翻译共性中的显化和简化特征。胡开宝和朱一凡（2008）对莎剧《哈姆雷特》梁实秋译本和朱生豪译本中的显化进行定性和定量研究。但是值得指出的是，翻译共性还只是一种假设，需要更多的语料库证据证实。近些年来，语料库翻译学又呈现出明显的跨学科特点。例如，胡开宝（2015）在《基于语料库的莎士比亚戏剧汉译研究》一书中详细阐释了如何从跨学科的视角开展语料库翻译学研究。朱晓晓和王澜（2018）则将生态翻译与语料库翻译教学结合起来，以达到培养学生翻译认知能力的目的。总的来讲，语料库翻译学研究一改传统翻译研究凭经验和感受的做法，大量采用语料库方法，如统计类符／形符比、句子长度、词频、句型、搭配方式，通过检索软件观察语境，分析文本等值概率等，结论更为可靠。

如本章第3小节所述，平行语料库在翻译教学中的应用有着良好的发展前景。许多研究者对语料库翻译教学作了一些有益的尝试和探索，开拓了一种新的翻译教学模式，并提供了经验和启示。传统的翻译教学多以教师讲解为主，译文案例多数是通过内省法获得，因而缺乏真实性和典型性，学生对译文的语言特征、译者风格和翻译技巧等缺乏直观的感性认识，自主学习的积极性也不高。运用语料库，学生可以获得海量的真实语料以及重要的统计信息，进行各种语际和语内对比、观摩、描述和概括，掌握更为准确、地道的译文，提高翻译技巧和双语转换能力。

1.6　语料库语言学与普通语言研究

语料库语言学属于描写语言学范畴。语料库语言学的数据、方法乃至学科理念极大地改进和丰富了描写语言学的内容和方法，为普通语言研究和描述提供了一种全新的思路和研究范式。Sinclair（1991）认为语料库方法能够系统地审视大量文本语料，帮助研究者发掘一些以前不曾有机会发现的语言事实和规律。从方法论的角度看，语料库语言学最具区别性的特征是自下而上的基本研究方法（卫乃兴2009）。语料库语言学研究始于对数据的处理和观察，体现为提取—观察—概括—解释的研究程序。显而易见，这种方法本质上是归纳的研究方法。Halliday（1991）认为，语言系统具有一种内在的概率属性。对高频出现的语言形式、意义和功能的观察和描述通常能够揭示交际过程中最经常使用的结构以及最经常实现的意义和功能，发掘语言使用的核心和典型要素，这是凭内省法和诱导法所办不到的。

基于语料库的普通语言研究在国际、国内都取得了突飞猛进的发展。在国内，发展主要集中于词语搭配、类联接、语义韵和语篇研究等研究话题。首先是搭配（collocation）研究。自Firth于20世纪50年代提出搭配的概念之后，其界定体系与研究方法不断演变和发展，而语料库语言学的兴起，无疑使搭配研究发生了巨大的变化。在国内，较早介绍基于语料库的搭配研究的学者有汪榕培（2000），濮建忠（濮建忠、卫乃兴，2000）和卫乃兴（2001；2002a；2003）。卫乃兴（2002a）提出了语料库证据支持的词语搭配研究的两种基本方法：基于语料库数据的方法和数据驱动的方法，并介绍了一些具体的做法，如KWIC、计算搭配词、统计测量搭配力（Z值和MI值）、提取词丛等，这些都成为后来的研究者研究词语搭配所采用的经典方法。卫乃兴（2009）也指出，搭配词的统计测量方法仍有不尽人意之处，主要表现为给定节点词的显著搭配词数量会很多，包括了大量表达结构信息的功能词，且不易于发现搭配型式。王大亮等（2007）提出一个基于相对条件熵的搭配倾向统计模型，衡量中心词对上下文同现词的依赖程度。同时，加入语言学启发式规则，利用词性过滤器和滑动窗口的方法识别搭配边界，最终形成了在开放语料库环境下的搭配抽取方法。李晶洁和卫乃兴（2009）以一阶隐马尔可夫模型（1-order Hidden Markov Model）为出发点，进一步发展“假拟二元序列转化”（pseudo-bigram transformation）理论，将连续的多词序列转化为“假拟二元序列”，并使用概率均值增加权法（probability-weighted average），调整现有的互信息和熵统计手段，计算多词序列的内部黏着力，再采用频数阈值和“局部最大值”（local maxma）相结合的方法排除干扰序列，最终确定短语单位。苗永、汪宏和于洋（2009）探讨了关键词组鉴别的新方法——双向型高搭配力度ngram链。这种链式结构以搭配力度高者优先为延伸（生长）原则，可以向左右两个方向延伸（生长），对获得的ngrams消除冗余信息，可以得到一些结构比较规范的ngrams作为候选关键词组。这些方法对有效计算和提取搭配等短语单位无疑是有价值的尝试。李文中（2017）从搭配的界定入手，系统讨论了目前语料库搭配研究的各种测量手段及存在的难题，认为对搭配不同的定义方法，反映了不同学科和领域观察和分析搭配的视角差异，在分析搭配意义时，统计测量及自动处理无法取代研究者的判断和分析。近些年，研究者开始关注学习者的汉语母语对英语搭配的影响（如：魏兴、张文霞2017；张萍2017）。到目前为止，采用语料库方法进行的搭配研究多种多样，既有对本族语英语搭配的研究（王吉良，2008），也有对汉语搭配的研究，更涉及学习者语言搭配特征和错误的研究（娄宝翠，2004；邓耀臣、肖德法，2005；王海华、陈国华，2007；张文忠、杨士超，2009）。

其次是类联接（colligation）研究。类联接与词语搭配研究紧密相关，但又“不是与词语搭配平行的抽象，而是高一级的抽象”（卫乃兴，2002b：300），是“词语搭配发生于其中的语法结构和框架”（甄凤超，2005a：23）。Hunston & Francis（2000）基于语料库详细论述了型式语法（pattern grammar），为我们研究类联接提供了范式。濮建忠和卫乃兴（2000：5）论述了词汇与语法的关系，强调了英语的语法不是仅由语法词或功能词构成的，而是由英语的整个词汇共同组成，词汇与语法相互关联，相互渗透。词汇的结构（指类联接）与其表示的意义有着非常密切的联系，词所处的结构在很大程度上决定了其表达的意义。换言之，词汇的形式、结构和意义是一体的。汪榕培（2000）提到的英语词汇的语法搭配实际上指的就是类联接。特别值得指出的是，类联接绝非完全抽象的语法框架，而是以词语为核心的结构型式。类联接经常和词语搭配研究相结合（濮建忠，2003；孙海燕、陈永捷，2006）。

第三个是语义韵（semantic prosody）研究。语义韵的发现是语料库语言学取得的最为重要的研究成果之一。语义韵本质上是源于Firth语言学的，其名称也是通过类比Firth的“音韵”（prosody）而产生，指一定的词语会习惯性地吸引某一类与之具有相同语义特征的词语，而被感染上有关的语义特征，使得整个语境都弥漫了该语义氛围。Stubbs（1996：176）将语义韵大体分为三类，即积极（positive）、中性（neutral）和消极（negative）。在国内，纪玉华和吴建平（2000）较早介绍了语义韵研究的对象、方法和应用。其中就提到了用语料库检索软件，通过寻找某词语的搭配伙伴从而得出该词语的语义韵轮廓（profile of semantic）。卫乃兴（2002a，2002b，2006a）较为系统地介绍了语料库证据支持的语义韵研究的一般方法和概念，为以后国内同类研究提供了参照。主要的方法包括：①建立并参照类联接，用基于数据的方法研究；②计算节点词的搭配词，用数据驱动的方法研究；③用基于数据和数据驱动相结合的折中方法研究。

最后是语篇研究。到目前为止，国内有关语料库证据支持的语篇研究成果斐然。研究者借助语料库频数、分布等统计手段，调查词语搭配、句型结构、话语标记词、指示词等相关语言要素，发掘不同语体、语域、体裁的语篇在语言表现形式、文体风格、意义功能实现以及谋篇布局等方面的特点（孙莉、蔡金亭，2005；王立非、孙晓坤，2005；彭静，2008；史文霞，2008；刘泽权、田璐，2009；腾延江、李平，2012）。

1.7　语料库语言学与自然语言处理

计算语言学（computational linguistics）是横跨计算机和语言学的交叉学科，主要的研究内容是自然语言处理（natural language processing）。随着计算机和互联网的广泛应用，计算机可处理的自然语言语料数量空前增长，自然语言处理研究涉及了从海量的数据信息中进行文本挖掘、信息提取、跨语言信息处理、人机交互等，并且在词法分析、句法分析、机器翻译、信息提取和技术评测等方面取得了丰硕的成果。计算语言学与语料库语言学共享了一些计算技术，但是两个学科的方法论却有本质上的区别。冯志伟（2002）综述了中国语料库研究的历史和现状，重点介绍了汉语语料库的建设和发展。从研究成果来看，汉语语料库建设的重点是汉语的自然语言处理技术的探索，如切分技术、词性码的标注技术等。冯志伟（Feng，2007：174）认为，语料库语言学由于缺少一套被广泛接受的完善的理论框架，因此尚不可与计算语言学、社会语言学和心理语言学同日而语；他认为，就目前而言，语料库语言学基本上还是关注机读自然语言文本的采编、储存、语法标注、句法和语义信息的统计量化分析，另外还应用于自然语言处理，服务于词典编撰、书面语体分析、自然语言理解和机器翻译。显而易见，这里所说的语料库语言学实际上是指应用于计算语言学的语料库技术。就研究目的而言，语料库语言学的根本任务在于处理意义，而计算语言学旨在自然语言的信息处理（卫乃兴2009）。计算语言学者认为词汇的意义是固定不变的，其形态信息、句法信息和语义信息被详细载明于词库（lexicon）之中，服从于自上而下树形结构的选择，因此自然语言处理采用了形式主义语言学的理论框架和结构模式，借助词汇和结构分析句法和语义特征。但是，冯志伟（Feng，2007）也指出基于语法规则的方法在研究复杂多变的语言事实时具有很大的局限性。语料库语言学者则认为词汇的意义产生于动态的交际过程，词与词的共现和交互形成新的意义单位，脱离语境的词汇意义必然是模糊的和不确定的，词汇的形式结构、语义和功能是相互结合，密不可分的，只有将三者结合起来，才能准确地描述语言。语料库语言学者在分析意义时，依赖文本证据，自下而上，采用语内策略（language-internal strategy），最大限度地减少传统意义范畴及其对概念的干扰，解读意义。Sinclair也因此提出了根据“干净文本”的原则建设语料库。

1.8　结语

纵观语料库语言学在中国的成长与发展，可以预见，它必将在语言教学研究、二语习得研究、翻译研究、普通语言研究、话语分析研究、自然语言处理研究等领域持续地发展和前进。但是，宏观而言，短语学（phraseology）将持续成为语料库语言学的核心研究内容之一，从而影响到各个领域研究的态势和趋向。语料库驱动的短语学研究以数据为出发点，而非某种理论模式；采用自下而上的归纳式研究方法，依靠频数等量化信息界定短语序列；不仅涉及结构良好和成语性强的固定或半固定词语序列，而且涉及更为广泛的短语光谱内的词语现象。但是，语料库驱动的短语学研究需要参考和借鉴传统短语学提供的描述框架和相关概念。基于大量的语言材料，数据驱动的短语学研究有望修正传统短语学的许多论断。数据驱动的短语学研究的技术瓶颈是短语单位的计算和提取，该问题在前面已经讨论过，此处不予赘述。另外，历时语料库语言学研究的范式正在显现。自语料库语言学诞生以来，语言的共时研究取得了丰硕成果。在最近几年的研究中，一种历时研究的新范式逐渐兴起，该范式的主要创设人之一是Teubert（2004，2007a）。他采用历时研究范式深入探讨了话语意义的形成和演变，使得意义描述更为全面、系统，也更具解释力。那么，未来语料库语言学研究有可能形成共时研究与历时研究并存的局面。

基于语料库的批评话语分析研究也有良好的发展前景。批评话语分析（critical discourse analysis）最早由英国语言学家R. Fowler和Gunther Kress在1979年提出，是批评语言学（critical linguistics）的一个分支，旨在揭示语言形式与意识形态以及社会权势结构之间的相互关系。但是传统的批评话语分析存在一些问题：①数据的分析往往受到研究者先入之见的影响；②定性语言分析手段存在着弊端；③数据选取的任意性使得数据的代表性以及结论的可靠性遭到质疑。对此，Stubbs（1997）建议把语料库方法应用于批评话语分析中。语料库方法强调真实语言数据的频数概率特征，基于语料库的批评话语分析能够克服传统批评话语分析自上而下定性分析的瓶颈，对语言规律性特征的描述可以为解读命题背后的立场、态度和暗藏意义提供可靠的证据。可以期待，基于语料库的批评话语分析在国内外都将获得较快的发展。

特别值得提出的是，“中国语料库语言学研究会”于2009年4月正式成立，必然对中国语料库语言学研究、英语教学研究以及学术交流产生重大意义。

第1章 语料库语言学在中国的成长与发展

1.1 引言

1.2 国内语料库建设的三个主要阶段

1.3 语料库语言学研究和外语教学研究

1.4 语料库语言学与二语习得研究

1.5 语料库语言学与翻译研究

1.6 语料库语言学与普通语言研究

1.7 语料库语言学与自然语言处理

1.8 结语