语料库(corpus)指语言数据的集合,而语料库语言学(corpus linguistics)以语料库为基础对真实文本中的语言进行观察和分析,结合自然语言中的一些抽象规则,探讨某种语言及双语或多语之间的关系,并根据真实发生的语言现象得出比较可靠的分析结果。顾曰国(2003)认为语料库语言学的研究有两层主要含义:一是利用语料库对语言的某个方面进行研究,即它并不是一个新学科的名称,而仅仅反映了一个新的研究手段。二是依据语料库所反映出来的语言事实对现行语言学理论进行批判,提出新的观点或理论。前者正是本文的关注之处。
在20世纪30年代现代计算机出现之前,语料库研究通常为手工完成。计算机的出现使得大规模自动化处理语言成为可能。至于是否对语料进行标注,则可以根据研究目的分别对待。比如,Sinclair(1992)认为无须对语料进行过多处理,因为文本本身就能说明问题,但Wallis(2007)却提倡标注,认为这样可以提高语言理解和处理的质量。后者的观点基于以Quirk(1960:40-61)为首进行的英语用法调查(Survey of English Usage),这项调查是欧洲范围内进行的第一次有关语料的研究。
现代语料库发展历史并不长。1959年,Quirk在伦敦大学着手英语用法调查,收集大量风格、题材各异的语料,作为对英国英语的口语和书面语进行系统描写的基础。大洋彼岸的美国,以Francis和Kuˇcera为首的一批语言学家和计算机专家聚集在布朗大学,于1961年建成了当代最早的机读语料库——布朗语料库(Brown Corpus)。英国美国的这两个库的建立可以说是现代语料库语言学及其研究的开端。
经历了第一代计算机处理的语料库和第二代电子计算机处理的语料库两个发展阶段后(王建新,1998:53-59),进入20世纪80年代,现代科技的迅猛发展促使语料库及语料库语言学也进入快速发展期,各国、各语种语料库的库容动辄以百万字词甚至千万字词为计。根据建库目的和功能,语料库的分类多种多样,如单语/双语/多语语料库、双语/多语平行(或类比)语料库、书面文本语料库、口语语料库、历时语料库、共时语料库、动态语料库、静态语料库、各种文体/专业领域的语料库,等等。
在中国,1986年,上海交通大学建成了交通大学科技英语语料库(JDEST)。经过30多年的发展,我国语料库建设获得了长足进步,建成了一批可与国际同类语料库相比的专门语料库(如JDEST)、学习者口笔语语料库(如文秋芳,王立非,梁茂成,2009),以及数量众多的各种平行语料库。
事实上,语言学的各个领域几乎都可以从语言使用的角度进行研究,语料库数据正是所使用语言的样本,它所提供的海量语料使研究者能够系统地对大量的文本语料进行审视,从而有可能发现一些以前从未发现的语言事实(Sinclair,1991)。因此,语料库作为研究手段可用于语言学研究的诸多领域,如词汇学、语法学、语言教学、文体学、对比语言学、翻译等。目前,语料库语言学的研究话题已经从词汇、语法和词典学扩展到语言教学、二语习得、翻译、自然语言处理、话语分析、认知语言,乃至抽象的理论语言学问题探索等广泛的领域(甄凤超,2010:36-41)。这些研究成果,根据所基于的语料库,可以分为单语研究、双语/多语对比研究、翻译研究、机器翻译研究、教学研究等多个类别。
作为一种研究方法,语料库在对比研究、翻译研究和翻译技术研发这三个与其显著相关的领域得到了尤为突出的使用,本文将简要介绍这些应用,分析它们在应用时所体现的共性和个性,并对其未来走势做一展望。