语料库语言学以文本数据作为研究对象,通过计算机检索,并进行统计分析来揭示语言事实。Huston(2002:3)指出:“语料库本身不能做任何事情,只不过是存储了一些使用过的语言,而只有与语料库工具结合才可以对语料库进行重新排列并对语言现象进行研究。”本研究已经建立了汉、英单语语料库,汉英一对一平行语料库和汉英一对多平行语料库,对这些语料库加工和分析须借助于语料库加工和分析软件,现介绍本研究中使用的四个软件,它们分别是单语处理、分析软件MLCT,Wordsmith Tools及平行语料库检索和分析软件ParaConc,CUC_ParaConc。
MLCT全称Multi-Lingual Corpus Toolkit,由朴松林在英国兰卡斯特大学期间开发,是一款基于Java环境运行的语料库处理工具集(Piao et.,2002:207~230)。此软件经开发者升级,目前最新版本是2007版。该工具包可以实现诸如文本结构标注、批量替换、字符匹配、文本检索、编码转换、词频列表、词串列表、搭配词提取及统计功能。可以说,如能够熟练掌握使用此软件,可顺利完成从语料处理到语料检索多个过程的任务。此外,该软件支持并能够处理汉语各种编码语料,亦可处理繁体及big5汉语语料。其独有的左右两窗口界面在处理平行语料方面的优势自不待言。另外,MLCT能够批量处理语料,极大提高了工作效率。本研究中主要使用其批量替换功能和文本结构标注功能。后者包括对原始汉、英文本的段落、句子自动标注功能。
WordSmith Tools是由英国利物浦大学Mike Scott教授设计开发,由牛津大学出版社出版的单语语料库检索及分析工具,1996年1.0版问世,此后不断推出新版本,目前最新版本是6.0版。该软件是一款在Windows操作系统下运行的用来观测文字在文本中的表现的功能强大的综合软件包。它共包含Concord(语境共现检索工具)、WordList(词频列表检索工具)、KeyWords(关键词检索工具)、Data Converter(文本转换工具)、Text Converter(文本转换工具)、Viewer(文本浏览工具)、Aligner(对齐工具)、WebGetter(网络抓取工具)、WSConcgram(组合提取工具)等九个程序,其中前面三个程序是主要的文本检索工具,后面六个程序属于辅助性工具。这九个程序的各项设置由一个称做WordSmith Tools Controller(文字匠工具控制器)的程序来控制。本研究中主要使用其词频列表检索工具对英语语料进行研究,包括文本词频、词块、句子、主题词分析、主题语义域分析等统计功能。
ParaConc是由新西兰奥克兰大学应用语言学系教授Michael Barlow研发的一款用于双语及多语平行语料处理分析软件,可以对最多达4种不同语言的平行语料进行检索,利用其本身附带的统计分析功能,可以发现潜藏于文本深处的带有某种规律性的特征。目前常用的是Beta 269版,研发者目前已推出Unicode version ParaConc,这些版本均可实现包括平行文本的检索、排序、统计分析等功能。 本文主要运用该软件的平行检索功能及热词功能等。
CUC_ParaConc由中国传媒大学博士程南昌开发,此软件是一款免费共享绿色软件,最初问世于2011年,在windows系统下运行,该软件是基于Delphi环境开发的。最新版本是0.2版,它的最大特点是可以分析最多达9种不同语言的平行语料,这一点恰好弥补了ParaConc只能分析4种语料的不足,本研究中的一对四汉英平行语料库就包括5种文本,若想实现同时共现,ParaConc是不可能实现的,因为该软件最多只能处理四个文本,本文中所有涉及四个译本同时共现或对比时都使用该程序。该软件的最大优点是检索汉语时,可直接进行,不需要进行分词(字)等的预备工作;另一个优点是支持正则表达式检索且界面人性化,使用方便。此外,CUC_ParaConc处理文本的存储形式也呈现多样性。 下图是利用此软件检索“道:”这一结构得出的结果,其中每一对应单元的最小面是汉语原文,下面的1,2,3,4后分别是对应的赛译、杰译、沙译及登译。
图3.4 “道:”在一对四平行语料库中的检索结果
需要说明的是,除了上述软件之外,涉及推断统计数据时,使用了专用统计分析软件SPSS。此外,在提取一些语料或信息时,现存的软件不能满足某些具体要求,笔者自己编写了一些程序解决了此类问题,弥补了可供使用的软件的不足,在此不予详述。