基于以上的研究思路和研究目的,笔者开始进行研究。需要指出的是,此项研究的目的不是要为中国英语作为一种英语变体进行强烈的“声明”,毕竟几十万词次的语料库并不足以从各方面全方位地描述一种变体的语言学特征。在这里笔者只是想通过此研究来彰显中国英语语言变体中的一些重要趋势并且指出其与英语本族语者英语的一些差异。
考虑到学术文章不同学科的语言特点,研究选取文科类中的法学和新闻传播学,理工类中的生物学和计算机科学,另选兼具文理特征的跨学科专业计算语言学建立五个分类子语料库,每库分别选取中国作者学术论文英文摘要和英语国家作者的学术论文英文摘要各200篇,五个子库总语料规模为2000个文本。
首先,建立一个英文文摘对比语料库AAC(Academic Abstracts Corpus),并注明摘要出处。比伯(Biber,1993)曾经强调指出合适的语料样本远比语料规模更重要。在选取语料时,中国作者的英文摘要全部选自各专业所认定的国内核心期刊(CSSCI)或是具有国际影响的会议期刊(如国际计算语言学协会ACL的会议论文),而英语国家作者的英文摘要也选自各专业的核心期刊(所选取的各专业期刊名录详见附录1)。
在收集语料的过程中,由于所有中国作者的英文摘要(Chinese Abstracts)均来自于CNKI 2001年以来的各专业核心期刊论文,所以从姓名可以判断作者中国人身份;在判断另外1000篇英文摘要(English Abstracts)的作者是否是英语本族语者时,主要依据以下几方面:
(1)考察作者的通讯地址是否在英语国家(美国、英国、加拿大、澳大利亚、新西兰);
(2)考察作者姓名是否有明显的其他国家和民族的特征;
(3)考察作者名是否是典型的英语国家人的名字。(排除典型非英语国家人名,如以下姓名:Werner Schneider,Magdalena Zoeppritz,Fernando Pereira,Julieta Fernandez,Randall J. Calistri-Yeh,Lee-Feng Chien,James Huang,Pin Ng,Bonnie J. Dorr,Jye-hoon Lee,Dekang Lin,Sungki Suh,Megumi Kameyama,Hang Li,Naoki Abe,Jorg Tiedemann,Cem Bozsahin,Sabine Schulte Walde,Samir S. Patel,Afra Alishahi等)。
如果通过上述标准仍然难以判断,则放弃此篇语料。各子库的400篇英文摘要的原始语料均保留头信息,包括文章题目、作者信息、文章来源和发表时间等。
原始语料经过用C # 语言在Visual Studio 2008环境下编写的去头信息程序过滤后,形成仅保留文摘内容的文本;运用提取统计检索工具AntConc和语料处理软件HC-YLCL对每篇文本进行词频统计、句子切分和关键词检索。
在分析语料时,运用以词丛(word cluster)的复现频率为主要依据的统计方法,通过软件在语料库中利用关键词提取不同长度的词丛,并通过对比词丛表筛选出语料库中独特的词丛群。所谓词丛,即在文本中以固定的组合关系(或位置)重复出现的两个或两个以上的词形。词丛现象体现了语言运用的预制性、惯例性及模块化特征(李文中,2007)。通过应用语言学的研究发现:一方面,由于多词词丛的预制性和重复性,在语言运用中有效使用多词词丛会显得更地道,也就是说,对词丛的研究有助于有效地发现语言变体的典型特征;另一方面,虽然语言变体中的词汇也能体现其特征,而且已有学者通过研究认为各种英语变体主要区别在于能体现各自特色的词汇。词语的选择固然重要,但词语像人类一样也会聚群,所以更重要的应该是如何运用它们、组合它们,以及用它们如何交流和传递信息。而词丛正是介于篇章和词语之间的一个重要单位,也是意义单位的重要载体,是体现英语在各国本土化的一个重要参数。
具体来说,利用语料处理软件分别用每个专业的中国学术论文英文摘要语料库(Academic Abstracts Corpus_Chinese,AACC)和英语本族语者学术论文英文摘要语料库(Academic Abstracts Corpus_English,AACE)生成多个对应的n词词丛(2≤n≤15)。在语料处理时,计算每一词丛的复现频率,并计算词丛的分布信息。利用Wordlist功能生成索引文件,并利用该文件再生成所需的各种长度的词丛表。然后要将两个语料库的各个n词词丛表进行对比,以获得两种英语变体的语言特征(包括典型词、短语、类连接和句法结构)。
本研究对词丛长度最大值设定为15词,这是因为统计语言学把语言交际的过程看成是一个随机过程。在随机试验中,考虑各语言成分出现概率不互相独立,每一个随机试验的个别结局依赖于它前面的随机试验的结局,这种链就是马尔可夫链(Markov chain)。考虑前边n个语言成分对后面语言成分出现概率的影响,能够得到n重马尔可夫链。随着马尔可夫链重数的增大,每个重数大的语言成分的链都更接近于有意义的自然文本。马尔可夫链的重数极限就是在语法上正确的自然语言文本。有人通过实例说明为了反映这种相关性,至少需要15重马尔可夫链,而且在很多情况下,重数还要更大。我们不妨考虑把能对后面语言成分产生影响的15个词的词丛作为最大词丛长度,也许我们会发现这样长度的词丛在拥有成千上万个词的大规模语料库中复现频率很低,这里我们还需要更多的统计论证,由少到多地考查词丛复现频率较高的词丛长度。
在研究中,还要通过计算和对比两个词表中每个词丛的频数和百分比,以得到该词丛的“关键值”(keyness),并应用对数或然性检验(Log Likelihood Test)标出对数显著水平p值。通过这种方法获得的词丛,可被看作各专业学术文摘中独特的词丛,把它们输入数据库,以便作进一步的分析和计算。
最后,还要用已获得的典型词丛,在语料库中作语料库索引分析,以观察其实际应用,并进行分类和评价。