购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

四、本书所使用的语料库简介

本书中用于对比的语料库包括翻译语料库(TEC),平衡语料库FLOB及BNC语料库的文学部分,即BNC-FIC。下面对这些语料库的相关信息及构成做简单的介绍。

(一)TEC语料库

在英国科学院的资助下,曼彻斯特大学翻译与跨文化研究中心(CTIS)创建了目前世界上最大的英语译文电子数据库——“英语译文语料库”(TEC) ,该语料库计划收录有约5千万词的英语译文语料,是翻译工作者与研究者的重要电子资源。TEC是翻译英语语料库,也是世界上首个此种类型的语料库,由Mona Baker教授负责建造和管理。

Baker教授在1995年首次提出TEC的基本框架结构。Baker(1996:175~186)最先提出论断:只有使用可比语料库(comparable corp us),通过比较译文文本与非译文文本才能抓住译文自身的这些显著特征。在Baker教授提出使用翻译语料库和非译文的可比语料库研究翻译的观点之后,她和Sara Laviosa一起开始设计和编写翻译英语语料库(Translational English Corp us,简称为TEC)。

TEC由世界上一些语种的公开发行出版物未加删改译成英语的文本组成,译文的源语包括法语、德语、西班牙语(包括西班牙的国语、南美洲和中美洲的西班牙语)、葡萄牙语(包括葡萄牙本国和巴西的葡萄牙语)、意大利语、威尔士语、波兰语、阿拉伯语、汉语、希伯来语、泰语和泰米尔语等。文本范畴有四种:传记、小说、报纸和飞机上的休闲杂志(in-flight magazines) 。其中80%以上是小说,小说和飞机上的休闲杂志这两者的内容约占95%。小说部分有81个文本。至今为止,其库容为1000万词次,其中小说约500万词次。一旦获得其他的文本版权许可,扫描、编辑和简单的标注之后就可继续增加新的翻译文本(见Olohan,2004:60)。TEC文本译者都是以英语为母语的人,译者中男女都有,而且多数文本都是1983年以后翻译的,代表了当代英语译文的一般特征(见陈伟,2009:101)

为了能进行深层次的译文特征研究,TEC的建设者们对它进行了标注,标注有两种形式:文本标注和元数据标注。对于翻译文本,TEC只是做了简单标注,其目的是确保翻译文本自身的整体性(integrity),对于编辑提示和前言等非翻译部分(non-translated material),尽管也作了标注,但在数据库索引程序中,对于这种与译文本身的相关信息他们作了特殊处理,因此它们被隐含起来,不会在索引词条或词频表中出现。出于研究的需要,TEC的元数据(metadata)详细记录了翻译文本的以下超语言特征(extra-linguistic features):译者的姓名、性别、国籍、职业、翻译的方向、译文的源语、出版社/商名、文本的范畴和字数、原文作者姓名、性别、国籍、地点和年代等。这些是以独立的文本附加信息(header file)形式标注的,采用XML标码,与目前世界上通行的TEI或元数据标码(metadata scheme)等标注法则不一致,这些标注支持以下一些方面的翻译研究,如比较实词/虚词比率(lexical density)、类符/形符比率(type/tokenratio)、句长、词语搭配规律、具体词语在男女不同译者译文中的使用频率,同一分库中译自不同源语的译文差异和具体译者的翻译特点等(见Luz& Baker,2000)。此处两图分别是对TEC中源语为中文的英译小说设置及“China”一词的检索的情况。

图3.2 TEC源语为中文的英译小说设置

图3.3 TEC源语为中文的英译小说中“China”一词的检索

(二)FLOB语料库

FLOB语料库全称是Freiburg Lancaster-Oslo/Bergen British English Corpus,由德国Freiburg大学语言研究者从1991年开始到1996结束,历时5年编制而成,1999年对外发行。同LOB语料库一样,同属Brown家族语料库,即第一代语料库,库容为100万词次,分成15类,包括500个样本,每个样本2000词次,总体上是一个书面语平衡语料库,可用于语料库对比研究中,并且往往作为参照语料库。与LOB语料库不同的是,FLOB语料库反映了上世纪90年代英国英语的概貌,而前者则反映了上世纪60年代英国英语的概貌。下表是FLOB的构成情况(见黄昌宁、李涓子,2002:51~52;桂诗春,2009:21)。

表3.3 FLOB语料库的结构

续表

需要指出的是,本研究已经利用语义标注软件Wmatrix对该语料库进行语义标注,可与对应的语料库进行对比,用以揭示词汇、语义层次的异同,以反映不同译本的翻译特征。

(三)BNC-FIC

BNC系British National Corpus(英国国家语料库)的简写,是由英国牛津大学出版社、朗文出版公司、钱伯斯-哈洛普出版公司、牛津大学计算机服务中心、兰卡斯特大学英语计算机研究中心以及大英图书馆等联合开发建立的大型语料库,1991年由Lou Burnard和G.Leech等人主持建设,1994年完成。2001年推出BNC World Edition,2007年升级为XML Edition。该语料库语料来源广泛,书面语与口语并用,光盘版词次超过一亿,其中书面语9千万词,口语1千万词。整个文本反映的是英国英语的概貌,是一典型的平衡语料库。整个语料库包括4,054篇取样,占1,508,392字节,书面语语料库文本分信息性文本和创作性文本两种。其中信息性文本约占该语料库的75%;创作性文本约占25%。信息性文本从主题范围、文本类型和层次三个方面又规定了各种材料所占的百分比(见李赛红,2002:308~309)。其中,英国国家语料库的小说部分属于想象类文本中的一部分,样本容量为4万词,共有4947688词次,63652个类符。(Olohan:2004:109)在一般研究中,此子库可用做类比语料库,用于同类语料库的比较。 dOXBNIVYiU+LXWBvOMntEydfkpQ0mQe1o0eZsVQVTp7ivvV5CYOKhQMD8xZ0MpQu

点击中间区域
呼出菜单
上一章
目录
下一章
×