购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.4 语料库与翻译技术研发

翻译是从一种语言转换成另一种语言的活动,目的是求得原语与译入语最大限度的对等对应,人工翻译和机器翻译都是如此。机器翻译是按照指定的程序让计算机进行自动化的对比操作,从而自动产生译文(王挺等,1996:52-55)。但由于机器翻译技术研发遇到各种困难,全自动、高质量的自动翻译系统一直未能实现。目前,机器翻译包含在翻译技术(translation technology)这个更广义的概念里。

翻译技术包括机器翻译技术、计算机辅助翻译技术以及其他各种能够在翻译过程中给译者提供帮助的技术手段(Chan,2004:139)。对于机器翻译的研究和开发而言,早期的基于句法/规则、基于概率、基于知识、基于转换等方法,经过几十年的实践均未能产生令人满意的自动译文。从20世纪80年代开始,随着计算机辅助翻译概念的普及和翻译记忆(translation memory)处理技术的快速发展,研究者发现,基于统计以及基于例句/语料的途径可以使翻译系统生成的译文更加可靠,令后期编辑和处理的工作量大幅减少。而翻译记忆库就是双语或多语的平行语料库,该技术能够在翻译过程中通过检索、匹配等手段,给译者提供产出译文的提示,这些提示可以是术语、短语、短句或整句。因此,语料库,尤其是双语/多语平行语料库在翻译技术研发领域也有了用武之地。

为此目的建立和使用的语料库一般需要标注,标注主要还是语言学意义上的,目前尚处于比较基础的层面,如语音、词汇、句法等层面。

1993年,W.J.Hutchins在第四届机器翻译高峰会议(MT Summit IV)上指出,自1989年以来,机器翻译的发展进入了一个新纪元。这个新纪元的重要标志是,在基于规则的技术中引入了语料库方法,其中包括统计方法,基于实例的方法,通过语料加工手段使语料库转化为语言知识库的方法(冯志伟,2010:28-35)。目前,主流的翻译技术就是基于双语/多语平行语料的翻译记忆数据库。

同年,杨惠中发表了“语料库语言学与机器翻译”一文,表明中国的语料库翻译研究与国外几乎同步。根据杨梅、白楠(2010:46-50)的考察,过去20年来语料库在机器翻译中的应用研究主要有三类,即语料库在机器翻译中的应用;利用语料库设计机器翻译系统或翻译数据库,通过自建语料库设计专门用于英语词典翻译出版的动态机器翻译系统或机器辅助翻译系统等;利用语料库消除词的歧义来选择译文或获取等价的翻译单位等机器翻译中的一些具体问题。

基于语料库的机器翻译方法大致有基于统计和基于实例两种,它们都使用语料库作为译文的来源。在基于统计的机器翻译方法中,知识的表示是统计数据,而不是语料库本身;翻译知识的获取在翻译之前完成,翻译的过程中不再使用语料库;而在基于实例的机器翻译方法中,双语语料库本身就是翻译知识的一种表现形式,翻译知识的获取在翻译之前没有全部完成,在翻译的过程中还要查询并利用语料库(冯志伟,2010:28-35)。 YSZPajpmYCBiLyIHpfk9oraU/DLG//dIRpGhCxxJ5RsAdz+xqzSRmje/m8/MwEG0

点击中间区域
呼出菜单
上一章
目录
下一章
×

打开