购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.4 语料库与翻译技术研发

翻译是从一种语言转换成另一种语言的活动,目的是求得原语与译入语最大限度的对等对应,人工翻译和机器翻译都是如此。机器翻译是按照指定的程序让计算机进行自动化的对比操作,从而自动产生译文(王挺等,1996:52-55)。但由于机器翻译技术研发遇到各种困难,全自动、高质量的自动翻译系统一直未能实现。目前,机器翻译包含在翻译技术(translation technology)这个更广义的概念里。

翻译技术包括机器翻译技术、计算机辅助翻译技术以及其他各种能够在翻译过程中给译者提供帮助的技术手段(Chan,2004:139)。对于机器翻译的研究和开发而言,早期的基于句法/规则、基于概率、基于知识、基于转换等方法,经过几十年的实践均未能产生令人满意的自动译文。从20世纪80年代开始,随着计算机辅助翻译概念的普及和翻译记忆(translation memory)处理技术的快速发展,研究者发现,基于统计以及基于例句/语料的途径可以使翻译系统生成的译文更加可靠,令后期编辑和处理的工作量大幅减少。而翻译记忆库就是双语或多语的平行语料库,该技术能够在翻译过程中通过检索、匹配等手段,给译者提供产出译文的提示,这些提示可以是术语、短语、短句或整句。因此,语料库,尤其是双语/多语平行语料库在翻译技术研发领域也有了用武之地。

为此目的建立和使用的语料库一般需要标注,标注主要还是语言学意义上的,目前尚处于比较基础的层面,如语音、词汇、句法等层面。

1993年,W.J.Hutchins在第四届机器翻译高峰会议(MT Summit IV)上指出,自1989年以来,机器翻译的发展进入了一个新纪元。这个新纪元的重要标志是,在基于规则的技术中引入了语料库方法,其中包括统计方法,基于实例的方法,通过语料加工手段使语料库转化为语言知识库的方法(冯志伟,2010:28-35)。目前,主流的翻译技术就是基于双语/多语平行语料的翻译记忆数据库。

同年,杨惠中发表了“语料库语言学与机器翻译”一文,表明中国的语料库翻译研究与国外几乎同步。根据杨梅、白楠(2010:46-50)的考察,过去20年来语料库在机器翻译中的应用研究主要有三类,即语料库在机器翻译中的应用;利用语料库设计机器翻译系统或翻译数据库,通过自建语料库设计专门用于英语词典翻译出版的动态机器翻译系统或机器辅助翻译系统等;利用语料库消除词的歧义来选择译文或获取等价的翻译单位等机器翻译中的一些具体问题。

基于语料库的机器翻译方法大致有基于统计和基于实例两种,它们都使用语料库作为译文的来源。在基于统计的机器翻译方法中,知识的表示是统计数据,而不是语料库本身;翻译知识的获取在翻译之前完成,翻译的过程中不再使用语料库;而在基于实例的机器翻译方法中,双语语料库本身就是翻译知识的一种表现形式,翻译知识的获取在翻译之前没有全部完成,在翻译的过程中还要查询并利用语料库(冯志伟,2010:28-35)。 L0SbWaGo7uVVodJugBdA6KMLZmZmMKEMisaQA/hBmyTNimA9KruXqgTTX4LG8qax



2.5 共性与个性

“语料库语言学已经成为语言研究的主流。基于语料库的研究不再是计算机专家的独有领域,它正在对语言研究的许多领域产生愈来愈大的影响。”这是1996年Jenny Thomas等人在 Using Corpora for Language Research Studies in Honour of Geoffrey Leech 一书中的开场白。(黄昌宁,2002:1)

Granger(2003:17-29)也曾指出,语料库方法尤其适用于对比语言研究和翻译研究。现在,随着语料库尤其是多语语料库的创建和应用,对比研究、翻译研究、翻译技术研发之间的关系日益密切。它们的共同之处在于都是处理两种或两种以上的语言。无论在理论层面或应用层面,它们都指向两种或多种语言之间的异同问题,甚至可以说,都是专门处理语言异同问题的学科,主要表现为三者都使用相似或相同的双语或多语语料库从事研究或开发,语料创建和使用时也遇到和处理大致相似的问题。

比如,大多数语料库翻译研究与对比研究关系密切,集中研究译文与原文的词法和句法的特征差异,如译文所体现出的明晰化、简略化、标准化等普遍性特点。有代表性的研究(参见陈伟,2007:67-73)涉及了类比构词现象、名词化现象、词语多样性、词频分析、类型/标记比、平均句长和叙事结构特点、搭配规律和语义韵、男女译者的风格差异、语义场和文化信息差异等。这些统计数据不仅能帮助定量分析,也给定性研究者分析社会、文化、意识形态等背后的因素时,带来诸多惊喜。

在翻译技术的研发方面,基于语料库的翻译系统具有明显优势,它结合最新的人工智能技术,可以实现翻译质量、数量和速度的大幅度提高。但是,由于尚有理论问题和技术难题未能解决,也缺乏综合性人才,比较理想的基于语料库的成熟翻译系统在短期之内恐难以实现(李亮,2004:59-62)。

近年来,三者在对语料库使用和借鉴时所体现出来的共性尤为突出,这些语料库的类型有双语、多语、平行或类比(可比)。一方面,在机器翻译中,平行语料库所搜集的数据能为翻译模式提供训练材料,也能为计算语言学的相关问题提供数据,如多语语法推理、自动词典生成等。另一方面,翻译研究的学者利用语料来对翻译过程进行实证研究,包括翻译策略或翻译文本的特定属性。对职业译者而言,多语语料库给译者提供参考性资料,帮助译者快速找到所需信息。而语料库在对比研究中,可以为研究设想及发现提供实证数据,同时还能发现之前未被关注的跨语言差异。

由此可见,它们有着共同的基础和性质,有互补作用,最终目的都是为了跨文化和跨语言的交际,如果能将三者结合得更为紧密,互动性更强,将有可能帮助翻译技术研发突破目前的瓶颈,即语义理解和确定翻译对等单位等方面的问题,促进技术工具的进一步改善。

但不容置疑,对比研究、翻译研究和翻译技术研发又有各自独特之处,尤其在使用语料库作为研究方法方面,三个领域之间的交流还是较少。例如,对比研究和翻译技术研发都使用平行语料库,但翻译方向、翻译属性、翻译策略这些因素都没有加以考虑。尤其是翻译关键技术的研发,基本不考虑文本类型或者语域因素(巢文涵,2008)。另一方面,对比语言研究和翻译研究中,通常只使用多语语料库最基本的标注加工和查询功能,不太重视这些功能对翻译技术研发的潜在价值。因此,三者之间又有一定程度的疏离。 zaSRhgfFDNI0Sy9gX4jMprGbFqBrNg1L0znOpNkV/4DmrjYTVUfbDrgcvSe25Fya



2.6 研究前景

通过上述对语料库在三个领域中应用的简要说明,可以看出语料库方法为相关研究提供了数据来源、方法问题、分析工具、分析步骤等,对提高研究结论的可靠性和客观性都有巨大的作用。

对于语料库及语料库语言学的前景,特别是在21世纪的发展方向,Svartvik(1992)预测,计算机将运行得更快,体积更小,价格更低;语料库规模将更大,质量更好,利用率更高。McEnery(1996)认为语料库语言学今后的发展将主要受语料库规模、类型、国际关注和计算机发展等四方面因素的影响。而丁信善(1998:5-13)则更为具体,他认为,语料库语言学的发展方向将主要体现在三个方面:基础语料库发展更加充分,包括各种介质的语料库(口语、书面、多媒体视听资料);语料标注将超越目前的基本层次(语音、词汇、句法等),会出现立体式标注(含语义和语用);语料分析工具的功能将会更加复杂和全面,以满足各种研究的具体需要。

尽管语料库仍然在研究方法、研究广度和深度等方面有一定局限性(胡开宝,2011),但上述各领域内已有越来越多的研究者意识到语料库的优势和价值,在自己的研究领域(如心理语言学、社会语言学等)中不断使用各种类型的语料库来丰富研究手段,进行“三角验证”(梁茂成,2012:323-335)。这种实证研究的推广和趋势的持续将会使基于语料库的研究成为语言及其相关研究的主流范式。

梳理语料库及语料库语言学的发展,可以发现目前语料库研究在类型、应用范围、本体论和相关软件等方面发生了显著变化(秦洪武、王克非,2006:75-78;何中清、彭宣维,2011:6-10;胡显耀、曾佳,2011;彭宣维、杨晓军、何中清,2012:3-10)。近30年来,语料库和语料库语言学飞速发展。未来的语料库语言学将更多地以温和的经验主义和实证主义为指导(梁茂成,2012:323-335),为各种相关研究提供方法。按照目前的发展态势,可以预见,语料库容量将会更大,类型将更加多样化,语料库方法将会与其他语言相关的理论研究、应用(教学)研究和技术开发进一步融合,出现更多、更激动人心的发现和应用。

本书将在以下的章节中,重点探讨语料库在汉英科技论文摘要翻译中的研究与应用。 zaSRhgfFDNI0Sy9gX4jMprGbFqBrNg1L0znOpNkV/4DmrjYTVUfbDrgcvSe25Fya

点击中间区域
呼出菜单
上一章
目录
下一章
×