在进行语料库的对齐工作前,须首先分别建立汉语原文和译文单语语料库,为下一步创建平行语料库打下基础。
建立单语语料库是建立平行语料库的前提,其工作量较大,涉及到文本的扫描、录入和多次校对。由于目前这四个译本未见电子文稿,只有纸质印刷文本,因此首先要将纸质印刷文本电子化,转化成计算机可以读取和编辑的文档,一般是使用扫描仪将文档扫描成图片后,利用OCR识别软件转化成可编辑的电子文档。对于英语文本,使用OmniPage专业版OCR软件,其正确率在95%以上,扫描转化后进行校对,校对时往往能够发现一些经常出现错误的字母或单词,如将Yu误认为Yit等等。可以利用软件PowerGREP的查找功能,在正则表达式状态下输入\bYit\b,这时所有被查对象就会高亮显示,确定错误后利用该软件的替换功能进行替换。总结规律,进行批量处理,可以提高工作效率。至于汉语文本,在网络上虽然可以找到电子版,但是往往存在各种各样的错误,笔者选择质量较好的两个网络文档,拷贝下来后,对着纸质文档进行逐字较对,期间还有增、删等编辑工作。事实上,经过这样反复校对后,往往还存在少许错误,在此后进行对齐工作时,仍然须留意语料是否有错误,一旦发现错误,立即改正,目的是将错误降到最少。
文本经校对整理后,按章节将文档存放,文本存储类型均为纯文本文档,中文和英文分别存放在Chinese和English两个文件夹下,Chinese文件夹下设两个文件夹,分别定义为CZH和CRM(分别代表原文分别是中华本和人民文学本);English文件夹下又设赛译、杰译、沙译、登译四个子文件夹,中文文本以CZH 001、CZH 002、…… CRM001、CRM002命名;英语文本分别以Sai001、Sai002……;J001、J002……;Sa001、Sa002……D001、D002、……文件名依序命名,其中英文代表译者姓名的简写,数字代表章回数。
平行语料库的建立须考虑原文与对应的译本。由于四译本的原文不尽相同,须分别建立四个平行语料库,分别是赛译原文和赛译、杰译原文和杰译、沙译原文和沙译及登译原文和登译。结合上面的原文选择方案,就是中华本的原文和赛译,人民文学本原文和分别对应的杰译、沙译和登译。此外,为了便于四个译文能够同时共现,利用对比分析,在上述四个平行语料库的基础上,建立1对4(即一原文对四译文)的平行语料库。上述五个平行语料库都是段落和句子两个层级上实现对齐。
在建立一对四的平行语料库过程中,结合汉、英语实际语料,赛译、杰译的楔子与沙译的第1回及登译的楔子和第1回对应,赛译、杰译的第n回与沙译、登译的n+1回对应(0<n ≦ 70),如此可完成原文与译文的对应关系。
创建平行语料库首先要进行汉、英语料间的段落对齐,这个工作全部由人工完成,以汉语原文的段落的起至为界限,分别标上<p >和</p >,然后据此对英语译文进行标注,对应的部分分别标上<p >和</p >,这样就完成了段落级对应,可以进行平行检索等相应的操作,但是,由于段落这个对应单位检索进来比较臃肿,需要的信息往往不能立即呈现出来,故需要句子对齐。
在实施句子对齐时,句子的界定是必须的。只有句子进行明确的界定后,进行对齐才能保证较高的信度和效度。在可能的范围内,切分句子单位越小,越能够精确地进行相关对比研究。学界普遍认为,句号、问号、感叹号和句尾的省略号是句子的天然标志,参考王克非(2004:46~53)的经验,结合《水浒》语料本身的特点和研究目的,在此将句号、问号、感叹号、句尾的省略号、分号以及后接直接引语的冒号或逗号作为划分汉英文本最小标注单位的依据,并在此基础上进行对齐。对齐采用软件辅助对齐结合人工校对的方法,对齐软件为Trados下的WinAlign程序(Trados是美国SDL公司研制的翻译软件,WinAlign是其下的一个功能模块,执行翻译文本间的对齐任务)。该程序支持文本文件和word文件。使用较为方便,在默认的情况下,能够较快地完成对齐任务,当然由于英汉语间的差异及其他各种原因,利用此软件完全自动且准确对齐是不可能的,尤其是有些汉语句子在英语中没有翻译时,必须需要人工干预,这时可以利用该软件的编辑功能,可以实现诸如句子切分、合并等功能,实现软件辅助下的人工准确对齐,然后可以将结果导出保存。下图就是以赛译的第一回对齐情况为例的一个截图。
图3.1 Trados WinAlign对齐界面
借助该软件可以完成句子的对应,在实际对应的过程中,四个译本都存在漏译、省译或删节现象,实际上是没有翻译,因为平行语料库建立的是句对齐型的,参照汉语原文语料,将未译的句子标注为:“This sentence was not translated.”(即该句未译)。进行句子对齐后,研究者可以利用平行语料库检索软件如CUC_ParaConc或ParaConc进行检索和相应的分析,但是由于一对一汉英平行语料库未能实现同时比较多种译文的研究需要及要求,确切地说不能同时完成比较多种译文的要求。如此,建立一本多译即一对多的汉英平行语料库就成为必须进行的步骤。
一对多平行语料库能够使原文和不同译文共现,为基于平行语料库的翻译研究奠定坚实的基础,但这是源于同一原文的不同翻译的假设基础之上。本研究当中,原文和译文均有不一致的情况出现,虽然它们的相同之处远远多于不同之处,如何实现一对多即一对四是一个比较麻烦和棘手的问题。经过摸索,决定采用“求同存异”的原则,即保持原文的差异的基础上进行原文与译文的对齐。下面以版本间差异较大的“还道村受三卷天书”、“宋公明遇九天玄女”一回中的句子为例:
中华本的原文:宋江抖道:“我今番走了死路,望神明庇佑则个!神明庇佑!神明庇佑!”
赛译:Then trembling,Sung Chiang said to himself,“This time I have gone into a blind alley and I pray the god to protect me.O God,protect memo God,protect me!”
人民文学本:宋江道:“我今番走了死路,望阴灵遮护则个!”
杰译:Song Jiang thought,“I am evidently in a tight corner,and must pray to the gods for protection.”
沙译:“I'm in a dead end,” Song Jiang thought.“Spirits of the Nether Region defend me!”
登译:“This time I have reached a dead end,” he thought to himself.“All I can do is pray for the protection of the spirits and the gods’compassion.”
根据“求同存异”的原则,同时保留中华本的原文和人民文学的原文,在中华本原文的前后分别标上“<1”和“>”的符号,其中“<”和“>”的连用表明限制完整的一个单位,是出于一个独立的原文的,符号“1”表示第一个译文的原文,即中华本,相对应的如果是人民文学的原文,则标上符号“2”,由于一般是非1即2的情况,另一个予以省略。在实际对齐过程中,出现不同原文情况时,都做相似的处理。
<1宋江抖道:“我今番走了死路,望神明庇佑则个!神明庇佑!神明庇佑!”>宋江道:“我今番走了死路,望阴灵遮护则个!”
赛译:Then trembling,Sung Chiang said to himself,“This time I have gone into a blind alley and I pray the god to protect me.O God,protect me,o God,protect me!”
杰译:Song Jiang thought,“I am evidently in a tight corner,and must pray to the gods for protection.”
沙译:“I'm in a dead end,” Song Jiang thought.“Spirits of the Nether Region defend me!”
登译:“This time I have reached a dead end,” he thought to himself.“All I can do is pray for the protection of the spirits and the gods’compassion.”
上述的对应结果如下表,在表3.1中,一个框表示一个对应单位。经这样处理后,既照顾到文本间的差异,又能够保持多文本间的平行关系。
表3.1 一对四样例
上述的对齐工作完全是人工进行的。在完成一对四后,将原文与四个译文分别保存,就建成一对四的《水浒传》汉英句对齐平行语料库,可进行译本间的对比研究。考虑到研究目的,还须对汉、英文本分别进行相应的标注。