基于新闻翻译文本和叙事文翻译文本词汇特征的研究,Laviosa(1998:557~570)提出翻译文本的词语核心使用模式:(1)实义词相对于语法功能词的比例较低(即词汇密度较小);(2)高频词相对于低频词的比例较低;(3)词表表头词覆盖语料库的范围较大;(4)表头词包含的词目较少。并据此概括出翻译文本“简化”特征;Xiao(2010:5~35)调查了汉语译文语料库与汉语母语料库的词汇使用情况,发现英语译文的主要词汇特征也适用于汉语译文。下面以上述研究为基础,从词汇密度、频率参数、类符/形符比及平均句长四个方面考察赛译、杰译、沙译及登译词汇使用特征。
在物理学中,把某种物质单位体积的质量叫做这种物质的密度。将此概念引入到文本分析,可对文本的词汇进行量的研究,形成词汇密度,顾名思义,就是实义词的稀疏程度。测量词汇密度的方法有多种,最常用的是Stubbs(1986:17)的方法,他将词汇密度定义为实词形符在总形符的比例,并用之来衡量语篇的信息量。这种方法正是Laviosa(1998)所使用的。由于此前译文已经用词性附码软件CLAWS 4.0进行词性标注过,所以不同词性的频率较易获取,计算词汇密度,只要将译文中的所有实义词,即名词、实义动词、形容词及副词频率相加,然后除以形符总数即可,结果见下表:
表4.5 四译文词汇密度
①由于赛氏在译人名和地名时采用威妥玛系统,所以将林冲译成“Ling Ch.ung”,Wordsmith Tools 4.0在默认的情况下,将“Ch.ung”认为二个词,这样就出现问题,笔者根据情况将诸如此种情况下的词一律做一词处理。
据上表可发现沙译的词汇密度最高,达54.3,其次分别为登译、杰译和赛译。四者都超过50。Laviosa(1998)对英语译语和原语语料的研究结果是:译语的词汇密度为52.87,原语的词汇密度为54.95。由此可见,两译文的词汇密度都低于Laviosa的研究得出的译语词汇密度值,显然两译文作为翻译语言的特征都较为明显。由于词汇密度是衡量文本信息量大小的一个标准,故可以粗略判断沙译相对于另外三个译文信息量最大,而赛译信息量最小。
频率参数的考察主要是研究高频词的使用状况以及高频词与低频词的关系。在Laviosa(1998)和Xiao(2010)研究中,将高频词定义为出现频率至少占库容0.10%以上的词。本研究中,笔者也规定高频词所占的比例下限为0.10%。表4.6与表4.7分别为单词未进行词形还原和还原后即变成词目后(lemmatised)两个译文的频率统计情况。
表4.6 未进行词形还原前频率统计
表4.7 词形还原后频率统计
从以上两表可以发现,无论词表还原与否,赛译的高频词的数目、累计比例、高频词重复率及高频词与低频词之比都是最大的,这说明赛译中使用高频词最多,而高频词一般为虚词,这也印证了上面研究中赛译词汇密度最小的结论。同理,沙译词汇密度最大也得以印证。事实上沙译高频词的累计比例、高频词重复率及高频词与低频词之比都是最小的。
同时还发现,进行词形还原后,赛译及沙译两个译文的高频词数目、累计比例、高频词重复率及高频词与低频词之比都比词形还原前有所增加。其中高频词数目、累计比例在词形还原后增加的现象和Laviosa(1998b)的假设相违背,在她的研究中这两组数据在处理前后分别是108、56.2和82、51.6,而在本研究中,赛译从157、66.18分别增加到158、68.89%,而沙译从144、54.65分别增加至151、58.14。可见赛译及沙译的文本呈现出特殊性。此外,四个译本最显著的特点是高频词所占的比例极高,既高于Laviosa研究翻译叙事文的56.2%,又高于Xiao研究汉语译文语料库的40.47%,而且高频词的重复率极高,都在1400以上,这些充分表明译者在词汇使用方面有“简化”的特征。
(三)类符/形符比与平均句长
Baker(2000:250)认为文本的类符/形符比(TTR)值的高低与写作者词汇使用的丰富程度和多样性成正比。但由于TTR很容易受文本长度的影响,若文本长度悬殊时,影响较大。因而Scott(2004)提出一种补救方法,首先计算每个文本每1000词(这个数值可根据文本的长度进行调整)的类符/形符比,然后求所有获得的类符/形符比值的平均值,这种方法称为标准化类符/形符比(STTR),并在其研制的软件Wordsmith Tools中得以应用。与TTR一样,Baker也使用平均句长这一指标研究译者的文体特征。下面利用Wordsmith Tools 4.0中默认的设置,分别获取四个译本的标准类符/形符比与平均句长,结果见下表:
表4.8 标准类符/形符比与平均句长
从上表可发现,在标准类/形符比上,沙译最高,登译、杰译和赛译分别次之。这表明沙译的词汇使用最为多样和丰富。而赛译则最缺乏变化,最为单调。这一点也支持上述核心词汇模式分析的结论,同时也支持了上面研究得出的沙译词汇密度最大和赛译词汇密度最小的结论。据Olohan(2004:109)的研究,BNC中原创小说子库的标准类符/形符比为44.48。四个译文的标准类符/形符比均小于此值,这种差异表明四译文整体用词变化程度低于原创小说,这与翻译文本的词语“简化”假设相一致,即翻译小说倾向于使用较少的词汇,而英语原创文本倾向于使用较多的词汇,故四译本作为译语的特征较为明显。
至于平均句长,四译文从大到小分别为赛译、登译、沙译和杰译,其中赛译是杰译的一倍多。Laviosa(1998b)针对英语叙事文体的研究发现该文体的翻译文本的句子要明显长于原创文本,并根据统计得出翻译文本的平均句长是15.6个单词。对比四个译文,可以发现它们均大于此值,说明都接近译语的特点,其中赛译句子冗长的原因之一就是使用过多的and句。
独特词,顾名思义,就是某一文本出现而在别的文本中未能出现的词汇。冯庆华(2008:269)将“独特词”定义为:“在一个文本中词频达到一定水准而在另一个类似文本或其他多个类似文本中词频为零的词语。”利用Wordsmith Tools 4.0软件的词表统计功能下的一个子功能Detailed Consistency Analysis即“详细一致性分析” ,就可以比较容易提取不同文本的独特词,由于各文本已经经过词性标注,按词类,对其中的动词、形容词、副词及名词就可以获得。下面以沙译为例,将其独特动词、形容词、副词及名词中的前10位按顺序依次排列如下,见表4.9、表4.10、表4.11和表4.12。
表4.9 动词独特词
续表
表4.10 副词独特词
表4.11 形容词独特词
续表
表4.12 名词独特词
从上面的列表可以发现,沙译名词、形容词和动词独特词相对于副词为多,而形容词一般认为表示事物的形状、性质和状态等。用来修饰名词或代词,表示人或事物的性质、状态,和特征的程度好坏与否。形容词越丰富,则人或事物的性质、状态,和特征越解明、生动;动词是表示动作和状态的,动词的多样性往往预示动作和状态的多样性;丰富的名词意味着信息量大。对比四译文的独特词,可发现沙译的独特实词最多,因而词汇丰富、整体信息量大,这也印证了上节词汇密度的研究的结论:沙译词汇密度最大。
囿于篇幅,沙译的其他独特词及另外三个译文的全部独特词见附录2。