标注就是对语料库中的原始语料进行加工,把表示文本结构或语言特征的附码添加在相应的文本位置上或语言成分上,以便于计算机识读。标注根据研究的需要可以在语言的各个层次上进行,如语音标注、语法标注、句法标注、语义标注、语用标注等等。标注是研究目的的一种体现形式。McEnery(2005:30)和Leech(1997:2)均认为结构标注和语言特征标注都能使语料库“增值”。根据研究内容和目的需要,对汉、英语料分别进行结构标注,包括章回、回目标题的标注,段落标注。对英语语料进行词性标注,语义标注。
语料进行标注前一般都需要约定一种模式,其中包括COCOA、SGML、HTML或XML等,其中COCOA模式是一种很早使用的用于从机读语篇中提取词汇索引的计算机系统,软件TACT及Concordance等支持这一模式。随着计算机技术、语料库语言学的发展,尤其是文本传递和交换的需要,逐渐出现新的模式,SGML是目前语料标注中广泛使用的一种,而HTML则是SGML的一种具体运用。本研究采用简单实用的HTML模式。其所以选择这一模式,最主要的是这种模式完全可以满足本研究的研究目的,而且操作相对简单。依照HTML模式,汉、英文本的章回及汉、英文本的回目标题起至分别标为<chapter >和</chapter >及<head >和</head >,段落标注起至分别标注为<p >和</p >,这些都是在计算机辅助下进行的。汉、英文本回目的标注,便于第五章中回目原文及译文的提取与对比分析。
语法标注主要针对译文文本,即英语文本。汉语文本由于语言的性质,尤其是研究目的也不需进行语法标注。语法标注也就是通常所称的词性标注。顾名思义,就是给每个英语单词附上词性标记,通常在传统语法词类划分的基础上进行的(有时为了传递尽可能多的语法信息,可以对某一词类进行细分)。由于在英语语言中,常常出现同一单词有不同的词性的现象,如在句子“I like my job.”及“Like my sister,she also enjoys herself.”中,前一个句子中的“like”为动词,而后一个句子中的“like”则为介词。如果通过语法标注,就可以将这两个句子中的“like”词性区别开来。语法标注目前有三种方法:第一是基于句法规则,第二是基于概率统计的方法,第三是将句法规则与概率统计两种方法结合使用的方法。基于句法规则的,由于自然语言规则的不可穷尽性,导致标注的准确率不高,一般应用在特定的某一语域中,普通文本不使用;基于概率统计的方法,通过对大量自然真实的文本进行词类统计分析,获得词性码概率矩阵,用于对文本进行词性标注,可大大提高标注的准确率及效率。而将句法规则与概率统计两种方法结合使用的方法,不言而喻会提高标注的质量,在三种方法中标注的准确率与效率是最高的。本文中对英语文本进行标注的软件属于第三种,是一款名为CLAWS 4.0(the Constituent Likelihood Automatic Word-tagging System 4.0)的程序,由英国兰卡斯特大学UCREL研究小组开发,此软件准确率可达96%~97%,且十分稳定。该软件的符码集包括冠词、连词、限定词、介词、形容词、数词、名词、代词、副词、动词、其他类及标点类及句子类13大类,146个标记构成。
例如上述的两个句子可分别被标注为:I_PPIS1 like_VV0 my_APPGE job_NN1._.和Like_II my_APPGE sister_NN1,_,she_PPHS1 also_RR enjoys_VVZ herself_PPX1._.其中第一句的“like”后附的标注码为“VV0”,表示实词动词原形,第二句中的“like”后附的标注码为“II”,表示普通介词。详细的符码集及符码所代表的意义可查相关的网站或资料。
对英语语料进行语法标注的目的在于计算译文的词汇密度,因为词汇密度计算公式中要求统计文本的实词,只有通过语法标注后才能够将实词,即名词、实词动词、形容词、副词统计出来。
语义标注也主要针对英语语料,本研究使用的语义标注工具是英国Lancaster大学语料库研究中心Paul Rayson等人开发的基于网络的语料分析工具Wmatrix,它和其他语料分析工具一样具备索引生成、搭配、词表生成、主题词表生成功能。Wmatrix的独特及优于其他软件之处在于其内嵌的工具USAS(UCREL Semantic Annotation System),可自动为文本进行语义域(semantic domain/field)赋码(Rayson 2008:519~549),其准确率可达92%以上(Rayson,2004:1),基本上可满足研究的需要。Wmatrix起初的标注集是基于1981年汤姆·麦克阿瑟编写的《朗文多功能分类词典》(Longman Lexicon of Contemporary English)中的语义分类体系。此后,根据实际标注过程和研究当中存在的问题,大幅度地改写了标注集,现用的标注是由21个语义场组成的分层体系,标注集达到232个范畴标签。21个语义场分别用A、B、C、E、F、G、H、I、K、L、M、N、O、P、Q、S、T、W、X、Y和Z表示,A到Z依次表示“一般和抽象词”、“身体及个体”、“工艺美术”、“情感”、“食物与农业”、“政府与公众”、“建筑、住房与家庭”、“货币与商业”、“娱乐、运动与游戏”、“生命与生物”、“运动、位置、行走及运输”、“数字与计量”、“物质、材料、物件与设备”、“教育”、“语言及交际”、“社会行动、状态及过程”、“时间”、“世界及环境”、“心理活动、状态及过程”、“科学技术”、“名称与语法”。
每个语义赋码包括:
(1)表示语义场的大写字母
(2)语义场次层级的数字
(3)进一步细分带小数点的数字
(4)语义层级上表示肯定或否定的一个或多个加号或减号
(5)双重身份范畴的斜扛及后面的标签
(6)表示多词单位的左方括号及后面的字母i
其中(1)与(2)是必须的,其余则是选择性的。
如句子China Military Online opens its blog service.经Wmatrix进行语义标注后成为:China_Z2 Military_G3 Online_Y2 opens_A10+its_Z8 blog_Y2 service_S8+_PUNC.
China_Z2中的“Z2”表示地理名称opens_A10+中的“A10+”表示“公开,发现或显示”。上面的标注都可以从Wmatrix提供的标注集找到对应具体语义。
另外,本研究涉及译者翻译过程中对句子的处理,包括分合等特点,对翻译句对亦做了标注,标注的规则为<sp 1:0>,<sp 1:1>,<sp 1:2>……依次类推,其中尖括号中“sp”表示sentence pair(句对),“1∶0”表示汉语一句,对应的英语不存在,即没有翻译,相当于上述的“This sentence was not translated.”(即该句未译);同理,“1∶1”表示汉语原文与英语译文都是一句对一句。表3.2是杰译第一章部分内容的标注情况。
表3.2 句对标注示例
需要指出的是以上标注都是在汉、英语料对齐后进行的,目的是在对平行语料库进行检索时能够利用这些“增值”信息进行进一步的研究。