购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

上编
总论

第一章
标注模式研究

1 引言

1.1 语料标注定义与本章研究范围

关于标注,我们赞同这样的观点,语料标注是一种给口语语料库、书面语语料库增添解释的和语言的信息的实践。语料标注也可以指这个过程的最终产品,即附加或分散在语料库中的语言标记。(黄昌宁、李涓子,2002)标注可以在不同的层次、从不同的侧面进行(王建新,2005),例如可以从字、词、句、篇、标点符号,乃至语义、语用等各个层面对语料进行标注。

本章讨论通用型汉语中介语语料库的标注问题。所谓“通用型汉语中介语语料库”是与“专用型汉语中介语语料库”相对而言的。前者为满足各种研究目的而建,例如运用“HSK动态作文语料库” 可以进行字、词、句、篇、标点符号等各个方面的研究。后者则只为某种专门的研究目的服务,例如通过“华语文学习者汉字偏误数据资料库”只能进行中介汉字的研究。

本章讨论的语料标注模式,既适用于文本语料库,也适用于口语语料库。二者的唯一区别在于,口语语料由汉语母语者转写,因而不存在中介语性质的字处理问题。

下文如无特别说明,所提及的“语料库”均指汉语中介语语料库。

1.2 语料标注现存的问题

语料标注在语料库的建设与应用中具有重要意义,它是实现原始语料机读化的关键环节(崔刚、盛永梅,2000),是语料深加工的重要环节,也是一个语种语料库建设水平的重要标志(刘连元,1996)。而其更深刻的意义在于,语料标注的内容与质量决定了一个语料库的功能与使用价值。语料标注占有如此重要的地位,而汉语中介语语料库的语料标注却至今没有统一标准,标注内容与方式因建设者的主观认识不同而存在极大差异,在建库实践上带有很强的随意性,因而导致产生了一系列问题。其中主要是:

(1)语料标注内容差异很大,导致一些语料库的功能不完备。例如,大多数语料库只有偏误标注,因而只能进行偏误分析,而无法进行表现分析;可以检索、提取有标志词的中介语现象,而无法检索并提取那些缺失关键词的偏误现象,比如该用“把”“被”“比”“是”“得”而未用的“把”字句、“被”字句、“比”字句、“是”字句和“得”字补语句的偏误句,就无法提取。

(2)标注只限于文字、词汇、语法层面,而没有语义、语用层面的标注。

(3)对语篇、语体的标注仅见于个别语料库且十分简单。

(4)对同样的偏误现象认识不同,归类不同,采取的标注方式也不同。例如“是”字句缺“是”,有的标为缺词,有的标为缺述语,有的标为句式错误。

(5)标注代码各异,给用户造成了不必要的记忆负担与混乱,也不便于资源共享。

(6)标注质量受标注方式制约,存在较大问题。自动分词与词性标注的正确率虽已达到很高水平,但错分错标的绝对数量仍然不可小觑,人工校对的工作量巨大;句法以上标注皆为手工标注,标注效率不高,标注代码的使用极易出现不一致的情况。

如何解决这些问题,对汉语中介语语料库的建设意义重大,对基于语料库的相关研究具有直接影响,需要进一步深入研究。

2 标注模式的提出

与以定性分析为基本特征的传统语言学研究相比,文本未经任何标注的生语料库也是语言教学和研究很好的语料资源。(许智坚、高登亮,2008)然而生语料库,尤其是汉语的生语料库,包含很少关于词法和语法等的信息,因此其应用价值就很有限。只有当语言研究者能够从语料库中获取知识或信息时,才能说这个语料库是有用的。事实上,为了从语料库中抽取语言信息,必须首先向该语料库中植入信息,即添加标注。(黄昌宁、李涓子,2002)这是进行语料标注的根本动因。

中国大陆第一个汉语中介语语料库——“汉语中介语语料库检索系统”,对语料只经过断句、分词和词性标注等加工处理。(陈小荷,1996)其后的汉语中介语语料库则对语料中的各种偏误现象做了不同程度的标注,这是由中介语的特点决定的,也是学者们研究的需要。(周文华、肖奚强,2011)偏误标注可以满足偏误分析的需要,对汉语中介语的各类偏误研究起到了很大的推动与促进作用。

然而,偏误分析只关注语言学习者错误的语言表现,而完全忽略了学习者正确的语言表现,因而其认识是不全面的,其所做出的判断是不准确的。例如,我们对外国人习得汉语“把”字句的情况可能就并不十分清楚。(张宝林,2010a)汉语习得研究需要观察两方面的中介语材料,一是学习者使用汉语的偏误,二是其正确的语言表现,进而把偏误分析提升为表现分析。表现分析是从正、误两个不同的角度对中介语进行观察,看到的情况更加全面,做出的判断也就更加准确,因而是更为优越的研究方法。而进行表现分析的前提,就是在语料库的建设中,对语料中的偏误与正确的语言表现进行全面标注。

基于这种认识,我们首先提出了“基础标注”的概念,所谓“基础标注”亦即对语料中正确的语言现象进行的标注;进而提出了“偏误标注+基础标注”的语料标注模式(张宝林,2008),并对这一标注模式进行了若干探讨(张宝林,2010b),特别是对基础标注进行了较为深入的阐述(张宝林,2010c)。我们认为,从语料库建设的宏观角度来看,基础标注概念的提出是汉语中介语语料库建设的一个重要突破,“偏误标注+基础标注”将成为汉语中介语语料库语料标注的新模式,并为其他语料库的建设提供借鉴。在“首都外国留学生汉语文本语料库” 的建设中,我们尝试采用了这一标注模式,效果良好。建库实践证明,这一标注模式符合外国人汉语学习的实际情况,是完全可行的。

3 “偏误标注+基础标注”模式的内涵

3.1 对标注模式的理解

所谓模式,是“某种事物的标准形式或使人可以照着做的标准样式”(《现代汉语词典》第6版)。我们认为,语料标注模式指在语料库建设中对语料进行标注的标准样式,包括标注过程中涉及的所有环节:标注原则、标注内容、标注方式、标注代码与标注流程等。

3.2 标注原则

标注原则是制定标注规范的前提,与标注目的密切相关,对标注的内容与方法有重要制约作用。语料标注的根本目的是满足教学与研究的需要,但不同类型的语料库在标注目的上会有所不同。通用型语料库的标注原则与专用型语料库也必然存在差异,例如标注内容的全面性就应该成为通用型语料库的一个重要原则,而专供中介语汉字研究的语料库则无须顾及词、句、篇等内容的标注。

(1)全面性

指语料标注的内容全面,目的是保证语料库功能的全面,避免某些语言现象因未做标注而无法查询的情况。

作为通用型汉语中介语语料库,语料标注的内容必须全面,应在字、词、短语、句、篇章、语体、语义、语用、标点符号等各个层面上对相关的语言现象进行标注,这样才能保证语料库功能的全面,从而更好地为汉语的教学与研究服务。

(2)科学性

指语料标注要正确、准确,符合汉语字、词的相关规范,符合一般的语法规则。对同类语言现象的判断与标注,要具有一致性。

标注首先要正确、准确,符合规范。

语料标注的科学性首先体现为“标注规范”的科学性。“标注规范”在繁简字体、异体字、新旧字型、数字用法、标点符号用法、异形词的判定方面均应以国家相应的语言文字规范为标准;分词及词性标注应以教育部语言文字应用研究所(下文简称“语用所”)研制的《GB/T 20532—2006信息处理用现代汉语词类标记规范》为标准;语法系统应以学术影响大、采用范围广、具有行业标准意义的语法著作和语法大纲为主要依据,例如1996年国家对外汉语教学领导小组办公室汉语水平考试部组织编写的《汉语水平等级标准与语法等级大纲》、2002年国家对外汉语教学领导小组办公室组织编写的《高等学校外国留学生汉语言专业教学大纲》等。

其次,科学性还体现为语料标注的一致性。对同一种语言现象,不论是词性、短语类型、句类、句型、句式,还是语体、语义、语用,所做的标注都应该是一致的,而不能此处为此,彼处为彼,前后不一,自相矛盾。

此外,标注代码的前后完整,形式统一,也属于一致性的范畴。

语料标注的一致性问题意义十分重大。究竟如何标注,牵涉到如何分类与归类,这是研究最基本的问题,是展开研究的基础,在进行语料标注之前,就应该十分清楚,否则所标注的语料必然存在不全面、不一致的现象。(肖奚强,2011)要解决这一问题,目前可以采取的办法,一是通过制定严密的标注规范、严格规范标注流程、对标注员进行严格有效的培训等方法,尽最大可能将语料标注的错误率降到最低;二是通过检测计算出标注的错误率,并在语料库的说明中明确告知用户,使用户了解依据该语料库进行的相关研究,其结论有多大的置信区间,可以在多大程度上相信这个结论。而最终的解决方案则是通过技术手段,实现人和计算机的优势互补,实现计算机自动标注。

毫无疑问,语料标注的全面性是以科学性为前提的。否则,全面性也就失去了其应有的意义。

(3)忠于原作

指忠实于外国汉语学习者的原始语料,在语料的收集、录入、标注等各个环节均需最大限度地保持其汉语中介语的“原汁原味”,而不能使原始语料变得面目全非。

实事求是地说,外国汉语学习者产出的汉语中介语语料中的偏误现象是多方面的,包括文字、词汇、语法、语义、语用、语体、标点符号等各个层面的偏误。有研究认为,对这些错误(本书使用“偏误”的概念)可以有两种不同的做法,一种是改正所有的错误,标注后呈现的句子都是正确的句子,把所有错误的信息保存在特定的标注符号中,从标注符号中,我们可以检索到各种错误类型;另一种是保留所有的错误,标注后呈现的句子还是原始语料的句子,而用标注符号指明错误类型,需要改正的信息及其正确形式都存入标注符号中,通过检索标注符号,可以获得有关句子(语料)的正确形式。并从避免代价太大的角度出发,认为比较合理的做法应该是后者。(任海波,2010)我们将前一种办法定义为“既标且改”的方法,把后一种方法称为“只标不改”的方法。

如果只做偏误标注,只为偏误分析服务,“只标不改”确实足够了。而学术发展的客观需求是,我们不但要做偏误分析,更要做表现分析,这就要进行基础标注。基础标注的第一项内容就是由计算机自动进行分词和词性标注,“只标不改”在这里遇到了困难:字、词层面的偏误如果不进行修改更正的话,机器自动处理的分词和词性标注就将无法进行,或做出完全错误的分词与词性标注。像“ 高、导 虎、身 ”这几个词当中的别字,“先首、决解、持支、众所知周”这几个构成成分顺序错误的词语,如果不进行更正处理,机器就不可能做出正确的分词与词性标注。

为了保证分词与词性标注的正确性,进而确保基础标注的质量,我们必须采取一个切实可行的办法,即在进行字、词层面的标注时,对字、词方面存在的偏误需要“既标且改”;除此之外,短语、句、篇等方面的偏误均应采取“只标不改”的做法。这样做的原因在于,短语以上的偏误不会影响到词的切分与词性标注。尽管这样做打破了语料宏观处理上的一致性,但却保证了分词与词性标注的正确性,进而确保了基础标注的质量。这也是“HSK语料库”在对语料偏误的处理策略上有所不同的根本原因。当然,如果使用可扩展的置标语言XML进行标注符号的编码,这一问题可以得到进一步的解决。(详见本章第3.4节)

(4)标准化与通用化

指语料标注代码应符合标准化与通用化要求,使用通用代码,以方便用户,也有利于语料的资源共享。目前在汉语中介语语料库建设中,各建设单位使用的标注代码各不相同,且只有北京语言大学的“HSK语料库”的偏误标注规范已在网上公布。这个标注规范进行了字、词、句、篇章四个层面的标注,规则比较系统、全面。因此,许多中介语语料库的标注,比如胡晓清等介绍的“韩国留学生汉语中介语语料库”和陆庆和等介绍的“小型口语语料库”,都是在此基础上适当修改的。(周文华、肖奚强,2011)

在这种情况下,为了方便用户使用,以及不同语料库之间的资源共享、彼此融合,可以以北京语言大学的“HSK语料库”的标注规范为基础,研制能为学界普遍接受并乐于使用的语料标注规范与代码,从而实现语料标注的标准化与通用化。

国内外母语语料库建设大多采用可扩展的置标语言XML进行编码,对语料的文本信息进行标注。在汉语中介语语料库的建设中,也已有人开始研究利用XML进行编码,对语料的语言本身进行标注,例如李斌(2007)。从理论上说,XML具有最广泛的通用性,最适合用于通用代码的开发,应深入研究并尽快应用于汉语中介语语料库的语料标注。

3.3 标注内容

3.3.1 从语言文字的各个层面进行标注,贯彻全面性原则

为了满足教学与研究的各种需要,我们认为语料标注的内容必须全面,既做“偏误标注”,又做“基础标注”,即对汉字、词汇、语法、语义、语用、语体、标点符号等各个方面的偏误现象与正确的语言表现进行全面标注。

(1)汉字标注,包括错字、别字、繁体字、异体字、拼音 、漏字、多字;

(2)词汇标注,包括错词、缺词、多词、外文词、离合词;

(3)语法标注,包括词、短语、单句、复句、语篇;

(4)语体标注,包括口语词与书面语词、口语句式与书面语句式;

(5)语义标注,包括词语的语义色彩、句子成分的语义角色、动宾结构的语义关系、修饰语的语义指向、词语重叠的语义、歧义句、句式义等;

(6)语用标注,包括语言单位的语篇功能、指示语与先行词的指代关系、信息结构、省略、语言运用的得体性、语用失误等;

(7)标点符号标注,包括错误标点、缺失标点、多余标点。

3.3.2 突破以往的标注范围,增加新的标注内容,深化部分原有标注内容

3.3.2.1 增加新的标注内容:语义标注和语用标注。

语义、语用标注在汉语中介语语料库建设中尚无先例,但这些方面的偏误在汉语中介语中是广泛存在的。例如:

(1)老师,你 媳妇 漂亮吗?

(2) 哪儿的话 。(用于回答老师的称赞)

(3)老师, 把空调开开 !(李宁、王小珊,2001)

(4)那时候我就给全家带来了 蓬荜生辉

(5)我还要把 几个因素 提出。

(6)时常 家里弄得乱七八糟。

(7)如果有人身体很健康,但是比如说在经济上发生出乎意料的事,愿意离开这个世界,请人 他杀死,这个是应该被判刑的。

(8) 把20年以来一直住的地方离开 ,您们感觉舍不得。

(9)所以如果那时候, 妈妈给别人自己的孩子 的话, 可能那个孩子被傷心、痛苦

例(1)“媳妇”一词儿化与否,词义不同。如果用这个词,应该加儿化。“媳妇儿”是一个“土俗之词”,不正式,不庄重 。例(2)“哪儿的话”表示不必这样客气,常用在对方向自己表示道歉或感谢时。例(3)表达支使别人做事的意思。此3例均可以用于上对下或平辈之间,而不能用于下对上,学生对老师这样说显然是不合适的。例(4)“蓬荜生辉”是谦辞,表示对别人的恭敬,可以用于别人,不可用于自己。例(5)“把”字句中“把”的宾语必须是定指的,“几个因素”不定指,因而错误。例(6)(7)的“家里”和“他”在句中并非表示处所和施事(或受益者),而是“弄乱”与“杀死”的受事,原句混淆了句子成分的语义关系,因而错误。“把”字句表示处置义,例(8)说明一种令人难以割舍的情况,并不是要对“20年以来一直住的地方”加以处置,使其发生某种变化,所以不应使用“把”字句。而例(9)的分句恰恰表现的是施事主语“妈妈”对“孩子”的处置,应该使用“把”字句却未用;“伤心”“痛苦”都是形容词,没有及物性,因而不能用于“被”字句,所以两个分句都是错误的。

可见,学生之所以会说出上述不得体的句子,就是因为不知道这些词语、句子的语义、语用含义。以学界普遍关注的“把”字句来说,学生的偏误正是因为不了解什么时候应该使用“把”字句,不知道用与不用“把”字句在表达上有什么区别。吕文华(1994)指出,解决“把”字句教学的根本途径是要揭示“把”字句的语义特征,使学生掌握表达什么意义时须用“把”字句,同时还要指出使用“把”字句的语境背景,使学生掌握在什么情况下用“把”字句。张旺熹(1999)指出,我们不仅要让学生清楚“把”字结构的种种结构形式,还要告诉学生它的语义本质及其语用上的基本规律。由此可见,为了了解、掌握外国汉语学习者对汉语语义、语用的习得情况并进而改进语义、语用教学,进行语义标注和语用标注是非常重要的。

存在的问题是,汉语语义、语用方面的研究并不十分成熟,其典型表现之一是,同一个语言现象究竟是语义问题还是语用问题,有时并不容易分清。在这种情况下,应该如何进行标注就成了一个很大的问题。例如上面例(1)对“媳妇”一词的误用,究竟是语用偏误还是语义偏误?我们认为,从产生偏误的根源上说,学生不了解该词不严肃、不庄重之意是造成偏误的根本原因,属语义问题;但从语言使用的直接表现来看,则是“媳妇”一词的使用场合不对,应属语用偏误。该例可以说是一个因语义不明导致的语用偏误。

如果这样处理可以接受的话,例(1)—(4)都应标为语用偏误。例(5)的定指与非定指属语义问题,例(8)是不清楚句式义造成的偏误,属语义问题。例(6)(7)(9)等各例,也都是语义问题。

3.3.2.2 深化部分原有的标注内容:语篇标注和语体标注。

语篇标注和语体标注在以往的语料库建设中很少被顾及。我们在“HSK语料库”中进行了语篇标注,但是并不严谨,只在句间连接不顺畅之处加上了错篇标记。在“首都语料库”中,我们做了进一步加工处理,把语篇偏误分为形式连接偏误和语义连接偏误两种类型。同时为了给国家社会科学基金重大项目“外国学生汉语书面语习得与认知研究”提供语料支持,我们在该语料库中又进行了语体标注。语体标记分为四种,即口语词与书面语词、口语句式与书面语句式。

上述做法对外国人汉语语篇和语体的教学与习得研究是有益的,在汉语中介语语料库的建设中也是比较先进的。存在的问题是,语料的加工还不够深,分类也不够细,因而对汉语教学与相关研究的帮助也就比较有限。

我们认为,可以从偏误类型的角度深化与丰富语篇标注的内容,例如由于关联词语、某些起关联作用的句式、话题连接、位置连接等方面的使用不当导致的语篇偏误,均应予以标注。

语体标注可以从再分类的角度进行深化,例如口语词句还可以分为口语正式语体和口语日常谈话语体,书面语词句也可以分为书面语正式语体和书面语日常交流语体。

3.4 标注方法及代码

3.4.1 标注方法

3.4.1.1 “人标机助”与“机标人助”相结合,尝试计算机自动标注。

标注方法现有手工标注、人标机助、机标人助、计算机自动标注等。

手工标注即由人对各种语言现象进行判断,然后用预先设定的一套代码对相应的语言现象进行加工处理。这种标注方法费时费力,对标注者而言是一项十分繁重的工作,而且会受到标注者的语言文字水平、工作态度、精神状态的制约,标注的一致性较差,标注质量难以保证。

为了减轻人的记忆负担,提高标注效率,也为了保证标注代码形式上的一致性,软件研制人员开发了一些辅助人工的标注工具,在一定程度上减轻了标注者的工作强度。这种标注方式就是所谓的“人标机助”。

“机标人助”则是由计算机根据预先制订并植入其中的标注规范自动进行标注,然后由人工进行检查校对和补充修改。这本来是非常理想的标注方法,但限于中文信息处理的发展水平,目前机器自动标注只在分词和词性标注这一层面上进入到了实用阶段,其正确率已经达到了99%。(黄昌宁、李涓子,2002)这听起来很让人振奋,然而对于以百万、千万计的语料来说,1%的错误率依然是一个庞大的数字。在标注实践上,多数熟语料库的加工深度,也长期停留在自动分词和词性自动标注,经费与人力充足的单位,分词和标注后的语料要组织人工校对,否则就听其自然。(张普,2008)“听其自然”所造成的结果是相当严重的,因为“底层不一致性在上层应用中会被放大几倍到几十倍”(宋柔,2010)。

在目前的实际情况下,我们应在总体上采用“人标机助”的标注方式,而在分词和词性标注层面使用“机标人助”的方法,并充分发挥人的作用,在机器自动标注后的“人助”环节对语料标注的结果进行严格的审查与修正。

随着科学技术的发展,新的技术手段不断涌现,为语料标注提供了更多的方法,可以帮助我们把语料标注工作做得更好。例如,我们可以基于编辑距离算法,实现偏误句与修正句的自动比对并添加标记(王洁、宋柔,2008);可以采用数字墨水技术进行标注,以提高语料标注的效率与质量;还可以把数百万字已标注语料作为训练语料,尝试进行计算机自动标注(张宝林,2010b)。

3.4.1.2 实行“有限的一错多标”。

有些偏误现象从不同的角度看,可以视为不同性质与类型的偏误。例如:

(10)我对这个问题以下几个观点。

该句中缺少一个动词述语“有”。而这个“有”可以分别视为一个汉字、一个词、一个句子成分,整个句子则可以视为“有”字句、动词谓语句、主谓句等的偏误句。

对这类现象可以有两种处理方法:

第一,采取“从大”的原则,即在篇、句、词、字几个层面中,按照“从大到小”的顺序处理:首先看其是否可以归入语篇的偏误,可以的话即可直接定性;不可以的话再看是否可以归入句子的偏误,余此类推。这种方法可以概括为“从大到小,一错一标”。这样处理是基于下面两点认识:

(1)大的单位可以涵盖小的单位,而小的单位不能涵盖大的单位。如例(10)视为“有”字句的偏误可以涵盖缺述语、缺词的偏误。

(2)语料标注应尽量简化,而不宜过于复杂。把从多种角度判定偏误归结到一种角度上来,即可以使标注得以简化,如例(10)直接标为“有”字句的偏误即可。

第二,对同一个偏误现象,不考虑大小顺序,而是把所有可能的判断全部标出。这样处理偏误是出于求全的心理,追求的是不使任何一种潜在的偏误类型漏网。采取这样的处理方法,上面的句子标注之后将会是这样的情况:

(10’)我对这个问题有[L]{CQ有}{CJ-sy有}以下几个观点{CJy}{CJdw}。

这样标注的含义是:漏字、缺词、缺述语、“有”字句偏误、动词谓语句偏误,还可以加上主谓句的偏误。这是所谓“不分大小,一错多标”的标注方法。

显而易见,“一错一标”的标注方法比较简洁,而“一错多标”的标注方法则较为全面,但也比较复杂,有时也显得没有必要。例如,已经标明了属于“有”字句的偏误,再标动词谓语句、主谓句的偏误就没有多大意义。

然而,在涉及对句子偏误的不同理解时,“一错多标”还是有意义的。例如:

(11)对于非洲来说,这是还不够{CJxw}。

(12)从现在的情况来说,让大家去吃“绿色食品”是太早了{CC的}。

例(11)除了可以视为形容词谓语句的偏误句,还可以看成缺少助词“的”,并进而看成“是……的”句不完整的偏误句。例(12)除了可以看作用词错误,即该用助词“了”却误用了“的”,还可以视为不该用却用了“是……的”句的偏误句。这样处理可以发现更多的问题,发现不同的偏误类型,这对于全面、准确地认识外国汉语学习者对形容词谓语句及“是……的”句的习得情况都是非常有意义的。

结论是:在标明下位句式的偏误类型后,无须再标明其上位偏误类型;对可以同时视为词、句、语篇偏误的偏误,则应分别标明。

这就是我们所提倡的“有限的一错多标”标注方法。我们认为这种方法符合外国人学习汉语的实际情况,是能够适应标注汉语中介语的实际需要,并能够满足基于汉语中介语语料库的相关研究的。

3.4.2 标注代码

标注代码可以采用汉语拼音字母、英文字母、阿拉伯数字、置标语言进行编码。例如“HSK语料库”采用汉语拼音并利用其大小写形式编码,在上面的例(10`)中“[L]”是漏字标记,表示其前边的一个字在原始语料是漏掉的字,“L”是“漏”字的汉语拼音声母;“{CQ有}”表示缺词偏误,“CQ”是“词缺”两字的汉语拼音声母;“{CJ-sy有}”表示“错句—缺少述语‘有’”的偏误;“{CJy}”表示“有”字句的错句偏误;“{CJdw}”表示动词谓语句的错句偏误。“中国大学英语学习者语料库”(CLEC)则采用了“英文字母+数字”的编码方式。例如[cc3,1—]是一个错误码,其中[cc3]表示搭配错误中的动名搭配错误,[1]表示该词左边第一个词与该错误相关联,[—]表示该错误关键词出现的具体位置。(杨惠中,2002)

利用置标语言进行编码已有相关研究,例如李斌(2007)研究了利用可扩展的置标语言XML进行“把”字句偏误标注的方法:

(13)请/v你/r〈syn〉把/p这/r封/q信/n寄/v〈/syn=“把字句”〉。/w

使用可扩展的置标语言XML进行编码的主要优点是:

(1)方便、灵活、实用,可以满足语料标注的基本要求。

“错误标注的基本要求为:标明错误的语句;标明错误类型(大类、小类);标明正确形式;便于标注、检索、统计。”由于“XML是一种源置标语言,它允许用户根据它所提供的规则,制定各种各样的置标语言”,“应用于语言错误的标注”。(李斌,2007)

其实这种语言不仅适用于偏误标注,也完全可以应用于基础标注。因为“XML最重要的特性就是可扩展性,即允许用户定义自己的标签以及这些标签携带相关参数的属性和值”,“由于XML的自定义性及可扩展性,可以定义无限量的一组标注,足以表达各种种类的数据”。(施燕斌、刘春红,2002)

(2)标注对象的界限清楚。

以语序偏误的标注为例。“HSK语料库”的标注方法是用{CJX}表示语序偏误。这种方法的问题之一是:标注对象的界限范围不清楚。例如:

(14)我认为贵公司的事业可{CJX}也向全世界发展。

(15)这种生活方式已经习惯{CJX}成了。

(16)我和同学们1个月{CJX}在北京生活了。

例(14)—(16)是相邻的两个单音词(“可”与“也”)、双音词(“习惯”与“成了”)或短语(“1个月”与“在北京生活了”)的位置偏误,但发生偏误的究竟是单音词还是双音词或短语,因其并未标明具体范围,所以仅从形式上是无法判断的。

XML的语法规则之一是:任何的起始标签都必须有一个结束标签。加上前后标签之后,不论标注对象是单音词还是双音词或是短语,界限都非常清楚,一目了然。例如:

(14’)我认为贵公司的事业〈order〉可〈/order〉也向全世界发展。

(15’)这种生活方式已经〈order〉习惯〈/order〉成了。

(16’)我和同学们〈order〉1个月〈/order〉在北京生活了。

(3)它是一个国际标准,便于实现语料标注的标准化和通用化,方便不同语料库之间的资源共享和彼此融合。

XML是W3C(World Wide Web Consortium,万维网联盟的简称——引者注)在1996年底提出的标准,是从SGML衍生出来的简化格式,也是一种元语言,可以用来定义任何一种新的标记语言。(徐永川,2004)而SGML指标准化的通用置标语言(Standard Generalized Markup Language)。1986年,国际标准化组织正式发布了SGML国际标准,我国于1995年也将其作为国家标准。SGML语言的设计目的是要使文件信息与设备无关,与处理系统无关,甚至与所用的语种无关。也就是要在各个孤立的系统之间架起桥梁,使各个孤立的系统彼此联系起来。该语言通过描述文件逻辑结构的方法,使置标具有通用性,并通过一系列的声明(declaration),使各个系统都能理解文件的信息与置标。(冯志伟,1998)作为SGML的子集,XML同样具有这些特征与功能。

对汉语中介语语料库的标注而言,XML潜在的主要问题是:

(1)标注的繁复与二次开发。

XML是可扩展的通用置标语言,使用XML标记语料的优点是使标注遵循一种通用格式,可以方便语料库的加工和应用,并使语料库能在不同软件环境中得以共享。但是,XML是面向机器的语言,使用这种语言进行标注,结果十分繁复,对于语料标注者和语料库用户来说,阅读采用XML标注的文本很不直观,也很不方便。因此,需要语料库设计者自己设计具体标记的形式和语义,在XML之上开发软件,提供面向标注者和用户使用的界面。

(2)偏误的定位。

仍以语序偏误的标注为例。如前所述,“HSK语料库”的标注方法是用{CJX}表示语序偏误。这种方法的另一问题是:不能显示错序词语的正确位置。例如:

(17)大部分人都{CJX}第一次开始吸烟的时候不容易。

(18)同时,因为工作细心,能满足各种类型旅客的要求,所以受到顾客来信{CJX}多次表扬。

例(17)(18)是不相邻词语的位置错误(“都”“多次”),因其并非与相邻词语位置错误,因而其正确位置应在何处并不清楚。

我们曾设想,如能在XML的结束标签中加上方向标记和词数,即可解决标注对象的定位问题。例如:

(17’)大部分人〈order〉都〈/order→7〉第一次开始吸烟的时候不容易。

(18’)同时,因为工作细心,能满足各种类型旅客的要求,所以受到顾客来信〈order〉多次〈/order←4〉表扬。

(17’)表示标注对象“都”应右移7个词,放在“时候”与“不容易”之间;(18’)表示标注对象“多次”应左移4个词,放在“所以”和“受到”之间。

然而这样的标注方法不符合XML的标注格式要求。换个角度,也可以说是XML没给我们提供相应的标注手段,在这一点上不能满足我们的使用需求。

综上所述,使用可扩展的置标语言XML进行编码具有多方面的优点,当然也有其自身的局限性,需要进一步研究解决。总体而言,是应当并且可以将其用于汉语中介语语料库的语料标注的。

3.5 标注流程

3.5.1 分为两版的标注流程

通用型语料库的标注内容丰富而全面,标注过程十分繁复,这就需要制订合理而高效的标注流程。

为了避免语料标注内容的庞杂与混乱,同时为了保证机器自动分词和词性标注的正确性,我们在“首都语料库”的建设过程中把对各种语言偏误和正确的语言表现的标注分别称为“偏误标注”和“基础标注”,复制为两版语料,先做偏误标注,后做基础标注。其主要特点是:

(1)不同标注内容的两版语料互相隔离,可以分别单独显示,也可以同时对比显示。

(2)标注分两次进行。

(3)偏误句只做偏误标注,正确句只做基础标注。

(4)每次标注使用不同的标注工具。

(5)两版语料的标注完成后需进行对齐处理。

这种处理方式是以便于对汉语中介语进行表现分析为出发点的,也确实取得了相应的成效,但标注过程非常繁琐,对语料标注者的耐心与精神状态是很大的考验。

3.5.2 合二而一的标注流程

由于可扩展的置标语言XML的优势,用其编码,可以将语言偏误现象和正确的语言表现在同一版语料中进行标注,从而将“偏误标注”和“基础标注”合二而一,一次完成语料标注,大大简化语料标注过程。例如李斌(2007)设计的偏误标注:

(19)我/r〈word〉字/n习/vg〈/word=学习/v〉汉语/nz一/m年/q了/y。/w

(20)我们/r一起/d画/v蛇/n,/w先/d〈syn〉画/v〈/syn=“—结果补语”〉蛇/n的/u人/n可以/v喝/vg这/r壶/q酒/n。/w

把上面2句改为正确句,用同样的方法稍加修改即可进行基础标注:

(19`)〈syn〉〈syn〉我/r〈/syn=“主语1”〉〈syn〉学习/v汉语/nz〈/syn=“主语2”〉〈syn〉一/m年/q〈/syn=“谓语”〉了/y。/w〈/syn=“主谓谓语句”“名词谓语句”〉

(20`)〈syn〉〈syn〉我们/r〈/syn=“主语”〉〈syn〉一起/d〈/syn=“状语”〉〈syn〉画/v〈/syn=“述语”〉〈syn〉蛇/n〈/syn=“宾语”〉,/w〈/syn=“动词谓语句”〉〈syn〉〈syn〉先/d画/v完/v蛇/n〈/syn=“定语”〉的/u〈syn〉人/n〈/syn=“主语”〉〈syn〉可以/v〈/syn=“状语”〉〈syn〉喝/vg〈/syn=“述语”〉〈syn〉这/r壶/q〈/syn=“定语”〉〈syn〉酒/n〈/syn=“宾语”〉。/w〈/syn=“动词谓语句”〉

显而易见,对偏误句中的正确部分也是可以进行基础标注的,这可以使语料标注更为细致,对语料的观察更为全面,检索更为方便,因而对基于语料库的相关研究也就更为有利。

4 结语

目前,汉语中介语语料库建设中的语料标注存在诸多问题,这些问题导致了语料库功能的不完善,对基于语料库的汉语教学与相关研究具有多方面的影响。因此,深入研究语料标注模式对解决语料标注问题具有重大意义。

本章对“偏误标注+基础标注”这一标注模式进行了新的解释。在标注内容方面,首次提出了应进行语义标注和语用标注,深化语篇标注和语体标注。在标注方法方面,提出了“有限的一错多标”的理念,论证了把可扩展的置标语言XML应用于“偏误标注+基础标注”标注模式的可行性与优越性,以及不足之处。

“偏误标注+基础标注”模式源于汉语中介语语料库的建库实践,汉语习得研究从偏误分析到表现分析的学术发展是形成这一模式的根本原因。我们希望有更多同道关注这一问题,对标注模式的探讨能够不断深入,以使语料标注更加完善,进而推动汉语中介语语料库的建设,促进基于语料库的汉语教学与相关研究。

参考文献

陈小荷(1996)“汉语中介语语料库系统”介绍,《第五届国际汉语教学讨论会论文选》,《第五届国际汉语教学讨论会论文选》编辑委员会编,北京大学出版社,北京。

崔刚、盛永梅(2000)语料库中语料的标注,《清华大学学报》(哲学社会科学版)第1期。

冯志伟(1998)标准通用置标语言SGML及其在自然语言处理中的应用,《当代语言学》(试刊)第4期。

国家对外汉语教学领导小组办公室(2002)《高等学校外国留学生汉语言专业教学大纲》,北京语言文化大学出版社,北京。

国家对外汉语教学领导小组办公室汉语水平考试部(1996)《汉语水平等级标准与语法等级大纲》,高等教育出版社,北京。

黄昌宁、李涓子(2002)《语料库语言学》,商务印书馆,北京。

教育部语言文字应用研究所(2006)《GB/T 20532—2006信息处理用现代汉语词类标记规范》,http://www.doc88.com/p-1816882387931.html。(访问日期:2019年2月20日)

李斌(2007)中介语语料库建设中的语言错误标注方法,《暨南大学华文学院学报》第3期。

李宁、王小珊(2001)“把”字句的语用功能调查,《汉语学习》第1期。

刘连元(1996)现代汉语语料库研制,《语言文字应用》第3期。

吕文华(1994)《对外汉语教学语法探索》,语文出版社,北京。

任海波(2010)关于中介语语料库建设的几点思考——以“HSK动态作文语料库”为例,《语言教学与研究》第6期。

施燕斌、刘春红(2002)XML简介及其应用浅析,《高校图书馆工作》第2期。

宋柔(2010)文本语料库建设同语言教学和语言研究,讲座课件。

王建新(2005)《计算机语料库的建设与应用》,清华大学出版社,北京。

王洁、宋柔(2008)HSK动态作文语料库偏误标注方法研究,《第四届全国学生计算语言学研讨会会议论文集》,中国知网。

肖奚强(2011)汉语中介语研究论略,《语言文字应用》第2期。

徐永川(2004)SGML、HTML与XML的比较,《情报科学》第1期。

许智坚、高登亮(2008)语料库资源共享的可行性研究,《漳州师范学院学报》(哲学社会科学版)第2期。

杨惠中(2002)《语料库语言学导论》,上海外语教育出版社,上海。

张宝林(2008)“外国留学生汉语学习过程语料库”总体设计,《数字化汉语教学进展与深化》,张普、徐娟、甘瑞瑗主编,清华大学出版社,北京。

张宝林(2010a)回避与泛化——基于“HSK动态作文语料库”的“把”字句习得考察,《世界汉语教学》第2期。

张宝林(2010b)汉语中介语语料库建设的现状与对策,《语言文字应用》第3期。

张宝林(2010c)基础标注的内容与方法,《数字化对外汉语教学实践与反思》,张普、宋继华、徐娟主编,清华大学出版社,北京。

张普(2008)基于动态流通语料库的现代汉语词语研究,讲座课件。

张旺熹(1999)《汉语特殊句法的语义研究》,北京语言文化大学出版社,北京。

中国社会科学院语言研究所词典编辑室(2012)《现代汉语词典》(第6版),商务印书馆,北京。

周文华、肖奚强(2011)首届汉语中介语语料库建设与应用国际学术讨论会综述,《首届汉语中介语语料库建设与应用国际学术讨论会论文选集》,肖奚强、张旺熹主编,世界图书出版公司,北京。 ypxaSa91wEjaYcjffYV0tSHxD4grDPXslR2iiK3SKINbR/llqEWQDx4O9PNPe0uy

点击中间区域
呼出菜单
上一章
目录
下一章
×