在语料库建设实践中,建库原则十分重要,直接关系到语料库的作用、功能与使用价值。本节对语料的选取原则、标注原则、语料库的使用原则等问题进行讨论,以深化认识,促进汉语中介语语料库的建设与发展。
语料的真实性是建设汉语中介语语料库的基本前提,没有这个前提,语料库就不能反映汉语学习者真实的语言面貌,基于语料库的研究及得出的结论也必然是毫无意义的。
语料的真实性可从语料加工处理的三个阶段加以管控。
1.在语料收集阶段保证语料的真实性。汉语学习者在自然状态下用汉语所做的语言表述,如即时的自由谈话、私人书信、不借助任何参考文献和工具书的考试作文、课上限时作文、写作练习或作文的初稿均具有较高的真实性。因此,收集语料应以这样的语言表述材料为主,并以复印、扫描或拍照等方式收集最原始的语料,从源头上保证语料的真实性。
2.在语料录入阶段应采取“实录”原则,以最大限度地保持语料原貌。录入时对语料中字、词、短语、句、篇、标点符号等方面的偏误及书写格式均须原样录入,不能做任何更改,以全面反映学习者的实际语言表现。对于口语语料库来说,在把口语形式的语料转写为书面形式的语料时,还应如实反映口语表达中的停顿、重复、语音偏误等语言现象。对于多模态语料库,还应标明与口语交际相伴随的表情与肢体语言。
语料录入时比较难以处理的是错字,因为“错字”是汉字中不存在的“字”,无法直接录入。与“造字”“制图”相比,配附原稿的原始图片是相对较好的处理方法,即把考生所写的每篇原始作文扫描成图片,放在语料库中,并在录入版语料和原始图片之间建立链接。这种方法的优点是能够保证用户可以看到考生所写的汉字的真实面貌,而且相对简单,便于实现。其问题则是图片会占用较大的存储空间,另外录入版语料和原始图片中的错字不能直接对应定位,使用不是十分方便。
3.在语料标注阶段也要忠实原作,尽可能保持语料原貌。为此目标,语料标注应采取的做法是对各种偏误现象“只标不改”,即只是指出语料中的偏误现象与偏误类型,而不做任何修正,因为修正会导致语料“失真”,影响研究结果的客观性。然而要彻底贯彻“只标不改”的做法是有困难的。详见下文。
系统的语料能够反映学生的整个学习过程和完整的语言面貌,便于从各种角度对语料进行观察分析,在研究上具有重要意义。
语料的系统性体现在三个方面:(1)语料和学生的背景信息齐全,并能够一一对应;(2)通过考试和未通过考试的考生语料齐全,通过考试的考生中得到A、B、C各级证书的考生语料齐全;(3)同一名学生或同一个学生群体在不同学习阶段或不同年级的语料齐全——这部分语料非常重要,它可以使我们看到学生习得语言的各个阶段的具体情况和整个过程。
语料的平衡性指不同类型的语料在分布上应尽可能均匀,例如不同国籍、不同母语、不同学习时间、不同专业背景、不同专业方向、不同汉语水平的汉语学习者所产出的语料数量应该完全相同。
然而这样理解平衡性并不恰当。因为一方面现实情况根本无法达到这样“理想化的绝对平衡”。例如20世纪90年代至21世纪初,参加HSK高等主观性考试的考生以韩国、日本居多,东南亚考生也很多,而欧美考生很少,非洲、南美洲的考生更少,有的国家或地区甚至只有个别考生。现实情况如此,决定了我们无法从考生国籍的角度保证语料的绝对平衡性。另一方面,“理想的绝对平衡”其实也不应该是我们追求的,因为那并不符合汉语学习者的实际分布情况,也不符合参加汉语水平考试的考生的实际分布情况。
因此,我们必须实事求是地对不同类型的语料在选择上有所区别。例如从学习阶段和年级角度看,初级、中级、高级三个学习阶段、四个年级的语料数量应完全相同。从国别角度看,则应采取分层抽样的方法:考生或学生多的国家的语料多取;考生或学生少的国家的语料少取;只有个别考生或学生的国家的语料则暂时不取,因为研究所依据的语料太少将无法保证研究结论的客观性、普遍性与稳定性,因而是没有意义的。
语料的随机性指语料不是主观随意地选取的,而是按照随机取样的方法选取出来的,这种取样方法能够保证“取样总体中的所有个体的被选概率是独立且均等的”,所选样本“对于取样总体具有更高的代表性”。(李文玲、张厚粲、舒华主编,2008:35)具体做法可以每隔若干篇抽取一篇,也可以通过计算机程序进行随机取样。在以往的汉语中介语语料库建设中,人们对取样的随机性重视不够,这在一定程度上影响了语料库的建设水平,进而影响到研究结论的可靠性与科学性。随机性是选取语料时极为重要的原则,必须坚决贯彻。
这条原则针对口语语料库和多模态语料库的建设而言。某些已建成的母语口语语料库或设计中的汉语中介语语料库,只是把声音文件转写成文本文件,并没有配备原始声音文件,也未加标注,实际上是文本形式的口语生语料库。没有声音文件,我们就不能了解汉语学习者的实际语音面貌,无法对语料进行声、韵、调等方面的考察与分析;没有视频图像,就不能观察肢体语言对口语交际的影响,不能全面、准确地了解言语交际的实际过程。如果这样就失去了口语语料库和多模态语料库的最大特点,无法体现其不同于文本语料库的最重要的价值。因此,口语语料库必须具备“有声性”特点,多模态语料库还须具备“有图像性”特点,配备与文本文件相对应的声像文件,以满足语音教学与习得等方面的研究需要。
动态性指语料库中的语料可以按一定周期(例如学期或学年)进行充实与更新。其显著效益,一是可以使语料规模不断扩充,从而使基于语料库的研究及其结论具有更大的普遍性与稳定性;二是保持语料的新颖性,使语料库与时俱进,而不显陈旧。此外,软件系统的改进与升级可以扩展语料库的功能,提升语料库的使用价值,改进语料库的安全性以保证其安全运行,也应属于动态性的范畴。
现有的汉语中介语语料库大多对语料中的偏误现象做了不同程度的标注,满足了偏误分析的需要,对汉语中介语的偏误分析起到了很大的推动与促进作用。然而偏误分析只关注语言学习者错误的语言表现,而完全忽略了学习者正确的语言表现;这种研究只看到学习者没有掌握哪些语言现象,而看不到学习者已经掌握了哪些语言现象,因而其认识是不全面的,其所做出的判断是不准确的。例如学界普遍认同把字句难、学生回避把字句之类的说法,但基于语料库的研究表明,至少对参加高等汉语水平考试的考生来说,把字句并不像人们想象的那么难。(张宝林,2010c)
要对汉语学习者的汉语习得情况形成准确而全面的认识,既要看其语言偏误,也要看其正确的语言表现,这就要把偏误分析提升为表现分析,或称为语言运用分析。“……语言运用分析方法分析的仍然是学习者的言语结果(product)。与错误分析不同,它不是只注意学习者的错误,而是注意学习者的所有言语(错误的、正确的),试图勾画出学习者语言发展的轨迹。”(孙德坤,1993)表现分析是从两个不同的角度对问题进行观察,看到的情况更加全面,做出的判断更加准确,因而是更优越的研究方法。(张宝林,2011a)而进行表现分析的前提,就是在语料库的建设中,对语料除了要进行偏误标注,还需进行基础标注。
基础标注是对语料中正确的语言现象进行标注,包括分词及词类序列标注;句子成分序列标注;句类、句型、句式类别标注;词、句的语体信息标注;语义信息标注;语用信息标注。
为了更好地对汉语学习者的语言表现进行考察分析,从而形成全面准确的认识与结论,汉语中介语语料库的语料标注应该包括偏误标注和基础标注两个部分,形成一种“偏误标注+基础标注”的加工处理模式。(张宝林,2008a、2010b)
汉语学习者产出的语料中广泛存在着各种各样的偏误现象,包括文字的、词汇的、语法的、语义的、语用的、语体的、标点符号的等等。对这些偏误的处理有两种办法:一是“只标不改”,即只是指出偏误现象,同时标明其性质与类型,而不做任何更正,其优点是能够“忠实原作”,保持语料原貌;二是“既标且改”,即除了指出偏误及其性质与类型之外,还进行相应的修改,好处是不但可以了解语料中的偏误,还能知道正确的表达方式。
上述两种处理方法各有所长,应根据使用者的实际需要选取恰当的方法。对于广大汉语教师和汉语教学与习得的研究者来说,标明偏误现象及其性质、类型以便于检索即可,无须对偏误现象进行修正。从这个意义上说,“只标不改”是恰当的方法。
“只标不改”可以满足偏误分析的需要,如做表现分析,则还需进行基础标注。基础标注的第一项内容就是由计算机自动进行分词和词性标注,“只标不改”在这里遇到了困难:字、词层面的偏误如果不进行修正的话,机器自动处理的分词和词性标注就将无法进行,或者会做出完全错误的分词与词性标注。因此,在进行字、词层面的标注时,对偏误需要“既标且改”。
语料标注是一项十分繁重的工作,标注方法迄今为止仍然是以人力手工标注为主,即由人对各种语言现象进行判断,然后用预先设定的一套代码对相应的语言现象进行加工处理。为了减轻人的记忆负担,提高标注效率,也为了保证标注代码形式上的一致性,软件人员开发了一些标注工具,在一定程度上减轻了标注者的工作强度。这就是所谓的“人标机助”。
“机标人助”则是由计算机根据预先制定并植入其中的标注规范自动进行标注,然后由人工进行检查校对和补充修改。目前机器自动标注只在分词和词性标注这一层面上进入到了实用阶段,其他层面的自动标注尚处于实验室水平。
在目前的现实情况下,我们应在总体上采用“人标机助”的标注方式,同时,在分词和词性标注层面使用“机标人助”的方法,并充分发挥人的作用,在机器自动标注后的“人助”环节进行严格的审查与修正。
毫无疑问,随着科学技术的发展,新的技术手段为语料标注提供了更多的方法。例如可以采用数字墨水技术进行标注,以提高语料加工处理的效率与质量;还可以把数百万字已标注语料作为训练语料,尝试进行计算机自动标注。(张宝林,2010a)基于编辑距离算法,通过原句和修正句的自动比对,进而实现偏误自动标注的设想,(王洁、宋柔,2008)也是方法之一。
有些偏误现象从不同的角度看,可以视为不同性质与类型的偏误。例如“所以选专业的问题是最重要”,可以视为句尾缺少“的”的缺字偏误或缺词偏误,也可以认为是误加“是”的形容词谓语句的偏误或“是”字泛化的“是”字句偏误句,还可以看作“是……的”框架不完整的“是……的”句的偏误句。
对这类现象可以采取“从大”的原则,即在字、词、句、篇几个层面中,按照“从大到小”的顺序处理:首先看是否语篇的偏误,其次看是否句子的偏误,第三看是否短语的偏误,第四看是否词的偏误,第五看是否字的偏误,按此顺序逐一研判,而以大单位者优先。这种方法可以概括为“从大到小,一错一标”。
也可以采用“多标”的办法,即对同一个偏误现象,不考虑大小顺序,而是把所有可能的判断全部标出。例如上面的句子,可以把缺字、缺词、形容词谓语句偏误、“是”字句偏误、“是……的”句偏误等全部标出来。这是所谓“不分大小,一错多标”的处理方法。
就一般情况而言,采用“一错一标”的方法是完全可以的,这在HSK语料库的标注实践中已经得到了证明。然而当某些偏误现象可以为我们带来新的认识时,“一错多标”就很有意义了。例如上面的例子,缺“的”能使我们认识到“是……的”句的问题时,同时标为缺词和“是……的”句的偏误就很有必要。
作为通用型汉语中介语语料库(与专用型汉语中介语语料库相对而言),语料标注的内容必须全面,应在字、词、短语、句、篇、语体、语义、语用、标点符号等各个层面上对相关的语言现象进行标注,这样才能保证语料库功能的全面,从而更好地为汉语的教学与研究服务。
语料标注的科学性首先体现为“标注规范”的科学性。“标注规范”在繁简字体、异体字、数字用法、标点符号用法、异形词的判定方面均应以国家相应的语言文字规范为标准;分词及词性标注应以中华人民共和国国家质量监督检验检疫总局、中国国家标准化管理委员会2006年9月18日发布、2007年3月1日实施的语言文字信息处理国家标准《信息处理用现代汉语词类标记规范》为标准;语法系统应以学术影响大、采用范围广、具有行业标准意义的语法著作和语法大纲为主要依据,例如国家汉办组织编写的《汉语水平等级标准与语法等级大纲》(1996)、《高等学校外国留学生汉语言专业教学大纲》(2002)、教育部中外语言交流合作中心组织编写的《国际中文教育中文水平等级标准》(2021)等。
科学性还体现为语料标注的一致性。对同一种语言现象,不论是词性、短语类型、句类句型句式,还是语体、语义、语用,所做的标注都应该是一致的,而不能此处为此,彼处为彼,前后不一,自相矛盾。
标注代码的前后完整,形式统一,也属于一致性的范畴。
语料标注中存在错误是难免的,语料规模越大,参与标注的人越多,就越是如此。从这个意义上说,没有标注错误的语料库是不存在的。问题的关键在于,必须通过制定标注规范、规范标注流程、对标注员进行严格有效的培训等方法,尽最大可能将错误率降到最低。同时应通过检测计算出标注的错误率,并在语料库的说明中明确告知用户,使用户了解依据该语料库进行的相关研究,其结论有多大的置信区间,可以在多大程度上相信这个结论。
毫无疑问,语料标注的全面性是以科学性为前提的。否则,全面性也就失去了其应有的意义。
目前已建成的汉语中介语语料库大多不向学界与社会开放,只有较少的人能够使用这些语料库。例如北京语言大学已建成的5个汉语中介语语料库,只有一个是无偿向全球开放的,即HSK动态作文语料库。该语料库于2006年末建成1.0版,立即向社会免费开放;2008年该库升级为1.1版,同样向社会免费开放,用户分普通与高级两种,前者只能看到100条语料,后者则可以浏览全部语料,但不能下载。2010年应用户要求,该库向全球用户全面开放,所有用户都可以看到全部语料,且可以下载,进一步方便了广大用户使用。2018年1月该库重新开发了软件系统,版号升为2.0版。此次升级的原因是原有软件系统技术陈旧,已不能满足继续开放的要求。升级是为了继续开放,满足用户的使用需求。目前,该库注册用户已达69248人,访问量达575159人次; 已经发表的基于该库的偏误分析、表现分析与习得研究类学术论文达6000多篇。
我们认为,建设语料库的目的是为全球的汉语教学与研究服务,为广大汉语教师、科研人员、相关专业的本科生与研究生提供教学与研究的方便,这也正是语料库的根本价值所在。崔希亮教授指出:语料库不是艺术品,不是用来收藏的;而是实用性的工具,是供人使用的,其使用价值与使用人数成正比。非常准确地指出了语料库的基本性质与功能。
我们期待更多的语料库向社会开放,实现最充分的资源共享,为推动全球的汉语教学与研究服务。
即语料库可以呈现的语料内容丰富多样,能够满足用户多方面的研究需求。例如,语料库可供检索的内容应包括生语料、熟语料,偏误标注语料、基础标注语料。检索结果可以句子形式呈现,也可以语篇形式呈现。口语语料库应有音频形式的语料和书面形式的语料,多模态语料库还应有视频形式的语料。此外,语料库还应提供语料和语料作者的背景信息,为相关研究提供尽可能多的分析角度。
语料库的检索界面和检索结果的呈现方式应富于人性化,简洁易懂,使用方便,迅捷高效;用户检索的内容应分类清楚,可以随用户的意愿而分别或同时查询与显现;用户还应可以自主设置显示内容的多少,例如全部显示,部分显示;部分显示可以选取前边的部分,也可以选取后边的部分,还可以设定随机检索。总之,应能高效便捷地为用户服务。