汉语中介语语料库的建设始于20世纪90年代,第一个语料库即北京语言学院(北京语言大学前身)1995年建成的“汉语中介语语料库检索系统”。此后相继有其他一些语料库问世,例如南京师范大学的“外国学生汉语中介语偏误信息语料库”、中山大学的“留学生中介语语料库”、暨南大学的“留学生汉语中介语语料库”、北京语言大学的“HSK动态作文语料库”等。目前还有一些语料库在建设中,例如北京语言大学的“首都外国留学生汉语文本语料库”。
这些语料库收集的汉语学习者样本不是很多,语料规模也不是很大:熟语料多在100万字左右。例如“汉语中介语语料库检索系统”经过处理的熟语料为104万字;而“HSK语料库”(1.1版)收入学习者样本11569个,语料规模达到424万字,且全部是经过标注的熟语料,是目前语料规模最大、标注内容最全的汉语中介语语料库。(张宝林,2009a)
相对于生语料库,经过标注的熟语料库是一种比原语料库更有价值的资源,具有更大、更多的使用价值。然而,语料库标注者的水平,以及他们所采用的标注规范的合理性和可用性,决定了语料库标注的信息是否有用,是否有知识。在语料库标注的短暂历史上,对语料库建造者所加的标注,其他人用起来很困难,或甚至不能用的例子时有发生。(黄昌宁、李涓子,2002)
标注是语料深加工的重要环节,也是一个语种语料库建设水平的重要标志(刘连元,1996),是必须予以充分重视的问题。
以往的中介语语料库非常重视对语料中各种偏误现象的标注,汉语中介语语料库也不例外。语误附码(error tagging)是对语料中发现的使用者的语误,例如用词错误、拼写错误、句法错误,在分析归类的基础上用附码的形式进行标注。语误附码是分析学习者语料库的重要前提,对研究学习者的语言特点非常重要。(王建新,2005)中介语语料库,特别是其中的偏误标注,为偏误分析提供了很好的条件。
然而偏误分析是带有片面性的,因为它只研究中介语的偏误部分,而且是横切面式的静态分析,并未研究中介语的正确部分。(刘珣,2000)这就难免只见树木、不见森林,看不到学习者全部的语言表现,特别是看不到正确的语言表现,进而夸大偏误的严重程度,使研究者形成不全面的认识。例如学界普遍认为“把”字句是“难点中的难点”(吕必松,1992),是外国人最感头疼的一个问题,是教学中的“老大难”问题(李大忠,1996),然而我们根据“HSK语料库”进行考察的数据显示,其难度并不是那么突出,偏误也没有那么严重(张宝林,2009b)。
因此,中介语研究对象应是学习者语言的整体,只有这样,才能认识语言学习过程的全貌。(鲁健骥,1999)在考察偏误的同时,应特别注重考察学习者正确的汉语表达,并将这两方面的表现结合起来进行研究,即把研究从偏误分析提升为表现分析,或称为语言运用分析(performance analysis)。语言运用分析方法分析的仍然是学习者的言语结果(product)。与偏误分析不同,它不是只注意学习者的偏误,而是注意学习者的所有言语(偏误的、正确的),试图全面了解学习者语言发展的轨迹。(孙德坤,1993)这种“轨迹”正是我们所关心的,表现分析才有可能使我们得到更全面、更准确的结论。(张宝林,2009b)而要进行表现分析,就要考察汉语学习者正确的语言表现,这就要在语料库的偏误标注之外,进行基础标注。
基础标注的作用是可以从各种角度对汉语中介语、对学生的汉语习得情况进行全方位的考察、对比与研究,从而彻底避免在以往的研究中存在的一些尴尬现象。例如,查到了学生的偏误,却查不到学生相应的正确语言表现;查到了带有标志词的病句(例如“把”字句、“得”字补语句),却查不到学生回避了标志词的病句。这样就可以使研究更全面,结论更可靠,从而提高对外汉语教学与研究的水平。(张宝林,2008)
我们认为,“偏误标注+基础标注”应成为汉语中介语语料库语料标注的新模式。
基础标注是对语料中正确的语言现象进行标注。具体包括:
由于在汉语书面文本中词与词之间没有空格,不便于计算机处理,因此,汉语书面文本的语料库一般都要做切词和词性标注。(冯志伟,2009)分词是汉语自然语言处理中一项重要的基础工程,是实现以词作为文本处理单位的整个信息处理过程的一个必经阶段。(黄昌宁、李涓子,2002)分词后要对切分出来的词进行词性标注,这样既可以实现按词和词性进行语料查询,也可与其他标注内容配合使用,进行组合查询。例如,经过词性标注和句子成分标注的语料就可以从这两个角度出发,进行名词谓语句或谓词主语句的查询。其他标注也要在这步标注的基础上进行。总之,这是基础标注的根本性工作,在基础标注中占有极为重要的地位。
断句是把全部语料切分为一个一个的单句,其主要作用是:
(1)可以使基于语料库的相关研究在同一层面上进行统计分析。
有些语料库(例如“HSK语料库”)并未把语料切分为单句,我们在统计某类句子的数量时只能以字数为基础来计算某类句子的句数比例。这当然是欠妥的做法,甚至是不合逻辑的,但我们别无他法。其实大部分基于语料库的母语研究也是如此。断句后则可以彻底解决研究中的这一不合理现象,在全部单句的基础上进行句数统计。
(2)为后续的句子成分标注提供了先决条件。
句子成分标注按照结构主义的层次分析法的观点分为主语、谓语、述语、宾语、补语、定语、状语、中心语等8种句子成分,与偏误标注的句子成分相对应。这样做的目的一是可以与偏误标注的结果进行对照,研究者不但可以看到学习者的汉语偏误,也可以看到他们正确的语言表现,使表现分析成为可能。二是可以与词性标注相配合,考察由不同词类充当句子成分的句子的使用情况,以及各种句子成分由何种词语充当的情况。例如名词谓语句、形容词谓语句、谓词主语句等,分别由名词、动词、形容词、数量短语、代词、副词充当定语、状语、补语等的情况,从而使我们对外国人的汉语习得情况得到具体、全面、深入的认识。
显而易见,句子成分标注实际上包含了短语结构标注,例如主谓、述宾、述补、定中、状中、数量等结构类型的短语均可直接提取;通过介词、连词、助词、方位词的检索,来提取介宾、联合、附加、方位等结构的短语,也是易于实现的。
按照胡裕树(1981)的观点,句子可以分为句类、句型和句式。句类是句子的语气分类,包括陈述句、疑问句、祈使句、感叹句。句型是句子的结构分类,包括单句和复句、主谓句和非主谓句、名词主语句、动词谓语句、形容词谓语句、主谓谓语句等。句型是以语言中全体句子作对象加以归纳的结果,句式是以语言中部分句子为对象加以描述的结果,或者说,句式是根据句子的局部特点划分出来的句子类型,例如双宾语句、重动句、存现句、比较句、“把”字句、“被”字句、“连”字句、“是”字句、“有”字句等(邵敬敏,2001)。标注这些内容,研究者就可以对学习者使用汉语各种句子的情况进行考察与研究,特别是那些以往较少甚至从未得到过研究的句子。例如祈使句、感叹句、名词谓语句、主谓谓语句、谓词主语句、重动句、“有”字句等。
需要特别指出的是,有些类型的句子由于数量太多是不需要全部一一标注出来的,例如陈述句、名词主语句、动词谓语句等。以陈述句来说,我们只要标注其中比较有特点的双重否定句即可。
指对语料中书面语色彩非常突出、口语中一般不用的词、句,或口语色彩非常突出、书面语中一般不用的词、句进行标注。一直以来我们在对外汉语教学中,对语体教学不够重视,甚至可以说是在某种程度上忽略了语体教学。而在汉语的实际使用中是存在语体差异的,“书面语和口语的区别是必然而非人为的,它是正式、典雅必须与随便、通俗区别开来、拉开距离的必然产物”(冯胜利,2005)。我们教出来的学生当然不能只会用随便、通俗的口语,在必要的场合也必须会用正式、典雅的书面语,这样才能保证语言使用的得体性。这是对外汉语教学,特别是高级阶段的对外汉语教学必须承担的任务。其实,在教学实践中学生也是存在了解词句语体色彩的学习要求的,在某种程度上说,教师也有了解、掌握语体知识的需求 。在汉语中介语语料库中进行语体信息标注,可以使我们了解外国人汉语语体习得的基本情况,进而采取恰当的教学策略与措施,改进语体教学,提高对外汉语教学的质量与水平。
分词标注即把文本中的字串分隔成词串。鉴于当前汉语自动分词技术已经取得了很大的成绩,分词的正确率已可达到99%左右(黄昌宁、李涓子,2002);语法码(指词类码)的附码目前已能自动进行,对不受限制的语料进行自动附码的正确度可达到98%以上(杨惠中,2002),分词和词性标注可以采取计算机自动处理的方式进行。
需要指出的是,计算机分词与词性标注的正确率虽然已经达到非常高的水平,但所存在的1%—2%的错误率对成百万上千万字的语料来说,其绝对值并不小,对外国人产出的中介语来说,问题必然更为严重。因此,在机器自动标注之后,还要进行大量的人工干预予以校正。例如,我们现在使用的标注系统把“一个”切为一个词,标为“mq”(数量词),即“一个/mq”,应人工将其改为“一/m个/q”。
目前汉语中介语语料库除分词和词性标注采用机标人助的方式外,字、词、句、篇、标点符号的偏误识别及标注均采取纯手工方式进行标注。同样,由于技术条件的限制,基础标注除分词和词性标注外,其他标注也只能以人工方式为主进行。
(1)断句。通过句末标点可以进行自动标注,但这样标注的句子“颗粒度”太大,一个句子中可能包括许多分句(即单句),这对下一步的句子成分标注会产生消极影响,也不利于句数的统计。由于二语者标点符号使用方面的大量偏误,该不该使用句末标点也还是问题,无疑会使情况更加复杂。
可以采用两种方式:一是纯人工标注,二是先根据句末标点用计算机自动标注,再辅以人工干预。第一种方式比较简便,而如要探索提高自动断句标注的方法及其准确性,当然应采用第二种方法。
(2)句子成分序列标注。在汉语中介语语料库建设中,目前尚未见有自动标注句子成分者,缺乏进行自动标注的基本前提,只能采用人工标注的方式。
(3)句类、句型、句式类别标注。句类可以根据标点符号进行自动标注:以句号结尾的句子为陈述句,以问号结尾的句子为疑问句,以叹号结尾的句子为感叹句。但由于句子标注的颗粒度问题,以及二语者标点符号的使用偏误问题,仍需进行人工干预。此外,祈使句可以句号结尾,也可以叹号结尾,机器难以识别,只能以人工方式标注。各种句类的下位类型,如疑问句中的是非问句、特指问句、正反问句、选择问句等,也均需人工标注。
(4)词、句的语体信息标注。一些已有定论且很明显的口语或书面语词语、句式,可以自动标注,前提是内置于计算机中的词表本身要带有语体信息。词表中没有的则需人工标注。例如“荷花儿”“商量”“好看”“清楚”是口语词,“菡萏”“商榷”“美丽”“清晰”是书面语词;“有钱”“嘴里离不开希腊”是口语说法,“拥有钱财”“言必称希腊”是书面语说法;“把肥胖当作美”“有什么错”是口语句式,“以丰腴为美”“何错之有”是书面语句式。
标注工具是实现“人标机助”的基本手段,可以通过“一键OK”的方式代替标注人员记忆代码及其含义、频繁选择和点击字母的负担,最大程度地减轻他们的劳动强度,使他们可以把精力集中在分析、研究、判断、确认语料中各种语言现象及其类型上,从而提高标注效率。此外还可以在相当程度上保证在标注过程中代码使用的一致性。标注工具是标注人员进行语料标注的得力助手,“HSK语料库”“首都语料库”分别使用了不同的标注工具,都取得了很好的标注效果。在今后的语料库建设中,要继续重视其功能,并不断改进,充分发挥其重要作用。
从语料库应用的角度看,这两方面的标注都是必要的。但实践上如何处理两种标注的关系是一个非常麻烦的问题。从理论上来说,两种标注是可以在同一版语料上同时进行的,但是由于标注的内容太多,使用的符号太多,标注起来十分繁复,完成标注后语料已经面目全非,根本无法阅读,标注后必有的审核复查修改工作也难以进行。
解决的办法有两个。一是把偏误标注和基础标注分为两版,在不同版的语料中分别进行不同类型的标注。然后通过程序实现两版语料的彼此连接,同时显示。二是采用隐藏技术,隐去目前处于不活跃状态的标注代码,从而使语料呈现简明洁净的状态。当然也可以将这两种方法结合起来进行标注。实践证明,这样的处理方法是可行的,效果是良好的。
相对于计算机自动标注而言,人工标注方式的准确性较高,但标注速度慢,标注代码使用上的一致性较差。虽然可以通过标注工具的帮助,在一定程度上得到缓解,但问题还是存在的。
人工标注带来的另一个重要问题是标注的质量,如果标注人员没有全面、扎实的语言文字功底,标注中的错误就在所难免。标注后的审核步骤可以纠正一部分错标,但无法完全避免。例如“HSK语料库”(1.0版)对存现句的判定基本上都是错误的,在1.1版中才得到纠正。
标注质量是语料库的生命,是体现其使用价值的一个重要方面。那么,如何对标注人员进行有效的培训,就成为一个迫切需要解决的现实问题。(张宝林,2009b)
可以采取的改进方法包括:
(1)设计完善的、便于操作的标注规范。
“完善”指规范应能涵盖汉语中介语的各种语言现象,可以据其对各种中介语现象进行处理。这就需要在展开大规模语料标注之前,进行小规模的标注实验,建立偏误模型;同时应预留“扩展槽”,以随时容纳新发现的偏误类型。“便于操作”是说规范本身(包括各种代码)应简明扼要,不能给标注人员增加过多的记忆负担。
(2)实施有效的培训。
仅仅通过一两次标注规范的培训是不能解决问题的。可以通过专门课程的形式,详细讲述标注规范的各项细则,并通过反复的实际标注训练,使标注人员深入理解并切实掌握标注的规范与标准,提高标注的能力与水平,从而提高标注质量。
(3)标注后的审核修改。
语料标注完成后,应挑选水平高、能力强、标注效果好的标注人员,对全部已标注语料进行审查复核,以纠正标注中存在的错标及漏标现象。
(4)程序的一致性检验。
通过软件系统对语料的加工标注进行格式和标注符号的一致性校验,以检测人工标注中的错误和不一致之处,修正标注形式上的错误。
冯胜利(2005)论汉语书面语法的形成与模式,《对外汉语书面语教学与研究的最新发展》,冯胜利、胡文泽主编,北京语言大学出版社,北京。
冯志伟(2009)“语料库语言学与计算语言学研究丛书”序,《语料库语言学简论》,Wolfgang Teubert、Anna Cermakova著,世界图书出版公司,北京。
胡裕树(1981)《现代汉语》(增订本),上海教育出版社,上海。
黄昌宁、李涓子(2002)《语料库语言学》,商务印书馆,北京。
李大忠(1996)《外国人学汉语语法偏误分析》,北京语言文化大学出版社,北京。
刘连元(1996)现代汉语语料库研制,《语言文字应用》第3期。
刘珣(2000)《对外汉语教育学引论》,北京语言文化大学出版社,北京。
鲁健骥(1999)《对外汉语教学思考集》,北京语言文化大学出版社,北京。
吕必松(1992)《华语教学讲习》,北京语言学院出版社,北京。
邵敬敏(2001)《现代汉语通论》,上海教育出版社,上海。
孙德坤(1993)中介语理论与汉语习得研究,《语言文字应用》第4期。
王建新(2005)《计算机语料库的建设与应用》,清华大学出版社,北京。
杨惠中(2002)《语料库语言学导论》,上海外语教育出版社,上海。
张宝林(2006)“HSK动态作文语料库”的标注问题,《数字化汉语教学的研究与应用》,张普等主编,语文出版社,北京。
张宝林(2008)“外国留学生汉语学习过程语料库”总体设计,《数字化汉语教学进展与深化》,张普、徐娟、甘瑞瑗主编,清华大学出版社,北京。
张宝林(2009a)“HSK动态作文语料库”的特色与功能,《国际汉语教育》第4期。
张宝林(2009b)汉语句式习得研究的现状与对策,第四届韩汉语言对比国际学术研讨会论文,苏州。
张宝林(2010)汉语中介语语料库建设的现状与对策,《语言文字应用》第3期。