汉语中介语语料库建设研究最新章节_张宝林著

第2节
现状与对策

一、现状

（一）语料库建设的发展

从20世纪60年代开始，经过80年代的复苏，以及90年代、特别是进入21世纪以来的发展，语料库建设已经蔚为大观。其中母语语料库发展极为迅速，不仅数量众多，规模也在不断提升。例如最早的计算机语料库——布朗语料库语料规模为100万词次；（杨惠中主编，2002：4）朗文语料库为2800万词次；（黄昌宁、李娟子，2002：61）英国国家语料库（BNC）达到1亿词次；COBUILD语料库1985年建成时为2000万词次，1995年扩至2亿多词次，2003年达到5亿多词次。（王建新编著，2005：34，32）

中国的语料库建设始于20世纪80年代初期。（张普，1999）虽然出现时间较晚，但同样发展迅速。例如汉语词频统计语料库为200万字次；现代汉语语料库为7000万字次；（刘连元，1996）台湾“中研院”平衡语料库为500万字次；中文五地区共时语料库每年收入的语料达6亿至8亿多字次；（黄昌宁、李娟子，2002：70、76、88）面向语言教学研究的汉语语料检索系统CCRL为8亿多字次。（菁灼，2004）

这些语料库在词典编纂、词汇研究、语法研究、语言教学研究等领域中发挥了巨大作用。

“语料库语言学已经成为语言研究的主流。基于语料库的研究不再是计算机专家的独有领域，它正在对语言研究的许多领域产生愈来愈大的影响。”这种观点不仅仅是语料库语言学家们的自誉，而正在成为整个语言学界的共识。（丁信善，1998）

在这种背景下，从20世纪90年代开始，中国大陆开始建设汉语中介语语料库。经过近20年的发展，语料库建设已初具规模，并在对外汉语教学及相关研究领域发挥了重要的推动作用。

（二）汉语中介语语料库建设现存的主要问题

1. 数量较少，规模较小，语料不够全面。

与国内外众多的母语语料库相比，汉语中介语语料库数量很少，据笔者所知，在21世纪前十年中国大陆已经建成并可以实际使用的汉语中介语文本语料库只有5个。一般来说，这些语料库收集的学习者样本不多，语料规模较小：熟语料多在100万字左右；在全球库诞生之前最大的有400多万字。

例如北京语言学院1995年建成的汉语中介语语料库系统经过处理的精语料为104万字，南京师范大学的外国学生汉语中介语偏误信息语料库收入作文、练习90万字（周文华，2009），中山大学的留学生中介语语料库70万字左右（张舸，2008），暨南大学华文学院的留学生汉语中介语语料库规模达300万字，北京语言大学的HSK动态作文语料库1.1版收入了11569名考生的作文答卷，总字数为424万字。

截至2006年，汉语中介语口语语料库只有一例，即北京语言大学的汉语学习者口语语料库，收入部分考生参加HSK口试的答卷。

语料不够全面主要指两种情况：一是有的语料库（如HSK动态作文语料库）只收入了参加HSK高等考试的考生作文（HSK初中等考试没有写作考试），因而只能对高级阶段学习者的习得情况进行横向的断面考察，而无法对初级和中级学习者的情况进行考察，更无法对学习者的整个学习过程进行纵向的全面研究。（张宝林，2008a）二是语料库中收集的语料以韩国、日本、东南亚各国汉语学习者的语料居多，欧美学习者的语料很少，不利于对欧美学习者的汉语习得情况进行全面、具体、深入的考察与研究。

2. 语料库建设没有统一标准，建库实践带有很强的随意性。

汉语中介语语料库的建设目的是明确的，那就是为汉语教学及相关研究提供一个基础平台，使汉语中介语研究、汉语习得研究、对外汉语教学理论研究、对外汉语教材研究、汉语水平考试研究、汉外语言对比研究等建立在更为扎实的基础上，并为汉语本体研究提供参考，使研究结论具有更广泛的普遍性和更充分的科学性。（张宝林、崔希亮、任杰，2004）但是，汉语中介语语料库应怎样建设？建库的基本原则是什么？语料库整体结构应该是怎样的？应收集什么样的语料？语料规模应多大？应标注哪些内容？应采用什么样的方式进行标注？这些问题至今尚未展开充分的讨论，更没有一个为大家普遍接受的公认的标准。

因此，在建设语料库的过程中，就呈现出一种随意状态，不同的语料库建设者基本上是依据自己的主观认识与想法各行其是。其具体表现是：有的语料库语料规模为几十万字，有的则达几百万字；有的语料是学生平时的写作练习，有的是作文考试答卷；有的语料库除计算机录入的学习者语料之外，还有语料的原始图片，大部分语料库则没有原始图片；有的只经过断句、分词和词性标注等加工处理，（陈小荷，1996a）如汉语中介语语料库系统；有的只标出错别字，或部分偏误句；有的则从字、词、句、篇、标点符号等角度对全部语料中存在的偏误现象进行了穷尽性标注，如HSK动态作文语料库；（张宝林，2006）而对语料中正确的语言表现，则皆未标注；有的语料库带有的学习者背景信息多达十几项，有的语料库则只有很少几项背景信息，等等。

3. 功能不够完善，有些中介语现象检索不便，甚至无法检索。

有的语料库没有电子扫描的原始语料，也没有字处理和语篇处理，因而无法考察学习者在汉字和语篇方面的习得情况。有的语料库（如HSK动态作文语料库）只对语料中的各种偏误现象进行了标注，而未标注正确的语言表现，因而要全面考察学习者的语言习得情况会受到相当大的限制。（张宝林，2008a）由于语料处理方法的缺陷，对有些研究无法提供语料支持。例如在研究“得”字补语句的习得情况时，就无法检索并提取那些该用“得”而未用的补语句。（孙德金，2002）有的语料库查询结果无法输出，有的语料库缺乏统计信息。

这些问题给基于语料库的相关研究造成了诸多困难。

4. 语料标注效率不高，标注质量存在一定问题。

目前汉语中介语语料库除分词和词性标注采用机标人助的方式外，字、词、句、篇、标点符号的偏误识别及标注均采取手工方式进行。相对于机器自动处理而言，这种标注方式的准确性较高，但标注速度很慢，标注符号的一致性较差。虽然可以通过标注工具的帮助，在一定程度上减少标注一致性的差错，但问题依然存在。

手工标注带来的另一个重要问题是标注的质量，如果标注人员没有全面、扎实的语言文字功底，标注中的错误就在所难免。标注后的审核步骤可以纠正一部分错标，但无法完全避免。例如HSK动态作文语料库1.0版对存现句的判定基本上都是错误的，在1.1版中才得到纠正。

更为严重的是，现有的语料库均没有标注错误率的说明。那么在此基础上所做的研究，其结论的可靠性也就大可怀疑了。

标注质量是语料库的生命，是体现其使用价值的一个重要方面。那么，如何对标注人员进行有效的培训，就成为一个迫切需要解决的现实问题。

5. 语料库资源尚不能充分共享。

建设语料库的最终目的是供各界用户使用，其价值与使用人数成正比例关系：使用者越多，则其价值越大；一个语料库如果无人使用，那么也就毫无价值。从目前的实际情况看，有些语料库没有上网，也未向公众开放，一般人无法见到，更无法使用。例如汉语学习者口语语料库完成后即束之高阁，“养在深闺人未识”，没有发挥任何作用。有的语料库（例如HSK动态作文语料库1.1版）虽然已经上网，向所有对汉语教学和汉语研究感兴趣的人士开放，任何人都可以免费使用，但仍有一定限制，用户尚不能完全自由地使用。语料库资源不能充分共享，语料库的价值就无法得到最大程度的发挥。

二、原因

（一）语料库总体设计不周密，存在先天缺陷

语料库本身是一个多学科交叉的非常复杂的系统工程，技术性、专业性很强。对外汉语教学界对其建设过程缺乏深入的了解，又未进行细致的探讨，因而在总体设计中考虑不周，对一些重要问题甚至缺乏考虑。例如语料库的规模究竟应该多大？决定语料库建设规模的因素有哪些？应该收入平时的语料还是考试时的语料，抑或两者皆收？语料背景信息应该包括哪些内容？语料标注应该依据怎样的模式？偏误标注应该包括哪些内容？基础标注应该包括哪些内容？基础标注与偏误标注应分为两版，还是合为一版？应该制定怎样的标注规范？等等。

以往对这些问题或者没有考虑，或者缺乏广泛而深入的探讨，因此语料库的设计带有许多先天的不足，给使用造成了种种不便。举个最浅显的例子，有的语料库连自身到底有多少个句子都说不清楚。那么，存在语料不全、背景信息不全、某些语言项目查询不便甚至无法查询、缺乏统计信息等更大的问题，也就不足为怪了。

（二）语料及学习者背景信息收集困难

语料是语料库的核心素材，语料是否全面是体现其使用价值的又一个重要方面。语料库建设者一般首先想到的是从一线汉语教师手中收集语料，但每位教师所能接触到的学生实际上非常有限，所能积累的语料同样非常有限。收集语料是一件存在多方面困难的艰巨工作，对于教师个人来说，即使是有意识地收集语料，想积累十几万字语料也是很不容易的。（张宝林，2009c）

另一方面，教师的教学任务繁重，主要精力忙于教学，对语料库或缺乏了解，或无暇顾及，加之收发作业周期短暂，缺乏方便快捷的语料收集方式，因而很难收集到全面的、成系统的学生语料。

作文试卷是语料的另一个潜在来源。尽管这种语料的“自然性”较弱，（杨惠中主编，2002：66）但却具有来源可靠、水平真实、干扰信息少等非常重要的优点。只是这种语料涉及考试内容，在教材不变的情况下，为了不影响教学及考试的正常秩序，是不宜或不能在语料库中予以公开的。

这就直接造成了语料库规模较小、语料不全的问题。

从另一角度看，仅有语料还是不够的，如果没有语料作者的相关背景信息，研究者就无法对语料作者的汉语习得情况进行全面而深入的分析，也就不能发现造成某种情况的原因，更难以在分析原因的基础上提出相应的教学对策。而获取学习者的背景信息可能比获得语料本身更不容易，因为很多学习者不愿意透露自己的个人背景。

（三）语料标注规范的两难选择

标注规范是语料标注的蓝图，直接决定着语料标注的原则、内容与方法。从建库实践来看，中介语语料库常常标注偏误信息，但标注的广度与深度存在很大差异：或只处理错别字和部分偏误句，或从字、词、句、篇、标点符号等多种角度进行穷尽性的全面标注。需要特别注意的是：语料库的实用价值与标注内容多少成正比，而标注本身的错误率也与标注内容多少成正比。如果减少标注内容，语料标注的正确率可以相对较高，带来的消极影响是语料库实用性的降低；为了提高语料库的实用性，则应增加标注内容，但标注正确率的下降，还是会影响到语料库的实用性。

从某种意义上说，这是一个两难选择。而理想状态是既增加标注内容，又确保尽可能高的标注质量，进而最大限度地提升语料库的实用价值。

这就必然涉及标注人员的专业培训问题，他们的语言学基础、专业水准及工作态度，将直接关系到语料标注质量。显而易见，几次说明性的培训是难以真正提高标注人员的标注水平的。

（四）受技术水平的限制，语料标注尚无切实可行的自动处理方法

毫无疑问，在标注过程中应尽可能发挥计算机的效用。语料库语言学研究的层面确实已经从词和短语上升到句子和篇章，（甄凤超，2004）但鉴于汉语篇章研究的不充分，汉语学习者汉语表达的不规范，以及自然赋码的实际水平，（杨惠中主编，2002：30）在语料库的标注过程中由计算机自动标注的内容并不多，除分词与词性标注可以由机器自动完成之外（仍需人工校正），大部分标注任务需要由人工完成。例如“语误附码目前尚需手工进行，极为费时费力”（王建新编著，2005：70）。而手工标注的必然后果就是效率低下，标注质量完全取决于标注者的能力、水平、工作态度、精神状态和身体情况，在一定程度上存在错标与漏标、代码不一致的现象。有研究认为，为了避免人工标注出现的错误，保证代码的一致性，可以先用汉字标注，然后再以代码替换。（王洁，2008）然而这个方法在实践上很难实行。

三、对策

（一）在需求分析的基础上，确定恰当的建设目标

建设汉语中介语语料库的最终目标，是要满足对外汉语教学及与其相关的一切研究的各种需要。因此应首先进行需求分析，了解学界对语料库建设的期望与要求，进而建设一个能满足其需求的语料库。我们认为，下列问题都是必须考虑并妥善处理的：

1.学习者类别。汉语学习者可以从不同角度分为不同类别：来华留学生与在其本国学习的学习者，学历生与非学历生，长期进修生与短期进修生，大学生与中小学生，汉语言、中文专业的学生与其他专业的学生，华裔与非华裔，各种不同母语背景的学生，已经取得不同等级的HSK证书的学习者和尚未取得证书的学习者，等等。显然，语料库应包括各种各类的汉语学习者，并能从各种不同角度进行查询。

2.语料种类与规模。应包括来自平时作业、学期课程考试、汉语水平考试的不同语料。

齐夫律（Zipf's Law）的存在使词频和词的排序之间形成反比关系，进而导致了这样一种现象：极少数高频词（型）的出现次数已覆盖了一个语料库总词次数的绝大部分，而词（型）总数中大约一半的词（型）在这个语料库中却只出现一次。一方面，极少数最常用的句法规则就已经覆盖了一个语料库中绝大多数的句法结构现象；另一方面，很多规则在这个语料库中只出现过一次。（黄昌宁、李涓子，2002：30–31）为了适应研究的广泛性，满足对不同语言现象的研究需要，“语料库应该尽可能的大且应该不断增加”。（约翰·辛克莱，2000）我们认为，汉语中介语语料库的总规模至少应在千万字次以上。

3.学习者背景信息。对研究语料有用的信息皆应收入，以便用户可以从多种角度对学习者信息进行检索，从而为相关的研究提供方便。具体包括：语料作者代码、性别、国籍、是否华裔、母语或第一语言、掌握的其他语言及程度，年级、专业、汉语学习时间、学习地点（国内外、京内外）、学习目的，是否参加过HSK考试、参加次数、作文考试分数、考试总分、是否获得水平证书、证书等级，各学期的综合课、阅读课、写作课、口语课、翻译课、词汇课、语法课、修辞课成绩。其中国籍是必备基本信息，母语和汉语水平是非常重要的背景信息。

4.语料信息。应包括：作文或其他成段表达的标题、文体、写作时间、写作地点（课上、课下、考场等）、作文要求、得分。

5.语料库整体结构。应包括生语料库、熟语料库、背景信息库三个部分。生语料库用于存放只经过错字处理的语料；熟语料库用于存放经过各种加工处理的语料；背景信息库用于存放学习者背景信息和语料信息。

6.检索角度及条件。研究者应能从各种角度对语料进行检索，以满足各种不同的研究需要。例如应可以十分方便地进行字、词、短语、句、篇、标点符号等各种语言错误和字数、字频、词数、词频、句数等各种信息的查询、检索、统计，包括对各种偏误和标注进行组合查询，并在此基础上进行各种相关的研究。

总之，汉语中介语语料库应是语料样本众多、规模足够大、背景信息完备、标注内容全面、标注质量精准、检索方式便捷、能够反映各类汉语学习者的汉语学习过程与特征的语料库。

（二）采用先进的技术手段和权威标准，切实解决标注问题

1. 标注模式。

以往的中介语语料库非常重视对语料中各种偏误现象的标注，汉语中介语语料库也不例外。语误附码是对语料中发现的使用者的语误，例如用词错误、拼写错误、句法错误，在分析归类的基础上用附码的形式进行标注。语误附码是分析学习者语料库的重要前提，对研究学习者的语言特点非常重要。（王建新编著，2005：70）中介语语料库，特别是其中的偏误标注，为偏误分析提供了最佳条件。

然而偏误分析是带有片面性的，因为它“只研究中介语的偏误部分，而且是横切面式的静态分析，并未研究中介语的正确部分”（刘珣，2000：202）。这就难免只见树木、不见森林，看不到学习者全部的语言表现，特别是看不到正确的语言表现，进而夸大偏误的严重程度，使研究者形成不全面的认识。例如学界普遍认为是“难点中的难点”（吕必松，1992：111）的把字句，其难度其实并不是那么突出，偏误也没有那么严重。（张宝林，2011a）

因此，“中介语研究对象应是学习者语言的整体，只有这样，才能认识语言学习过程的全貌”（鲁健骥，1999：6）。在考察偏误的同时，应特别注重考察学习者正确的汉语表达，并将这两方面的表现结合起来进行研究，即把研究从偏误分析提升为表现分析，或称为语言运用分析。

“……语言运用分析方法分析的仍然是学习者的言语结果（product）。与错误分析不同，它不是只注意学习者的错误，而是注意学习者的所有言语（错误的、正确的），试图勾画出学习者语言发展的轨迹。”（孙德坤，1993）这种“轨迹”正是我们所关心的，表现分析才有可能使我们得到更全面、更准确的结论。（张宝林，2011a）为此，在语料库的偏误标注之外，还应该进行基础标注。

基础标注是对语料中正确的语言现象进行标注。具体包括：（1）分词及词类序列标注；（2）句子成分序列标注；（3）句类、句型、句式类别标注；（4）词、句的语体信息标注；（5）语义信息标注；（6）语用信息标注。

基础标注的作用是可以从各种角度对汉语中介语、对学生的汉语习得情况进行全方位的对比、考察与研究，从而彻底避免在以往的研究中存在的一些尴尬现象。例如：查到了学生的偏误，却查不到学生相应的正确语言表现；查到了带有标志词的病句（例如把字句、“得”字补语句），却查不到学生回避了标志词的病句。这样就可以使研究更全面，结论更可靠，从而提高对外汉语教学与研究的水平。（张宝林，2008a）

我们认为，“基础标注+偏误标注”应成为汉语中介语语料库语料标注的新模式。

2. 标注方法。

（1）标注代码的通用化。

语料标注应使用通用代码，制定业界普遍接受的标注代码，是汉语中介语语料库建设的当务之急。

（2）偏误标注与基础标注。

这两方面的标注都是需要的，在标注实践上可以在同一版语料上进行两种标注，也可以分为两版分别标注。

在目前的汉语中介语语料库中，全球库标注内容最多，标注符号最全，可以以之为基础开发新的通用代码。

（3）采用数字墨水技术。

HSK动态作文语料库中同时收入了两种语料：原始语料的计算机录入版语料和电子扫描版语料。电子扫描版语料可以使用户直接看到学习者书写的语料原貌，可以满足汉字研究方面的需求。但标注是在录入版语料基础上进行的，这种标注与扫描版没有联系，标注内容在扫描版语料中不能得到体现。而使用数字墨水技术，不但可以直接在扫描版语料中勾画存在偏误的字、词、句、篇，而且可以与录入版语料建立联系，使各种偏误可以在两版语料中同时体现，直接定位。这将为用户检索各类偏误带来极大的方便。（参见图1–4、1–5 ）

图1-4 采用数字墨水技术的标注方法

图1-5 录入版和扫描版语料直接对应

（4）自动标注。

自动标注具有极大的优越性，是语料标注的远景目标，乃至最终目标。目前除分词和词性标注已经达到实用水平之外，其他层面的自动标注尚难以实行，对于存在种种偏误现象的汉语中介语而言，尤其如此。在建库实践中应积极探索，不断尝试，逐步推进自动标注。

3. 标注工具。

标注工具是一个软件程序，是标注人员进行语料标注的得力助手，可以降低他们的劳动强度，提高标注效率，并能够在相当程度上保证在标注过程中代码使用的一致性。

4. 分词与词类标记规范。

分词和词类标记是汉语语料库建设的基础环节，是汉语语料库的深加工和汉语句法自动分析等工作的前提，因而迫切需要制定《信息处理用现代汉语词类标记规范》，提供一套面向信息处理的、统一的现代汉语词类标记代码体系，以降低数据转换的代价。（教育部语言文字信息管理司，2007）汉语中介语语料库同样需要这样一个规范，而且是最权威的规范、分词标准及词性标注系统。

5. 标注质量。

汉语中介语语料中包含多种语言现象，既有正确的语言现象，也存在大量偏误。要对这些语言现象进行准确的识别与标注，即便是由专业人员进行标注，也殊为不易，并且还存在标注不一致问题。可以通过下列方法来尽最大可能解决标注质量问题：设计完善的、便于操作的标注规范；实施有效的培训；对标注结果进行审核修改；通过软件程序进行标注结果的一致性检验，等等。

（三）多方合作，互利共赢，实现最充分的资源共享

目前，汉语中介语语料库建设多采取“一家一户”的个体生产方式，既不吸纳别人的研究成果、实践经验和语料，也不贡献自己的研究成果、实践经验和语料。我们认为这种状况对语料库的建设和发展极为不利，因为一家的语料总是有限的，其代表性有所欠缺；自己的经验也难免有所不足，很难使语料库建设达到一个很高的水平。因此，语料库建设应打开大门，与国内外汉语教学单位真诚合作，共襄盛举，互利共赢，以实现最充分的资源共享。

语料是语料库建设的基础，合作应从语料开始。应广泛收集汉语中介语语料，包括国内外的、特别是欧美汉语学习者的语料。这样就可以改变汉语中介语语料库规模较小，语料不够全面的缺陷，甚至可以建成一个面向全球的、语料规模非常充足、可以满足一切相关研究需要的语料库。

合作方式可以是多种多样的。例如可以单纯提供语料，不同单位也可以根据自身条件各负责语料库建设的一个方面，已经建好的语料库还可以搭建语料库网，为用户提供最好最全的研究资源。

合作的前提是平等自愿、互利共赢。不论何种教学单位、不论以何种方式进行合作、不论做了何种具体工作，都是实际参加语料库建设的共建单位，都应在语料库的相关说明中予以公开标示；共建单位的任何人都可以高级用户身份无偿地使用语料库；如果需要，提供语料的单位可以获得一个用自己提供的语料建成的小型语料库，用来研究自己单位的教学情况，研究自己的学生的汉语习得情况。

（四）向所有用户免费开放，同时呼吁相关立法

建设语料库的目的是为全球的汉语教学及相关研究服务，语料库价值的集中体现是使用，束之高阁的东西是毫无价值的，用户越多，语料库的价值就越大。因此，语料库建成后应放置在网络上，向所有用户免费开放，任何用户都可以普通用户的身份登录使用，进行语料检索。

当然，登录语料库有一个前提，就是限于非商业目的。如果有人试图把免费共享的语料库拿去商品化，我们是坚决反对的，这也是我们把用户分为普通用户和高级用户的根本原因。基于这种考虑，我们在全面开放语料库的同时，呼吁相关立法，以保障知识产权。

只有这样，才能充分实现资源共享，更好地为全世界的广大用户服务。

第2节 现状与对策