购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

汉语中介语语料库的设计理念与功能

张宝林
(北京语言大学)

提 要: 自2015年以来,汉语中介语语料库建设与应用出现了一些新问题。例如,因存在网络安全问题而不能正常开放;检索功能过于简单,有些中介语现象难以查询;由于设计缺陷导致使用不便等。在新形势下,语料库建设应与时俱进,调整设计思想,重新定位设计理念,向精细化方向发展。其要点有三:1.重视网络安全,确保语料库正常运转与开放;2.语料库功能全面、强大,可以满足用户的使用需求;3.语料库界面友好,操作简便,响应迅捷。

关键词: 汉语中介语语料库;设计理念;功能;软件系统;2.0时代

一、引言

1.1 近年来的新问题

自1995年“汉语中介语语料库系统”诞生以来,基于语料库的汉语习得研究和中介语研究从少到多,不断发展,取得了长足的进步。赵金铭等(2008)、张博等(2008)、肖奚强等(2009)、张宝林等(2014)都是代表性研究成果。在这种研究的积极作用下,传统的小规模、主观思辨式的研究范式被彻底动摇,逐渐转变为基于大规模真实语料的、定性分析和定量分析相结合的实证性研究范式,极大地促进了汉语教学与相关研究的发展。这种基于语料库的研究成果又反作用于语料库建设,使越来越多的学者、教师投身其中,以至于“汉语中介语语料库建设渐成高潮,‘成为语料库研究中的热点’(谭晓平,2014),正在跨入一个繁荣发展的重要时期”(张宝林,崔希亮,2015)。语料库的建设与应用研究可谓彼此促进,相得益彰。

然而,从2016年开始,基于语料库的汉语教学与相关研究突然呈现出减少的势头。仅以HSK动态作文语料库为例,在CNKI中查询,虽然据其研究发表的各类论文总数依然保持增长,达3 129篇(截至2018年1月21日),但从2016年起出现了向下的拐点。(见下图)

年度发文数量统计分析图

由上图可见,2008年起基于该语料库的相关研究明显增长,2011年起大幅增长,2015年达到顶峰606篇。此后,2016年降至554篇,2017年进一步降至330篇,年度发文量近乎腰斩。

如此巨大的变化与反差令人愕然,人们不禁思考其原因究竟何在。是因为HSK语料库不能满足教学与研究的需求了吗?但该库2008—2018年之间并无变化,似乎不能断定2016年作为转折点,其前后是否能作为满足需求的标准。有这样的变化,是因为有了新的更好的语料库,研究者不再需要HSK语料库了吗?似乎并不是,因为2016年前后并没有新的汉语中介语语料库对学界开放,反而是当时仅有的对外开放的3个语料库之一不再开放了。 是人们对偏误分析、习得研究的兴趣下降了吗?似乎也不是,还是不断有人在做这些方面的研究。那么原因究竟何在呢?

根据2015年开始出现,2016、2017年显得更为频繁的HSK语料库因网络安全问题频频被关闭,最后被彻底关闭的实际情况,我们得出的结论是:该语料库由于开发时间较早,采用的编程语言和技术陈旧,导致系统存在安全漏洞,达不到开放要求,因而无法继续对国内外开放,影响了其为汉语教学与相关研究服务功能的发挥。

面对如此局面,我们进行了多方努力,例如经常性地给系统打补丁,解决了部分问题,可以在校园网上对校内开放(受到网络攻击时,仍需关闭)。但并不能满足国内外学界的使用需求,引起学界较大反响。例如中山大学周小兵教授就曾给笔者发来微信,表示因HSK语料库关闭而给学界带来的不便: “贵校语料库现在进不了。研究生(博、硕)写论文急用!” (周小兵,2017年9月19日晚19:12)

为了进一步方便大家使用,北京语言大学信息科学学院的荀恩东教授把HSK语料库的全部语料复制到BCC语料库上,这样大家至少可以看到HSK语料了。但BCC是母语语料库,和HSK语料库的检索方式不同,经过偏误标注的语料无法查询,使用还是很不方便,仍然难以满足学界需求。

1.2 解决办法

面对语料库关闭而学界急需使用的现实,为了继续贯彻落实我们秉持的“积极主动、全心全意为全世界的汉语教学与研究服务”的语料库建设宗旨,我们决定采用目前主流的计算机语言,重新开发HSK语料库的软件系统,以便继续乃至更好地为国内外的汉语教师、学者、科研人员、研究生、汉语学习者服务。

我们的想法得到了北语校领导的支持和批准,得到了语言资源高精尖创新中心的支持和资助。

经过长达半年多广泛的市场调研,我们选择北京惟数科技有限公司作为合作伙伴,和我们一起重新构建语料库软件系统。系统研发工作于2018年1月5日签约开始实施,2月11日完成并部署到服务器上;经试运行与调试,于3月28日正式对外开放。版本序号确定为“HSK动态作文语料库(2.0版)”,当时的网址为:202.112.194.56:8088/hsk。为了方便大家记忆,后改为:hsk.blcu.edu.cn。其安全性能优异:顺利通过安全扫描,不仅没有高危和中危漏洞,甚至连一个低危漏洞也没有,获准继续对外开放。由此,我们完全实现了重建语料库系统的目标,HSK语料库可以满足学界的使用需求,继续为全世界的汉语教学与研究提供服务。我们为此感到由衷的欣慰。

二、设计理念

2.1 宗旨

我们在汉语中介语语料库建设中一贯秉持的宗旨是“为对外汉语教学与研究服务”,并在2014年暑期召开的第三届汉语中介语语料库建设与应用国际学术研讨会上进一步将此宗旨概括为“积极主动、全心全意地为全世界的汉语教学与研究服务”。

作为我国唯一的一所以对外国汉语学习者进行汉语、中华文化教育为主要任务的国际型大学,北京语言大学有责任、有义务确立并落实这一宗旨。作为汉语母语者和中国文化的传承者,作为汉语教师,作为汉语中介语语料库的建设者,确立并贯彻落实这一宗旨更是我国汉语学界的责任、义务与使命。为全世界的汉语学界提供优质资源,为全世界的汉语教学与研究服务,我们义不容辞。

正是在这一认识和宗旨的指导下,HSK语料库不论是2006年底建成上线的1.0版,还是2008年8月升级的1.1版,以及此次重新研发的2.0版,均在建成上线的第一时间即向海内外各界用户免费开放,使我们所秉持的宗旨落到了实处。

2.2 理念
2.2.1 安全稳定,正常运转

本次重建语料库软件系统,纯粹是因网络安全问题而起。因此,重建语料库的第一个要求就是不能有任何安全隐患,必须确保语料库能够正常运转,持续不间断地为学界服务。具体来说,首先是新的语料库系统不能有任何高危和中危漏洞,低危漏洞也应尽可能保持在最低限度,能够顺利通过相关部门和单位组织实施的安全检测。其次是当出现高危和中危漏洞时,能够迅速响应,及时解决问题,从而确保语料库正常开放而不致关闭。这是互联网时代信息技术迅猛发展带来的新问题,语料库建设者对此必须予以高度关注与充分重视。

2.2.2 功能强大,满足需求

HSK语料库1.0版和1.1版建于汉语中介语语料库建设的草创时期,是1.0时代的产物(张宝林,2019),带有明显的时代烙印:简单粗放,功能不全,难以满足用户多方面的使用需求。例如可以查询离合词“合”的用法,而不能检索“离”的用法;可以检索带有一个标志词的特殊句式,例如“把”字句、“比”字句等,而不能查询“是……的”句、“连”字句等带有两个标志词的句式。这样导致的后果是很严重的,因为只看离合词“合”的用法无法全面考察二语者使用汉语离合词的实际情况,而在不全面的考察基础上得出的研究结论也完全可能是不全面的,甚至是错误的;不能检索某些句式即不能为相关研究提供方便,语料库的价值也就无法实现。新的语料库系统应该解决这些问题,方便用户查询各种语言现象,从而更好地为汉语教学与研究服务。

2.2.3 界面友好,简便迅捷

HSK语料库1.0版和1.1版还存在其他一些设计不周、使用不便的问题,例如查询到的语料不能自动下载,以致有的用户反映,“查询到的语料很多,只能一页一页地手动下载,手腕都酸了”;用户浏览语料时不能按照自己的阅读习惯调节呈现的语料数量;在使用语料库时遇到问题不能方便地及时和管理员沟通并反馈意见;用户发现语料录入与标注方面的问题与错误无法对其进行修改,只能让错误继续存在,继续给后面的用户带来困扰,等等。新系统也应解决这些问题,使其更加人性化,使用户能够更方便地使用语料库,甚至能够修正所发现的语料库中的错误。

三、功能设计

3.1 检索
3.1.1 检索工具/方式的作用

语料库从设计到施工再到建成可供使用是一项非常复杂的跨学科系统工程,需要投入大量的人力、物力、财力,需要解决大量能够预见到和无法事先预见的问题与困难,其中的艰难困苦只有亲身从事过这一工程的人才能体会与感知。但建库的这些艰辛与语料库的最终用户并无关系。对广大用户来说,他们使用语料库的基本方式是语料检索;从他们的角度看,语料库的价值在于语料的检索、呈现与获取。他们所关心的是语料库的检索方式是否能够查询到他们所需要的语料,是否能为他们的教学与研究工作提供收集和检索语料的方便。这是很自然的,完全可以理解。

语料检索应包括对具体的字、词、短语、句子的检索,对标注内容的检索,对特殊句式、固定与半固定结构、复句、离合词“离”的用法等的特殊条件检索,词语搭配检索,按词性检索 。语料检索应可以从语料作者的国籍、性别、年龄段、作文题目或口语话题、分数、语料性质等角度进行;应可以检索偏误语料、正确语料等全部语料。

语料检索方式应像“傻瓜相机”一样“傻瓜化”,简单、简便、简易,容易上手,无须学习即可使用。对语料检索来说,“正则表达式”可以提高检索的功能与效率,非常有用,但需将其简化或文科化,便于文科背景的研究者使用。

3.1.2 字符串一般检索

这是语料库的基本检索功能,可以对语料库中具体的字、词、短语、句子进行检索。一般来说,任何语料库都具备这项功能。就HSK语料库而言,还可以设定检索条件,包括考生国籍、作文题目、证书等级、考试时间、考试分数等。

需要注意的是,检索条件中有两个“作文分数”,可以表示前后两个分数的选择区间,比如前面的分数定为60,后面的分数定为80,表示60—80之间,检索这个分数段之间的语料。

下面是对具体的字、词、短语、句子的查询实例。

字查询以“帮”为例。

词查询以“帮助”为例。

短语查询以“帮助别人”为例。

句查询以“我们应该帮助别人”为例。

离合词“离”的用法查询以“帮忙”和“见面”为例,在离合词的两个构成成分之间加一个空格,例如“帮 忙”“见 面”,即可查到相关语料。

3.1.3 句篇检索

HSK语料库对外国人参加高等汉语水平考试作文考试的作文答卷从字、词、句、篇、标点符号等5个层面做了穷尽性的偏误标注。其中字、词、标点符号的偏误语料可以在字符串一般检索中查询,也可以在统计信息中的字汇总、词汇总中进行查询。句、篇检索则是对句子、语篇偏误进行查询。

例如“把”字句偏误。

又如语篇偏误。

上述两种搜索方法在该语料库1.0版、1.1版中都有,可以解决偏误标注语料和其他一些语料的查询问题。

3.1.4 高级检索

高级检索包括特定条件检索和词语搭配检索,是2.0版新增加的检索方法,可以查询到更多不同类型的语料,进一步增强了语料库的功能。离合词“离”的用法也是2.0版新增加的。

3.1.4.1 特定条件检索

这种检索方式适用于检索有两个标志词的特定句式、半固定结构和复句。这种检索方式之所以具有比较强大的检索功能,是因为使用了正则表达式。正则表达式被用于语料检索是很常见的一般方法,只是对于文科背景的语言学专业人员来说显得比较陌生,另外操作上也比较烦琐,需要背记一些公式。HSK语料库根据文科生的专业背景和思维习惯,对正则表达式进行了文科化改造,把数学公式简化为框式结构,在相应的位置填入相应的标志词即可查询。使用简便,十分适合文科生使用。

例如“是……的”句、“连”字句检索。

固定结构检索以“爱……不……”“一……就……”为例。

复句检索以“或者……或者……”为例。

需要注意的是,这种检索方式仍然是形式检索,语料中只要有设定的检索词就会被检索出来,实际上可能并不是所要查询的语料。例如上面例子中的“爱情不是长久不衰的”“对朋友的爱不是对父母的爱也不是对爱人的爱”和半固定结构“爱……不……”是没有任何关系的。

3.1.4.2 词语搭配检索

这种检索方式是对某词前面或后面的共现词语及其频次进行查询的方法。用这种方法可以检索到某词左面或右面搭配的是什么词,统计相应搭配频次并按频次降序排列。这种检索方式意义十分重大,因为它所获得的某词前后搭配的词语及其频次信息,正是该词的用法。检索结果等同于《词语搭配词典》,可以为汉语教学提供重要的参考。

以“汉语”为例,其左侧最多的搭配词语是“学习”,频次达585;排在第二位的“学”频次为523,是出现最多的两个搭配词语。可见“学习汉语”和“学汉语”是学习者使用最多、掌握最好的两个搭配;从汉语教学的角度看,也是最应该教给学习者的用法,应作为教学重点。而左侧出现“对”的频次为48,“觉得”只出现了9次。右侧搭配最多的是助词“的”,频次为491;右侧搭配逗号,即“汉语”用在句尾的情况也比较多,频次为344;后接“有”的频次为28,后接“越来越”则只有4次。具体情况可参见下面的截图。

3.2 语料呈现

为了尽可能给用户的教学和研究提供方便,除检索到的语料本身之外,语料呈现应带有背景信息,包括语料作者的背景信息和语料自身的背景信息。检索到的标注语料根据其语料形态,应同时配有作文/口语/视频等形式的原始语料。为了适应不同用户浏览网页的不同习惯,应可以由用户自主设定每页显示的语料数量。

语料背景信息详见下图。

上面语料的背景信息包括作者的国籍、性别、考试时间、作文题目,以及主观性考试的口语考试、作文考试成绩和客观性考试中的听力部分、阅读部分、综合表达部分的考试成绩,还有考试总成绩和证书获得情况。这些背景信息对于研究、判断学习者的汉语习得情况具有重要作用。

下面是原始作文语料和语料的标注版全文。

用户可以根据个人的阅读习惯自行设定每页显示的语料条数。

3.3 数据统计

HSK语料库对全部语料进行了统计分析,得出了众多的统计数据。通过这些数据可以了解语料库概况,包括总字数、总词数、作文题目总数和总篇数;可以了解字、词、句、篇、标点符号的各类偏误数据,按字、词、标点统计的偏误数据,按年份、国家、HSK证书情况统计的用字用词情况等。这些数据对研究学习者的汉语习得情况非常有用,可以为汉语教学提供重要参考。

下面是一些统计图表的截图示例。

3.4 其他
3.4.1 众包维护

大规模中介语语料库主要采用人工标注方式,且标注员数以百计,标注的不一致情况,乃至错漏在所难免。语料标注过程中虽有质量监控,但仍不能完全解决问题。而根据众包理念,设置用户对录入版语料和标注版语料中的错漏进行修正的功能是提高语料库质量的一个有效手段。

具体方法:双击待修改语料,打开对话框进行修改编辑—提交待更新—后台审核—发布并替换原语料。其中的审核环节由语料库管理员执行,即经其确认后用户所做的修改才能替换原来的语料。这个环节颇为重要,可以避免潜在的用户不慎做出的不正确修改。这样行众包,集众智,可以切实提高语料录写与标注的质量,使其更好地为广大用户服务。

3.4.2 留言与反馈

用户在使用语料库时由于对语料库缺乏足够的了解,难免会遇到各种问题需要解答,因此他们针对问题会对语料库提出一些意见、建议等,这对语料库的建设与改进具有重要参考价值。需要有一个能够有效沟通语料库建、用双方的联系与反馈渠道迫在眉睫。HSK语料库采取的办法是增加了“反馈留言”功能,以便于广大用户与语料库建设者的沟通、交流与探讨。详见下图。

从HSK语料库的实际情况看,该功能起到了很好的沟通作用。例如多位用户询问为什么最多只能下载500条语料,希望能把查到的语料全部下载下来。我们及时做了解释——用户:你好!本语料库下载条数限500条。因为按照统计学的观点,不论总体多大,400个样本只要是随机取样得到的,就具有了足够的代表性,据其进行研究得到的结论就是科学的、可靠的。可以下载的500条语料是随机取样的,所以是足够的。谢谢!

需要注意的是,HSK语料库面向全球用户开放,用户随时都会提出问题。语料库建设方应安排专人负责随时查看留言,及时回应并解决问题,优化语料库的使用功能。

3.4.3 个人工作区

在语料库中设置“个人工作区”是一个很好的创意,可以具有很多实用功能。例如用户可以在此对自己的相关信息进行维护,录入员可以在这里提取语料进行录入与转写,标注员可以进行语料标注,用户可以在这里进行语料分析与研究乃至论文撰写。总之,可以使其成为建设者建设语料库、用户使用语料库进行相关研究的工作平台。目前HSK语料库中的个人工作区功能还很单薄,应该予以充实。

3.4.4 语料自动下载

针对以往用户使用语料库的不便,HSK语料库2.0版设置了自动下载按钮,查询到的语料可以自动下载,方便快捷,避免了手工复制下载的辛劳。

需要说明的是,语料库可以设置下载条数限制功能,例如以500条语料为限:500条以下全部下载,500条以上通过随机程序随机下载。这样做并非心血来潮,随意而定,而是有充分的统计学依据的,是可以保证相关研究的科学性的。请看下表(张勇,2008)。

表1 总体大小与所需样本量表(取 P =0.5计算)

从该表来看,样本量首先与总体大小密切相关,不知总体大小即无法确定样本量。除非把样本量确定为370—400之间,因为总体达到5 000以上,样本量即已基本趋于稳定。样本量还与置信度、标准差紧密相关,置信度分别为90%、95%、99%,误差分别为10%、5%、1%时,样本量都是不同的。把可下载语料数定为500条,比400条还高出100条,且是随机抽取的语料,是足以支持相关研究的。

3.4.5 增加、积累相关资源

在语料库中加入与汉语教学密切相关的实用性资源,可以为用户提供教学与研究的极大方便。例如《对外汉语教学语法大纲》(1995)、《中高级对外汉语教学大纲(词汇·语法)》(1995)、《对外汉语初级阶段教学大纲》(1999)、《对外汉语教学中高级阶段功能大纲》(1999)、《高等学校外国留学生汉语言专业教学大纲》(2002)、《高等学校外国留学生汉语教学大纲(长期进修)》(2002)、《高等学校外国留学生汉语教学大纲(短期强化)》(2002),以及《汉语水平词汇与汉字等级大纲》(1992)、《汉语水平等级标准与语法等级大纲》(1996)、《国际汉语教学通用课程大纲》(2008)、《商务汉语考试大纲》(2006)、《汉语国际教育用音节汉字词汇等级划分》(2010)、《欧洲语言共同参考框架——学习、教学、评估》(2008),乃至《现代汉语常用字表》(1988)、《通用规范汉字表》(2013)等,都可以收入语料库,供用户在教学与研究中使用,都是很有意义的。 当然这里有一个版权问题,需要事先征得作者与出版单位的同意,才能收入语料库。

一些研究中形成的分析数据同样如此。例如我们在研究中曾把语料库中的用字和《汉语水平词汇与汉字等级大纲》中的汉字进行对比,发现大纲中的汉字为2 905个,HSK语料库中不同的汉字有3 904个,学习者实际掌握的汉字多于大纲999字。3 904个汉字中有纲内字2 778个,占71.16%;超纲字1 126个,占28.84%。

再和供母语者使用的《现代汉语常用字表》(1988)相比。字表中共有3 500个常用字,分为2 500个常用字和1 000个次常用字。语料库中的3 904字,与《现代汉语常用字表》对照,表内字共计3153个,具体分布情况为:常用字2452,占2 500个常用字的98.08%;次常用字701,占1 000个次常用字的70.1%。根据这些研究与发现,我们整理了《2 500常用字与HSK比较按字音排序表》《2 500常用字与HSK比较按总频次排序表》和《2 500常用字与HSK比较按错误频次排序表》,并放入统计信息中,对汉字教学具有重要参考价值。

四、结语

1.建设语料库的宗旨与根本目的是为全世界的汉语教学与科研服务,而保证这种服务功能实现的前提是确保语料库始终可以对外开放。这就要求语料库系统安全,不能有任何高危、中危漏洞。这是新的信息技术发展带来的新情况与新问题,必须引起语料库建设者的高度重视。

2.语料库软件系统的改进可以提升语料库的功能,可以更好地满足用户的使用需求。例如:检索方式的改进与丰富使用户可以查询以往无法查询的一些词、短语和句子。丰富而实用的统计信息对教学与研究具有重要的参考价值。界面友好,设计一些人性化的功能,例如语料呈现条数的自主设定和自动下载,可以为用户提供使用方便,改善用户体验。用户对语料及其标注的修改功能可以行众包,集众智,不断提高语料库标注质量。

3.语料库的服务对象是用户,广大用户对语料库应有什么样的功能最有发言权,他们在使用语料库过程中的问题、意见与建议对语料库建设具有重要意义,要及时了解并尽快予以改进。因此,语料库建设者与用户的沟通十分重要,需保持通畅、有效的联系渠道,“反馈留言”功能即联系渠道之一。

4.以往的汉语中介语语料库建设比较注重语料规模、标注的内容与方法,而对语料库的管理系统、检索系统的研发缺乏重视,而实际上包括管理系统和检索系统在内的软件系统的研发具有十分重要的作用,可以提升语料库的实用功能,提高语料库的建设水平。从这个角度看,以往的语料库在设计和建设上都比较简单粗放,处于语料库建设的草创时期,或者说是语料库建设的1.0时代。而HSK语料库2.0版的开发使我们认识到软件系统的重要作用,好的软件系统可以使语料库功能强大、使用方便,具备精细而丰富的特征,推动语料库建设跨入了2.0时代。从简单粗放的1.0时代向精细化发展的2.0时代发展与过渡,体现了汉语中介语语料库建设的发展与进步,也是时期发展、技术进步的必然结果。

从1.0时代走向2.0时代,具有一些重要特征。

语料标注:个别层面标注→全面标注

标注模式:偏误标注→偏误标注+基础标注

检索方式:简单检索→复杂检索

建设理念:分包→众包

研究范式:偏误分析→中介语综合考察

数据观:个别数据→大数据

可以说,以HSK语料库2.0版为标志,汉语中介语语料库建设从1.0时代跨入了2.0时代。2018年可以视为2.0时代元年。

参考文献

[1]谭晓平,2014.近十年汉语语料库建设研究综述[M].第七届北京地区对外汉语教学研究生论坛论文.

[2]肖奚强,等.2014.外国学生汉语句式学习难度及分级排序研究[M].北京:高等教育出版社.

[3]张博,等.2008.基于中介语语料库的汉语词汇专题研究[M].北京:北京大学出版社.

[4]张宝林,等.2014.基于语料库的外国人汉语句式习得研究[M].北京:中国书籍出版社.

[5]张宝林,2019.从1.0到2.0——汉语中介语语料库的建设与发展[J].《国际汉语教学研究》第4期.

[6]张宝林,崔希亮.2015.谈汉语中介语语料库的建设标准[J].《语言文字应用》第2期.

[7]张勇,2008.样本量并非“多多益善”——谈抽样调查中科学确定样本量[J].《中国统计》第5期.

[8]赵金铭,等.2008.基于中介语语料库的汉语句法研究[M].北京:北京大学出版社. zLIvH9xU3Jx1IrEpYhDfYX6p2m809F+xBZ8giE3fe6535vGdaEBAuIx5Pjh75YQv

点击中间区域
呼出菜单
上一章
目录
下一章
×