1995年,汉语中介语语料库系统问世。该语料库是中国国家教育委员会“八五”人文社会科学科研规划项目,中国国家对外汉语教学领导小组办公室 “八五”科研规划项目,北京语言学院“八五”科研规划重点项目,于1992年底立项,由北京语言学院储诚志、陈小荷主持建设,1995年11月15日通过专家鉴定。其原始语料来自北京语言学院、首都师范大学、中国人民大学、北京大学、北京师范大学、安徽师范大学等9所高校,作者包括96个国家和地区的1635位外国学生,语料性质为成篇成段的汉语作文或练习材料,规模达到5774篇,约353万字。以此为基础,根据抽样方案抽取了740位作者的1731篇约104万字的语料作为样本加工入库。(参本刊记者,1995)对这些语料做了“断句、分词和词性标注等加工处理”(陈小荷,1996a)。
该语料库系统的问世绝非偶然,而是有着深刻的学术背景。我们认为,下面三个因素对其具有重要影响。
详尽地、大量地占有材料,以求在理论上得出一个比较有限而可靠的结论,一向是中国语言学研究的优良传统。但“传统的语言材料的搜集、整理和加工完全是靠手工进行的,这是一种枯燥无味、费力费时的工作。计算机出现后,人们可以把这些工作交给计算机去做,大大地减轻了人们的劳动。后来,在这种工作中逐渐创造了一整套完整的理论和方法,形成了一门新的学科——语料库语言学(corpus linguistics),并成为了自然语言处理的一个分支学科”(冯志伟,2002)。例如语言科学史上第一个大型计算机语料库——SEU语料库以及布朗语料库均为100万词次;COBUILD语料库为2000万词次;朗文语料库为2800万词次;英国国家语料库(BNC)达到1亿词次;国际英语语料库(ICE)达到2亿词次。(参黄昌宁、李娟子,2002:44–46,55–67)国内早期的语料库,例如武汉大学建设的汉语现代文学作品语料库(1979年),527万字;北京航空航天大学的现代汉语语料库(1983年),2000万字;北京师范大学的中学语文教材语料库(1983年),106.8万字;北京语言学院的现代汉语词频统计语料库(1983年),182万字;北京语言学院还建设了当代北京口语语料库(1992年)。(冯志伟,2002)
这些语料库的建设标志着语言研究手段的科学化与现代化 ,它终结了语言研究处理资料的“卡片时代”,极大地提高了语言研究的效率和水平。它使语言研究、语言教学与习得研究和统计分析相结合,具有了实证研究的性质;为汉语中介语语料库的建设提供了理念、方法和技术保障,奠定了坚实的物质基础。
孙德坤(1993)指出,与国内儿童习得汉语的研究相比较而言,“外国人的汉语习得研究几乎还是一片空白”。“无论研究哪种学习对象,对他们语言状况(中介语)的描写都是一项首先要做的基础工作,而要客观地、准确地描写出他们的中介语,从语料搜集到语料分析直至中介语的最后确定,我们都面临着一系列还未解决的理论和方法上的困难与问题。因此寻求有效的研究方法,是当前和今后一段时间内的艰巨任务。”鲁健骥(1993)认为,在对中介语进行描写时,中介语的阶段划分、难点的确定、中介语实证研究中的随机取样等都是很困难的。而汉语中介语语料库恰恰可以为这些研究工作提供方便,满足其十分迫切的研究需求。
该会议于1992年5月在北京举行。会议宗旨是为了进一步深化我国的语言教学理论和教学法研究,推动我国语言学习理论研究的开展。长期以来,汉语教学领域的研究重点集中在学和教的内容以及执教者怎样教这两方面,学习者怎样学则成了理论研究最薄弱的环节。由于对学习者的学习规律知之甚少,对语言教学规律、对语言本身的认识都受到了限制。与会者提出,语言学习理论研究在我国现阶段的紧迫任务之一,是切实有效地开展语言学习理论的研究工作。要以课堂教学为立足点,以中介语研究为突破口,有重点地开展长时间、全方位、多角度、大规模的调查实验工作。(参张旺熹,1992)这种调查实验工作对汉语中介语语料库的需求已经呼之欲出,是汉语中介语语料库产生的直接原因。
该系统鉴定委员会的专家们认为,系统的研制成功,标志着我国对外汉语教学领域的语言学习理论研究开始进入一个实质性阶段。它不仅是对外汉语教学研究、中介语研究和汉语研究、偏误分析的宝贵资源,而且也为汉语中介语的研究、汉语本体研究提供了科学便捷的集成环境和先进技术手段。该系统的研制填补了汉语中介语语料库研究方面的空白,在汉语作为第二语言教学领域里取得了开创性成果,达到了国际领先的水平。(本刊记者,1995)
“研制该软件旨在为研究汉语学生学习和习得汉语的规律提供有关学生书面语言表现的各种单项的或综合的资料和信息,从而为建立和发展作为外语或第二语言的汉语学习理论,为丰富和完善对外汉语教学理论作一些基础性的准备工作。”“在教学实践方面,它可以帮助教师了解学生,了解汉语学习过程和影响学习的各种因素,从而有效地优化学习条件,自觉地按照学习规律来组织教学、提高学习效率;在学科建设和理论研究方面,一个有相当规模的语料和较完备的语篇属性信息的汉语中介语语料库,可以成为建立和发展汉语学习理论的坚实基础,为对外汉语教学的总体设计、教材编写、课堂教学、成绩测试和水平考试等各个环节的研究工作提供依据,从这个意义上说,该系统是对外汉语教学学科理论建设的一个基础工程。同时,该系统也可以从汉语中介语这一特殊角度为一般的汉语研究提供新的思路和新的切入点,因为不少汉语事实和规律是深藏在本族人的语感背后,为本族人所习焉不察的,汉语中介语语料可为语言学家研究这种规律提供启发和线索。”(陈小荷,1996a)这些论述阐明了汉语中介语语料库建设的目的与宗旨,应该起到的作用与效果。后来的建库者很好地继承了这些理念,例如张宝林、崔希亮、任杰(2004)、杨翼等(2006)、张宝林(2010a、2013)、张宝林、崔希亮(2015)都曾阐述过这一理念,并进一步将其概括为“积极主动地、全心全意地为全世界的汉语教学与研究服务”(张宝林、崔希亮,2015)。可见,为对外汉语教学服务、为汉语国际教育服务,是汉语中介语语料库建设的初衷,始终是语料库建设的首要目的。(张宝林,2019a)
例如该系统的语料背景信息十分详备,含全部语料的23个属性,包括:作者姓名,性别,年龄,国别,是否华裔,第一语言,熟悉的其他外语,文化程度,性格类型,学习汉语的动机,写作语料时所在学校,年级,学时等级,所学主要教材,入校时间,原汉语学时,原汉语学校,原汉语教材,本篇语料类型,话题类别,语料长度,写作时间,提供者。(本刊记者,1995)其中是否华裔、第一语言、熟悉的其他外语等与学习者的汉语表现和成因关系密切,对中介语分析具有重要意义。今天的语料库建设,虽然也很重视各种背景信息的收集,但能具备这些背景信息的语料库十分罕见,其收集难度很大。
陈小荷(1996b)、熊文新(1996)、王建勤(1997)是依据该语料库最早产出的研究论文。陈小荷(1996b)对学习者副词“也”的偏误情况及影响因素进行考察;熊文新(1996)对学习者的“把”字结构进行表现分析;王建勤(1997)考察学习者对汉语“不”和“没”否定结构的习得情况。这些研究得出了一些新的结论,深化了对相关问题的认识,集中体现了该语料库的应用价值。
赵金铭等(2008)、张博等(2008)是基于该语料库取得的系统性研究成果。前者对包括差比句、“得”字补语句、趋向补语句、否定句的偏误现象与习得情况,以及介词、副词、量词的句法表现进行考察,发现了“纯粹定性研究中一些易被忽视的问题或不符合实际的地方”(赵金铭等,2008)。后者针对汉语中介语词汇研究中存在的问题,“首次对汉语中介语词汇和与此相关的汉语词汇问题及词汇教学问题进行了较为全面系统的探讨”(张博等,2008),在汉语中介语易混淆词、多义词、同义词、反义词、汉外词汇对比等方面,以及词典与教材的研究中取得了多方面的创新性成果。
虽然该语料库尚存在诸如语料规模不够大、语料加工的广度和深度还不够、语料检索速度不够快的问题,(参陈小荷,1996a)但其首创之功享誉学界,至今仍有其使用价值。
汉语中介语语料库的建设与应用历程,可以分为开创、发展与提高三个阶段。开创阶段专指汉语中介语语料库系统的问世,其开创之功将永载对外汉语教学/汉语国际教育史册,而其筹划、建设、问世与形成学术影响的全部过程大致占据了20世纪90年代。
进入21世纪之后,语料库建设呈现加速发展的态势,特别是进入21世纪第二个十年之后,更是蓬勃发展,数量与规模有了较大的增长。另一方面又存在简单粗放、使用不便等问题与不足,尚不能满足教学与研究的多方面需求。在语料库的应用研究方面,汉语中介语的偏误分析、汉语作为第二语言的习得顺序研究取得了很大成绩,得到了迅速发展,在一定程度上为第二语言习得研究提供了新的认识与支持。另一方面,又陷入了套用中介语理论的偏误分类与原因解释的窘境。这种情况一直延续到2017年。这一阶段可以视为语料库的初步发展时期,或称草创时期。套用互联网领域的名词,可以称为汉语中介语语料库的1.0时代。
汉语中介语语料库系统的问世及在其基础上取得的众多研究成果,引起了学界的广泛关注,激励更多的学者和单位投入语料库建设,建成与在建的语料库数量之多、类型之全,令人瞩目。例如笔语语料库有HSK动态作文语料库(北京语言大学)、首都外国留学生汉语文本语料库(北京语言大学)、留学生中介语语料库(中山大学)、外国学生汉语中介语偏误信息语料库(南京师范大学)、韩国留学生汉语中介语语料库(鲁东大学)、外国人汉语习得动态语料库(上海交通大学)、外国留学生汉语笔语语料库(北京华文学院)、TOCFL学习者语料库(台湾师范大学)等,口语语料库有汉语学习者口语语料库(北京语言大学)、小型外国学生口语中介语语料库(苏州大学)、语言习得汉语口语语料库(LAC/SC,香港中文大学)、根据电话口语考试建设的语料库(北京大学)、汉语中介语口语语料库(南京大学)等,汉字偏误语料库有华语文学习者汉字偏误数据资料库(台湾师范大学)、汉字偏误连续性中介语语料库(中山大学)、非汉字文化圈国家学生错别字数据库网络应用平台(北京语言大学)等,笔语+口语的语料库有留学生汉语中介语语料库(暨南大学华文学院)、Guangwai-Lancaster 汉语学习者语料库(广东外语外贸大学—兰卡斯特大学),笔语+口语+视频的语料库有全球汉语中介语语料库(北京语言大学+国内外多家汉语教学单位),语音语料库有汉语单音节语音语料库(北京语言大学)、面向计算机辅助正音的汉语中介语语音语料库(北京语言大学)。语料库建设还采取了校际合作、国际合作的方式,扩大了语料来源,进而提高了语料库的使用价值。
可以毫不夸张地说,这个时期“汉语中介语语料库建设渐成高潮,‘成为语料库研究中的热点’(谭晓平,2014),正在跨入一个繁荣发展的重要时期”。(张宝林、崔希亮,2015)
语料库建设的发展,推动了基于语料库的汉语作为第二语言的习得研究,取得了众多重要的研究成果,可谓丰硕。代表性著作成果有赵金铭等(2008),该书基于汉语中介语语料库系统进行了汉语句法习得研究;张博等(2008)基于同一语料库对汉语词汇习得情况进行了专题研究;肖奚强等(2009)依据外国学生汉语中介语偏误信息语料库专门探讨外国学生汉语句式学习难度及分级排序问题;张宝林等(2014)则是按照中介语句式习得现状、成因、对策的思路,基于HSK动态作文语料库对汉语句式习得情况进行研究。
代表性论文成果仅以依据HSK动态作文语料库 进行的研究为例。该语料库1.0版收入高等汉语水平考试的作文答卷10740篇,约400万字,于2006年12月上线;于2008年7月升级为1.1版,收入作文答卷11569篇,约424万字。
依据该语料库进行研究发表的各类论文,在中国知网(CNKI)的全部文献中以同一句中含有“HSK”和“动态作文语料库”为条件进行查询,则各类论文达3937篇。(截至2019年7月23日)若以同一句中含有“HSK”和“语料库”为条件查询全部文献,则各类论文达4587篇。(截至2019年7月23日) 以往我们都是按第一种检索条件进行查询,但我们知道,“HSK”和“语料库”的组合所指一定就是HSK动态作文语料库,因此,后面一个数据反映的情况可能更客观。不过,为了保持同一标准下的数据连续性,我们仍然采用最严格的查询条件得到的数据,即3937篇。下面分别是该数据的相关分析图。
从图1–1来看,语料库于2006年底上线之后,于2008年开始出现明显增长,2011年开始显著增长。此后每年的发文量都达到几百篇,于2015年达到峰值。2016、2017发文量开始回落,2018年更是明显回落。
图1-1 年度发文量统计图
图1-2 文献类型分布图
从图1–2来看,推高年度发文量的主要是硕士研究生的学位论文,约占总发文量的76.1%;其次是期刊论文,约占18.87%;两项相加占比达94.97%。其他来源的发文量都很少,合计约为5%。
上面两图呈现的只是数据,如何评估是一个有待研究的问题。然而联系对外汉语教学领域在汉语中介语语料库出现之前的教学与习得研究情况看,语料库确实是把过去那种小规模、经验型、思辨性研究提升到了一个新的水平,即基于大规模真实语料的、定量分析与定性分析相结合的实证性研究,极大地提高了研究结论的客观性、稳定性和普遍性。
图1-3 关键词分布图
图1–3显示,“偏误分析”“对外汉语教学”“偏误”“教学建议”“教学策略”“对外汉语”“习得”“教学对策”等词高居关键词的前8位,其中7个关键词都与对外汉语教学领域的偏误分析相关。其他一些关键词,如“教学设计”“教学”“教学方法”“偏误类型”“偏误原因”等也是这样。这表明偏误分析在基于HSK语料库的相关研究中数量最多,占据主要地位。而与习得相关的关键词只有2个,且位置靠后,数量较少,表明有意识的习得研究相对较少。从关键词中还可以看到,“偏误分析”“对比分析”是主要的研究方法;对韩国学习者的研究最多,不分国别的研究其次,对泰国学习者的研究再次。从CNKI中可以得到关键词共现矩阵分析图、关键词年度交叉分析图和主题分布图,都可以作为上述分析的旁证。这里限于篇幅,不再一一展现。
语料库建设的本体研究,指对语料库建设相关理论问题的研究与探讨。随着语料库建设的迅速发展,其理论探讨逐渐引起学界关注,涌现出一些研究论文。学界十分重视国内外语料库建设与应用研究的沟通与合作,已召开了五届“汉语中介语语料库建设与应用国际学术讨论会”, 每届会议都出版论文集,其中部分论文对语料库建设理论问题的探讨,对语料库建设起到了很好的推动作用。
提出建库任务,进行整体设计,这是语料库建设的第一个工作环节,决定着所建语料库的功能与架构,对全部建设工作具有制约作用,因此意义十分重大。
这方面的研究,例如《建立“汉语中介语语料库系统”的基本设想》(储诚志、陈小荷,1993)、《关于“HSK动态作文语料库”的建设构想》(张宝林、崔希亮、任杰,2004)、《建立汉语学习者口语语料库的基本设想》(杨翼等,2006)、《“全球汉语学习者语料库”建设方案》(崔希亮、张宝林,2011)、《TOCFL作文语料库的建置与应用》(张莉萍,2013)、《“TNR汉语学习者偏误语料库”的开发与实践》(于康,2016)等,都是这方面具有代表性的论文。其中TOCFL作文语料库由台湾师范大学建设,采用《欧洲语言共同参考框架:学习、教学、评估》对语言能力的描述作为语言分级的标准。TNR汉语学习者偏误语料库由日本关西学院大学建设,具有批改学习者的作文、加注正误标签、给正误标签加注各类研究用标签等3大功能。另外还有多模态语料库的设计,例如黄伟(2015)、邢晓青(2018)。
对基于语料库的研究来说,语料标注具有重要意义,标注内容在很大程度上决定着语料库的使用功能,是语料库建设无法回避的重要问题,因而引起学界极大关注,讨论文章比较多,甚至出现不同意见的争鸣。
张宝林有多篇/部论著专门探讨标注问题。例如《“HSK动态作文语料库”的标注问题》(2006)、《基础标注的内容与方法》(2010b)、《关于通用型汉语中介语语料库标注模式的再认识》(2013)、《关于汉语中介语语料库标注规范研究的新思考——兼谈“全球汉语中介语语料库”标注规范的设计》(张宝林、崔希亮,2018)、《汉语中介语语料库标注规范研究》(张宝林等,2019)等。这些论著提出并阐述了“偏误标注+基础标注”的语料标注模式,语料标注的全面性、有限性、渐进性、准确性、系统性、简洁性、开放性、系统化等8项原则,以及依据这些模式与原则制定的“通用型汉语中介语语料库标注规范(草案)”。
标注的全面性是一个存在争议的问题。张宝林(2013)提出“作为通用型汉语中介语语料库,语料标注的内容必须全面,应在字、词、短语、句、篇、语体、语义、语用、标点符号等各个层面上对相关的语言现象进行标注,这样才能保证语料库功能的全面,从而更好地为汉语的教学与研究服务”。而肖奚强、周文华(2014)则对全面标注的主张持全面否定的态度,认为由于“支撑语义、语用、文体等标注的理论并不成熟”,“贪大求全并不可取,也不现实”。应“待相关的理论和实践研究比较成熟之后,再进行其他层面的标注”。张宝林、崔希亮(2018)从教学与研究需求、理论与实践关系的角度回应了肖、周的意见,坚持全面性标注原则。毫无疑问,上述探讨与争鸣是有益于对相关问题认识的深化的。
胡晓清、许小星、毛嘉宾(2011)和胡晓清、许小星(2013)讨论了单国别、单语种语料库的标注问题。其对基础标准与偏误标注接口问题的探讨辩证看待句子的正误判定,对语料标注有其独到的借鉴与指导意义。
冯志伟(2013)介绍了英语词类标注的相关情况,论述了“基于语料库”和“语料库驱动”两种研究范式的区别,提醒学界要警惕与克服语料标注的局限性。文章认为,在语料库标注中应当特别注意标注集的科学性和可靠性,使标注尽可能地反映语言的真实面貌;要特别注意标注的标准化和规范化,进一步提高标注结果的共享程度。这些观点对汉语中介语语料库的标注具有重要的参考价值和指导意义。
在语料库1.0时代,语料库建设与应用研究取得了多方面的成果,形成了繁荣发展的大好局面,在学界形成了良好的学术影响,占有了自己的一席之地。因此,成绩是巨大的,发展是良好的。同时也存在一些问题,影响了语料库建设与应用研究的进一步发展,应引起学界的充分重视。
1.标注内容不全面,不能满足多方面研究需求。例如在国内外汉语学界影响广泛的HSK动态作文语料库不但存在语料不全的问题,只有中高级阶段学习者的语料,没有初级阶段学习者语料,因而只能做静态的断面考察,不能做纵向的习得过程考察;而且只有偏误标注,适合做偏误分析,不便做表现分析,因而难以对汉语学习者的习得状况做出全面准确的评价。虽然“这是由中介语的特点决定的,也是学者们研究的需要”(周文华、肖奚强,2011),但毕竟不利于研究的深入发展。
2.检索方式太简单,不能满足语料检索的需要。例如不能查询“是……的”句、“连”字句、半固定搭配如“爱……不……”、离合词离的用法,更不能按词性、词性组合查询,不能做词语组合查询。
3.功能设计不友好,不方便。例如查询到的语料不能自动下载,用户对语料库中存在的错误不能加以修正,没有用户与语料库管理维护人员的沟通反馈功能。
4.绝大多数语料库不开放,语料资源不能充分共享。语料库是语言研究的宝贵资源,汉语中介语语料库是对外汉语教学/汉语国际教育相关研究的宝贵资源,对该领域的教学研究、中介语研究、第二语言习得研究、测试研究、教材与工具书编写等具有重要作用。然而尽管学界呼吁之声不断,然迄今为止,除北京语言大学、中山大学、暨南大学华文学院的语料库之外,其他所有的语料库都不对外开放,而是其建设者的“自留地”。
5.网络安全达不到相关标准,不能开放,严重影响客户使用。例如HSK动态作文语料库由于开发早,技术旧,存在系统漏洞,自2016年起频繁停止对外开放,给用户使用造成极大不便;2016~2018年据其研究发表的论文量减少与此不无关系。管理人员虽然采取了一些措施,例如把全部语料移至BCC语料库,在一定程度上解决了一些问题,但BCC是母语语料库,检索方式不同,HSK语料库的很多标注内容无法检索,使用仍然很不方便。
6.在应用研究方面,不论是偏误分析,还是习得研究,只要涉及对偏误现象的考察与分析,基本上都会套用遗漏、误加、误代、错序等四大分类和母语负迁移、目的语知识泛化、学习策略与交际策略的影响、学习环境的影响、文化因素的干扰等五大原因,甚至不看论文内容都可以预测到这样的情况,研究已经变成了一种对号入座的过程,失去了应有的意义与价值。
就整体而言,可以说“简单粗放”是1.0时代语料库的基本特征。从设计思想和整体规模来看,建设水平低下,使用并不方便,对教学与研究的支持与帮助也比较有限。而2.0时代的语料库则具备“精细而丰富”的特征。精细是说语料库的整体设计周密,软件系统制作精良,用户使用方便;丰富则指语料库的功能多样,能够满足教学与相关研究的多方面需求。
两个时代并非截然分开,界限清晰,而是逐步发展,逐渐形成的。《“全球汉语学习者语料库”建设方案》(崔希亮、张宝林,2011)、《“全球汉语中介语语料库建设和研究”的设计理念》(张宝林、崔希亮,2013)两文体现了2.0时代的建设理念与设计思想,其主要内容包括:
1.提出了一个精细化的语料库构想,即“语料样本多、规模大、来源广、阶段全、背景信息完备、标注内容全面、标注质量优异、设计周密、功能完善、检索便捷、向各界用户开放、能够反映各类汉语学习者的汉语学习过程与特征、可以满足任何研究需求”。
2.指出了该语料库建设的主要创新点:(1)理念创新:建设最好最大的语料库,实现最充分的资源共享,全心全意地为全世界的汉语教学与研究服务;(2)内容创新:在建设语料库的过程中,进行汉语中介语语料库建设的本体研究,提高语料库建设水平;(3)方式创新:全球汉语学界携手共建,基于Web的语料协同标注平台,以及“搭积木式”的动态建设策略等。
真正拉开2.0时代帷幕的是HSK动态作文语料库2.0版的研发。
鉴于2016年以来该语料库因存在系统漏洞而无法正常开放的现实情况,该库建设者在语言资源高精尖中心的大力支持下,于2018年1月至3月,采用当前主流的计算机语言,重新开发了语料库的软件系统,形成该库2.0版。
此次重新开发软件系统,设定了三大目标:确保系统安全,维持正常运转;增强系统功能,满足使用需求;系统界面友好,方便用户使用。
从实际效果看,完全实现了这三大目标。
1.安全方面,系统开发完成,经测试,系统漏洞数目为零,确保了语料库对外开放。
2.功能方面,该语料库1.0版和1.1版只能按字词句进行一般检索和标注内容的检索。2.0版则除此之外,还可以进行特殊条件检索,包括句式、半固定搭配、离合词离的用法、复句、词语搭配等方面的检索,例如“是……的”句、“连……也/都……”句、“爱……不……”、“不……不……”、“因为……所以……”,等等。其中词语搭配检索具有特别重要的意义,一个词前边或后边能搭配什么词语及其频率,集中反映了它的用法,而词语的用法正是语言教学的重要内容。
这些改进所采用的技术手段是正则表达式 ,大大增强了语料库的检索功能。而文科生对正则表达式之类的数理概念并不熟悉,本次重新研发设计的框式检索结构首先将正则表达式文科化,进而又将其大大简化,极大地提升了语料库的检索功能,方便了用户使用。
3.方便性方面,系统增加了检索到的语料的自动下载功能,用户无须再像过去那样逐页手动下载。增加了用户和语料库管理与维护人员的沟通反馈功能,用户可以随时提出问题、意见和建议,并及时得到相应的反馈。贯彻众包理念,增加了用户对语料的修改功能,用户在使用语料库时如果发现录入或标注错误可以随时改正,管理人员审核确认后即用修改后的语料替换掉原来的语料。用户还可以根据自己的阅读习惯调整语料的呈现方式,例如每页显示多少条,只显示语料本身还是同时显示语料的背景信息,均可自主决定。统计数据方面增加了图形化设计,更为直观显豁。为了便于用户记忆,我们还把该语料库的网址由一大串数字改成了域名形式。
该语料库2.0版并没有增加语料数量与规模,只是重新开发并改进了软件系统,其功能却得到了很大的提升,大大方便了用户使用。这使我们深刻认识到软件系统的精细化设计与实现的重要意义。它不仅确保了语料库的重新对外开放,更开辟了语料库精细化发展的前景与途径,更新了语料库设计者与建设者的认识和理念。
正是在这个意义上,我们认为以HSK动态作文语料库2.0版的开发与推出为标志,汉语中介语语料库建设进入了2.0时代,2018年可以视为语料库2.0时代元年。
“全球汉语中介语语料库建设和研究”是教育部重大攻关项目,参研单位包括国内外十多所院校。为了实现语料来自全球、全球共建、全球共享的理念,也为了使不同城市、国家和地区的单位能够统一进度,统一管理,在语言资源高精尖中心的支持下,课题组研制开发了汉语中介语语料库建设与应用综合平台。其设计理念与功能要求是:
1.具有语料上传、转写与录入、标注、检索、统计、管理、众包维护、升级迭代等八大功能,集八大功能于一体,语料库建设操作层面的所有工作都可以在平台上进行与完成。
2.可以加工笔语语料、口语语料和视频语料。
3.语料上传分为两种:面向个人用户的单篇语料上传和面向合作单位的批量语料上传。
4.贯彻全面标注的理念,采取分版标注、部分内容自动标注的方法,标注模式为“偏误标注+基础标注”。
5.平台的检索部分即全球汉语中介语语料库。
6.平台具有开放性和广泛适用性,既可以源源不断地加入新语料,并进行相应的加工处理,也可以使用该平台建设任何其他语料库。
7.数据统计采取在线实时统计方式。
8.语料库建设的各个环节,例如语料上传、录入、标注等,完成并经审核确认之后,即自动进入下一个环节;所有环节都完成,即自动入库,并完成相应的统计工作,生成新的数据。
显而易见,这样的综合平台具有一定的自动化功能,并在一定程度上促进甚至实现了语料库建设的标准化。
现在,具备这些功能的综合平台已经建成并投入使用,在全球汉语中介语语料库 的建设中发挥着重要作用。
这样一个平台所体现的是全球化的理念,引导与服务的理念,协同创新的理念,众包理念,品牌理念。这些理念也恰恰是语料库建设2.0时代的精髓。