购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

前言

本书系国家社会科学基金一般项目“通用型汉语中介语语料库标注规范研究”的研究成果。

1 本书研究价值

1.1 汉语中介语语料库的建设与作用

中国大陆的汉语中介语语料库建设始于20世纪90年代初,是在国内外语料库语言学的发展和母语语料库建设的影响与推动下开始的,发轫之作即北京语言学院(北京语言大学前身)于1995年建成的“汉语中介语语料库检索系统”。本世纪前10年,又有“HSK动态作文语料库”(北京语言大学)、“留学生中介语语料库”(中山大学)、“留学生汉语中介语语料库”(暨南大学)、“外国学生汉语中介语偏误信息语料库”(南京师范大学)、“汉语学习者口语语料库”(北京语言大学)等多个语料库问世,并产生一定的学术影响。进入本世纪的第二个10年,汉语中介语语料库的建设受到学界更多的关注,更多的学者投入语料库的建设与研究,出现了更多的建设成果。例如“首都外国留学生汉语文本语料库”(北京语言大学)、“汉字偏误标注的汉语连续性中介语语料库”(中山大学)、“韩国留学生汉语中介语语料库”(鲁东大学)、“语言习得汉语口语语料库(LAC/SC)”(香港中文大学)、“小型外国学生口语中介语语料库”(苏州大学)、“外国人汉语习得语料库”(上海交通大学)等语料库不断涌现,呈现出一派蓬勃发展、欣欣向荣的景象。北京语言大学还联合国内外汉语学界,提出了集学界之力共同建设“全球汉语中介语语料库”的宏伟方案,并得到教育部支持,立项为重大攻关项目。相比于国内外的一些母语语料库,汉语中介语语料库建设虽然起步较晚,但发展迅速,已经迎来一个繁荣发展的重要时期。

这些语料库在对外汉语教学和汉语中介语的偏误分析与习得研究中发挥了巨大作用,重要学术成果不断涌现。以“HSK动态作文语料库”为例,据中国知网(CNKI)的统计,自2006年12月建成开放以来,依据该库进行研究发表的各类论文已达3761篇(截至2019年1月15日)。其中2011年以来,历年的论文发表量均达到数百篇。详见图0-1:

图0-1 年度发文数量分析图

此外,基于不同语料库的一些国家社会科学基金、教育部人文社科重点研究基地重大项目的研究成果,例如赵金铭等《基于中介语语料库的汉语句法研究》(2008)、张博等《基于中介语语料库的汉语词汇专题研究》(2008)、肖奚强等《外国学生汉语句式学习难度及分级排序研究》(2009)、张宝林等《基于语料库的外国人汉语句式习得研究》(2014)等,都是基于语料库的具有代表性的研究成果。这些成果不仅推动了相关研究的深化,而且促进了研究范式的转化,使汉语作为第二语言的习得研究从小规模、经验型、思辨型研究转变为基于大规模真实语料的、定量分析与定性分析相结合的实证性研究。

1.2 语料标注的问题

对基于语料库的语言研究来说,语料标注是语料库建设的核心环节,标注的内容与质量在相当程度上决定着一个语料库的使用价值。然而,学界对此研究与探讨尚不够充分,语料标注至今没有统一标准,标注内容与方式带有很强的随意性。

(1)不同的语料库标注内容差异很大。

在汉语中介语语料库的建设实践中,有的语料库只经过断句、分词和词性标注等加工处理;有的只标出错别字和某几种句式的偏误;有的从字、词、句、篇、标点符号等角度对所有偏误现象进行了穷尽性标注;有的对语料中的各种偏误和正确的语言表现乃至语体都进行了标注;也有的没做任何标注,属生语料库。

如此标注造成的后果是:大多数语料库只能进行偏误分析,而无法进行表现分析;可以检索、提取有标志词的中介语语料,而无法检索并提取那些缺失关键词的偏误现象,例如该用“把”“得”而未用的“把”字句、“得”字补语句。

(2)对语篇、语体的标注仅见于个别语料库且十分简单。

(3)标注只限于文字、词汇、语法层面,没有语义、语用层面的标注。

(4)对同样的偏误现象认识不同,采取的标注方式各异。

例如“是”字句缺“是”,有的标为缺字,有的标为缺词,有的标为缺述语,有的标为句式错误。在“一错一标”的标注框架中,有的主张采取“从大”原则(即从最大的语言层面进行标注,例如将上例标为“是”字句偏误),有的则认为应采取“从小”原则(即从最小的语言层面进行标注,例如将上例标为缺“是”这个字的偏误)。

(5)标注中使用的代码各不相同,给用户造成了不必要的记忆负担与混乱,也不便于语料库之间的资源共享。

(6)标注效率不高,标注质量存在一定问题。

根据目前中文信息处理所达到的实际水平,除分词和词性标注可以采用机标人助的方式外,各种偏误的识别与标注均需采取手工方式。相对于机器自动处理,手工标注的准确性较高,但效率低下,一致性较差。标注人员的语言文字功底、工作态度、精神状态等,对标注质量均有重要影响,任何含糊与疏忽都会导致标注错误。

这些问题的存在,严重制约着语料库的建设水平,影响着语料库作用的发挥,最终使其难以满足汉语教学与相关研究的多方面需求,不能更好地为教学与研究服务。

1.3 本书的意义与价值

(1)标注规范研究是汉语中介语语料库建设本体研究的核心内容之一,涉及语料标注的目的、原则、内容、方法、语言、流程、代码等多方面的问题,其研究结果将促进语料库建设的理论探讨和本体研究,加深我们对相关问题的认识。

(2)为汉语中介语语料库的语料标注工作制定标准,提供科学、统一、具有可靠的学术性和较强的可行性的标注规范,进而提高语料标注质量,提升语料库建设水平,使之可以更好地为汉语教学与研究服务。

(3)为研制“汉语中介语语料库建设标准”提供语料标注部分的参考性蓝本。

2 本书研究内容与方法

2.1 研究内容

本书研究“通用型汉语中介语语料库”的语料标注规范。所谓“通用型汉语中介语语料库”是与“专用型汉语中介语语料库”相对而言的。前者为满足多种研究目的而建,例如运用“HSK动态作文语料库”,可以进行汉语中介语字、词、句、篇、标点符号等多层面的研究;后者则只为某种专门的研究目的服务,例如通过“华语文学习者汉字偏误数据资料库”只能进行中介汉字的研究。显而易见,通用型语料库的标注规范在广度上是可以包括专用型语料库的标注内容的,但在深度上可能不如专用型语料库细致。

(1)标注原则

标注原则是制定标注规范的前提,与标注目的密切相关,对标注内容与方法有重要制约作用。语料标注的根本目的是满足教学与研究的需要,但不同类型的语料库在标注目的上也会有所不同。本书试图为通用型汉语中介语语料库制定标注规范,在标注原则上与专用型语料库必然存在差异。例如标注内容的全面性应该成为通用型语料库的一个重要原则,但专用型语料库则无需如此。另外对各种偏误现象是“只标不改”还是“既标且改”?对可以做多种处理的偏误现象,是“从大到小,一错一标”,还是“不分大小,一错多标”?均需制定明确的标注原则。

(2)标注内容

为了满足汉语教学与研究的多种需求,并为各种类型的汉语中介语语料库的语料标注提供支持与参考,本书认为标注规范所包含的标注内容应尽可能全面。其范围可以包括如下层面的内容:

1)总体标注内容:汉字、词汇、语法、语体、语义、语用、辞格、标点符号。

2)语法标注:词、短语、单句、复句、语篇(篇章)。

3)全面标注偏误现象与正确的语言表现。

4)语篇(篇章)标注:从偏误类型的角度深化与丰富其内容。

5)语体标注:从口语词与书面语词、口语短语与书面语短语、口语句式与书面语句式等角度进行研究。

6)语义、语用标注:从主语的语义成分、动宾结构的语义关系、修饰语的语义指向、词语重叠的语义、歧义句、句式义、指示语、语言运用的得体性等角度进行研究。

本书主要研究书面语(或称笔语)语料的标注规范,如果是口语语料、视频语料,还应增加语音标注、体态语标注的规范。当然,在口语语料和视频语料的转写文本中,汉字标注和标点符号标注是不需要的,因为这两种语料一般是由母语者进行转写,和中介语的产出者没有直接关系。

(3)标注方法及代码

语料标注方法有手工标注、人标机助、机标人助、计算机自动标注。作为两个极端的方法,手工标注的正确性、准确性较好,但效率低下,一致性较差;计算机自动标注效率高,一致性好,但正确性与准确性不强。考虑到现实可行性,本书认为应以人标机助为语料标注的主要方法,同时开发可以减轻、替代人的重复性劳动的计算机辅助标注工具。还应通过已标注语料尝试建立汉语中介语的语言模型,进行计算机自动标注。还可以采用数字墨水技术进行标注,前提是不仅要有大量的已标注语料,还要有大量的用数字笔书写的语料。由于现有的汉语中介语语料库大多未对学界开放,无法实现广泛的资源共享,因而难以得到大量的已标注语料。另外,目前数字笔的售价较高,用数字笔书写的语料极少,尚不足以用于语料库建设。

标注代码可以采用汉语拼音字母、英文字母、阿拉伯数字、置标语言进行编码。对于实际进行语料标注的母语者来说,可能采用汉语拼音编码,更便于记忆与使用;而考虑到语料标注的标准化和通用化,方便不同语料库之间的资源共享和彼此融合,可能采用置标语言XML或JSON语言进行编码更为有益。

(4)标注流程

通用型语料库要为多层面的汉语教学与研究服务,其标注内容必需丰富全面,而众多的标注内容必然要求制定合理高效的标注流程。例如对于偏误标注(指对各种偏误现象进行标注)和基础标注(指对正确的语言表现进行标注),就必须先做偏误标注,后做基础标注,因为如果不先对各种字、词偏误进行处理,机器自动分词和词性标注就不可能有正确的结果。

2.2 基本思路与研究方法

本书对语料的各个层面的标注规范进行探究,将遵循下列基本思路:进行调查研究→对比分析优劣→提出标注模式→进行标注实验→形成标注规范。

使用的研究方法包括:

(1)调查研究

通过研读国内外相关文献,了解语料标注的理论与方法。

通过浏览网页,了解国内外主要的母语语料库、学习者语料库的标注内容与方式。

通过实地考察,进一步了解汉语中介语语料库语料标注的设计思想,标注的内容、方法及代码。

通过调查问卷,了解汉语教师和研究人员对语料库标注内容的实际需要。

(2)对比分析

对收集到的语料标注的内容、方法、代码进行比较,分析其合理之处与不当之处,在此基础上决定取舍。

对不同教师和研究人员的不同需要进行分析比较,研究能够满足不同需求的标注方法。

(3)归纳概括

根据汉语教学与相关研究的目的与需要,制定语料标注的基本原则。

根据标注原则,确定语料标注的内容。

根据标注的原则与内容,结合汉语及汉语中介语的特点,确定标注的方法与代码。

根据上述研究,概括出汉语中介语语料的标注模式。

(4)实验研究

运用研究得出的标注模式,在一定规模的汉语中介语语料范围内进行标注实验,发现问题及时研究修改,并再次实验,直至达到最佳标注效果。

在标注的实验过程中,摸索出切实可行、简洁高效的标注流程。

在上述研究的基础上,本书将以附件形式提出一个“通用型汉语中介语语料库标注规范”(草案),供学界参考与使用。该标注规范将包括下列内容:标注目的、标注原则、标注模式、标注内容、标注方法、标注代码、标注流程。该规范将特别注重从标注方法与流程的角度,设法尽可能多地解决语料标注的准确性与一致性问题。

3 本书构成与分工

3.1 本书构成

本书包括上、下两编,共十七章。上编为总论,含四章。下编是分论,包括十三章。总论四章讨论了通用型汉语中介语语料库的四个重要问题:第一章谈语料标注模式问题,提出了“偏误标注+基础标注”的标注模式;第二章专门探讨基础标注的内容与方法;第三章阐述标注规范,具体论述了语料标注的原则、内容与方法;第四章以离合词为例,讨论了可扩展的置标语言XML在语料标注中的应用问题。分论十三章,分别研究汉字、词汇、熟语、短语、句子、特殊句式、篇章(语篇)、语体、语义、语用、辞格的标注问题并提出规范,以及偏误标注的质量管控和标注代码的设计。最后是附录,在上述研究基础上,提出了“通用型汉语中介语语料库标注规范”的草案。

3.2 分工

本书各章由其作者分别进行研究与撰写,由赵焕改对全部书稿进行初步整理,最后由项目负责人统稿,形成本书。

分工如下:

前言、第一章、第二章、第三章、附录,由张宝林撰写。

第四章,由谢梦宁、林君峰撰写。

第五章,由刘珊撰写。

第六章,由陈琛撰写。

第七章,由唐倩撰写。

第八章,由胡凡霞撰写。

第九章,由徐枫洁、屈梅娟撰写。

第十章,由薛华丽撰写。

第十一章,由王之岭撰写。

第十二章,由王雪莹撰写。

第十三章,由牟雪撰写。

第十四章,由杨雯撰写。

第十五章,由李瑶撰写。

第十六章,由张琪撰写。

第十七章,由赵焕改、林君峰撰写。

各章作者简介和收入本书前发表情况见各章题注,这里不一一说明。

张宝林
2019年1月25日 xdqIWlmGaU0/f1lF0Q/qqERqC/XIYMlq1eUQiJWnvhdqgXezkCrY6X2FGIm2LlKa

点击中间区域
呼出菜单
上一章
目录
下一章
×