第五届汉语中介语语料库建设与应用国际学术讨论会论文选集最新章节_赵文书著

韩国学习者汉语中介语口语语料库的建设及意义

胡晓清许小星
（鲁东大学）

提要：汉语中介语口语语料库的建设与笔语语料库相比相对滞后，因此，建设并完善汉语中介语口语语料库不仅为汉语作为第二语言教学和研究提供了有力的支撑，也丰富了汉语中介语语料库的建设内涵，有较为重要的意义。本文介绍了韩国学习者汉语口语语料库的建库情况，阐述了本语料库的建库价值及原则，描写了本语料库的构建过程及在建库过程中遇到的难点问题，并着重分析了口语语料库建设存在的不足，对后续研究做了规划与展望。

关键词：韩国学习者；汉语中介语口语语料库；价值；原则

引言

近年来，汉语中介语语料库建设不断向纵深发展，建立口语语料库并基于语料库开展口语研究成为汉语作为第二语言教学研究的新趋势。许多学者对于汉语中介语口语语料库的建设提出了可行性方案（崔希亮，张宝林，2011；权立宏，2017），也有一些院校、单位展开建库实践，如北京语言大学的“汉语学习者口语语料库”（杨翼等，2006）、北京语言大学“HSK动态口语语料库”（张宝林，2012）、香港中文大学“语言习得汉语口语语料库（LAC/SC）”（吴伟平，2010）、南京大学“汉语中介语口语语料库”（在建）等。但遗憾的是，由于中介语口语语料采集、转写和标注的难度较大，口语语料库的建设费时费力，目前能够公开使用的汉语学习者口语语料库较少。

基于此，本团队在国别化汉语中介语笔语语料库建设的基础上，开始探索国别化汉语中介语口语语料库的建设。首期建立的是韩国学习者汉语中介语口语语料库，简称为KHSKKC。语料库语料来源于韩国汉语水平口语考试的现场录音。在对语料进行转写后，从语音层面和句法层面两个维度对语料进行了较为细致和全面的标注。

一、韩国学习者汉语口语语料库的建库价值

1.1 可对HSK考试反拨效应研究提供支撑

以标准化考试语料为来源的汉语中介语口语语料对汉语水平考试反拨效应研究作用显而易见。在建的KHSKKC语料库首次使用了HSK口语语料，利用该语料库提取的字表数据库、词表数据库，在后续研究中将与HSK词汇大纲、汉字大纲等进行相关性研究，对该测试的信度、效度研究，测试对教学的反拨作用研究等均将起到充分的支撑作用。

1.2 可为国别化汉语教学研究提供支撑

在汉语教学研究界，对汉语教学“国别化”的呼声越来越高（李如龙，2012等）。不同国家、不同母语和文化背景的学习者，学习汉语时表现出的中介语特征的确存在着差异。因此，甘瑞瑗（2006）提出，“国别化”就是要“针对不同的国家而实行不同/差别的汉语教学”。国别化汉语中介语语料，为国别化教学大纲设计、国别化教材的编写、国别化词典的编撰提供可靠的依据，也为汉语作为第二语言的习得研究提供扎实的多维度基础数据。

1.2.1 为国别化汉语教学用字表、词表的研制提供了有力支撑

《汉语水平词汇与汉字等级大纲》（以下简称《大纲》），研制于1992年（2001年进行了修订），随着时代的发展与进步，社会语言生活发生了巨大的变化，《大纲》逐渐不能满足汉语学习者和汉语作为第二语言研究的需要。2010年出台的《汉语国际教育用音节汉字词汇等级划分》（以下简称《等级划分》）一个显著的变化是将口语动态语料作为制定音节表、字表和词表的依据之一。但需要注意的是，《大纲》和《等级划分》中对字、词的选择仍然是纯本体视角，而汉语国际教育用的字表、词表除要依据母语者的使用频率外，还应该将二语学习者口、笔语语料库作为重要的参照。因此，对韩国学习者汉语口语的字表和词表的提取、研究为面向韩国的汉语教学用字表、词表的研制提供了强有力的支撑。

1.2.2 为汉语中介语口语、笔语对照研究提供了有力保障

我们在语料库建设中回避了“书面语”，代之以“笔语”，究其原因，一是参照了文秋芳、王立非（2008）“中国学生英语口笔语语料”的提法。更重要的是SCL在从零起点到接近于汉语母语者的习得过程中，有相当长一段时间尚未形成书面语意识，他们所谓的“书面语”大多数情况下只是以笔语形式记录下来的口语而已。那么汉语学习者的笔语在哪些阶段出现了明显的书面语化特征，从哪些节点他们的口语笔语发生了质的变化，这都需要将学习者的口、笔语进行对照方可显现。目前，汉语作为第二语言教学和研究领域，将汉语中介语进行口语和笔语对照研究的尚不多见。原因是多方面的，但有一点无须讳言，即对汉语中介语口语和笔语中用字用词及语法项目使用情况、口语书面语分化情况的研究均需借助大规模的汉语中介语口语语料和笔语语料，而目前的口语语料相对匮乏。我们建设的韩国学习者汉语中介语口语语料库和早前建成的“国别化（韩国）汉语中介语发展语料库（笔语）”（胡晓清，2018）形成对照组，为韩国学习者汉语中介语口语和笔语的对照研究提供了有力保障。

1.3 可丰富汉语中介语语料库建设的内涵

汉语中介语语料库，按照语体来分有笔语语料库和口语语料库；从样本来源来看，有多国别样本也有单国别样本，各种分类不一而足。在汉语作为第二语言教学和研究领域，笔语语料库和多国别样本语料库数量上占有绝对的“优势”。“韩国学习者汉语中介语口语语料库”的建设探索补足汉语中介语语料库建设的弱项，对汉语中介语口语语料库建设规范的研究、对不同类型语料库之间的对接和融合进行了有益的尝试，丰富了汉语中介语语料库的建设内涵。

二、韩国学习者汉语口语语料库的建设原则

2.1 真实性原则

真实性是学习者语料库建设的底线。因此语料转写要忠实于音频原貌，考生说什么转录什么，包括考生对言语中的重复和修复，不做任何修改或删减，如实录入。对于非正常停顿和转写人反复听仍无法辨识的字词或字串用标记来代替；口语语料里存在大量口头语，如“嗯”“啊”“呃”等语气词均要如实转写。而一些非言语成分，如音频中考生的笑声和一些如呼气、咳嗽等伴随语音现象均要进行标示。对考试者在陈述中的重复或者修复均原样录入。

2.2 准确性原则

准确性表现在以下几个方面。

标点及符号的准确性：所有的标点均为中文半角格式；所有添加的符号均为半角英文状态。

文字的准确性：转写语料原则上没有错字和别字。

标注的准确性：在确立了标注范围后，制定了较为细致的转写与标注规范，然后选取少量语料对标注员进行试转写与标注训练，再进行集中讨论与校正，深化对标注规范的理解，并补充完善标注规范，最终形成科学规范、操作性强的标注手册，最大限度保证标注员对语料听辨转写和标记赋码的一致性和准确性。

为了减轻标注员记忆标注代码的负担，并保证赋码的一致性和准确性，我们开发了辅助转写与标注的软件，标注员一边收听音频，一边在辅标软件的文本编辑界面上进行转写，如需进行赋码，点击右键，从下拉菜单中选择标记代码，代码便自动添加到文本之中。标注完成之后，文本自动保存在指定目录下。此外，对文本的校对也可在该辅标软件中完成。该软件的开发大大提高了转写与标注的效率。

2.3 全面性原则

没有任何加工的生语料，只能进行字、词的检索，语料经过断句、分词和标记词性，可以进行词的搭配和类联结等研究；语料库经过偏误标注及对语料中正确语言表现进行了标注，可以对汉语学习者的汉语习得情况进行全方位的对比、考察与研究。大大提升了语料库的使用价值。

就本语料库的标注来看，目前对语音层面进行了标注，其后对句法层面进行了加工。句法标注依然采用基础标注＋偏误标注模式，以便“使研究更全面、结论更可靠，从而提高对外汉语教学与研究的水平”（张宝林，2008）。

2.4 便捷性原则

一个功能完善、使用便捷的语料库检索系统不仅要能提供方便灵活的检索和统计功能，还应便于维护与功能扩展。汉语中介语口语语料库检索软件能基于语料库中添加的标记代码，根据处理的目的来设计相应的算法规则，提取相应的信息，得到相应的检索和统计结果。

三、韩国学习者汉语口语语料库构成状况

3.1 语料库现有库容及建库流程

本语料库的语料来源于韩国汉语水平口语考试的现场录音。目前已对韩国汉语水平口语考试的1.5万余个音频进行了转写并对转写文本进行了标注，在此基础上建设完成韩国学习者汉语口语语料数据库并搭建了语料库检索系统。

韩国学习者汉语中介语口语语料库（简称为“KHSKKC”）构建过程包括语料收集、文本转写、语料标注、语料库检索工具的开发，具体流程如图1所示。

图1 KHSKKC建设流程图

3.2 语料的来源及预处理

本语料库的语料来源于在韩国举行的汉语水平口语考试的现场录音。汉语水平口语考试（HSKK）分为初级、中级和高级三个等级，不同等级口语考试的考试内容均分为三个部分（见表1）。

表1 HSKK考试内容分布

口语语料库音频库的二级目录为考试等级（初级、中级、高级）；每一个考试等级内按照考试年份、考场代码、考生代码依次建立目录。每一个考生的所有音频根据考试内容的不同划分为T1、T2、T3三个子任务。在转写语料时，三个子任务转写为对应的三个txt文件，保证音频库和文本库的结构层次清晰、便于管理。图2展示了音频库和文本库的库结构。

图2 音频库和文本库目录树

如一个考生的全部音频因噪音太大而无法进行转写，就将该考生的所有音频删除。如一个考生的大部分音频比较清晰、符合转写条件，为了最大限度保留并记录音频内容，将该考生的全部音频整理归档，并依次进行转写，其中因噪音或者音质受损而无法转写的音频在文本库中对应的位置标记为〈无效〉。

3.3 语料的转写与标注

在新的技术条件下，母语口语语料的转写已非常方便快捷，而汉语中介语口语语料因大量的语音问题使自动转写准确率偏低，不得不仍然选用耗时费力的人工转录方式。为此，我们制定了KHSKKC语料库的转写原则与标注规范。

转写音频语料遵循真实性原则，包括三个层面。一是忠实于考生原表达，不做任何修改或删减，如实录入或进行标记。对于非正常停顿和转写人反复听仍无法辨识的字词或字串不做猜测，而用标记来代替。二是口语语料里存在大量的“嗯”“啊”“呃”等语气词均要如实转写，以为后期研究提供真实材料。三是一些非言语成分，如音频中考生的笑声和一些如呼气、咳嗽等伴随语音现象也要原样标示，以为口语表达情态研究、流利度研究提供真实佐证。

为避免转写后重复听录音进行语音现象处理，最大限度地减少多人同时作业造成的听辨严格度、准确度不一致问题，在确立转写原则的前提下，参考北京语言大学《全球汉语中介语语料库》口语语料的转写与标注规范（张宝林，2019），我们制定了较为细化的转写和标注规范。

口语语料转写时，转录员边听边转写，在转写的同时需对文本语料进行语音层面的标注。对于如何确立口语语料库标注内容，张宝林（2019）指出，“说话时伴随的一些语音现象，例如笑声、咳嗽声之类，以及拖长的声音。这些语音现象不一定是偏误，在这里进行标注只是为了方便”，而我们认为非偏误语音现象对口语不同维度的研究深具意义，因此标记时将其直接分为对语音现象的标注和对语音偏误的标注两类。其中语音现象的标记共有9个，语音偏误的标记共有7个。具体标记详见表2。

表2 语音标记详表

完成中介语口语语料转写和语音层面标注后，我们对文本语料进行了句法层面的标注。句法标注仍延续之前“国别化汉语中介语发展语料库”笔语库的标注模式，进行基础标注和偏误标注（胡晓清，2018）。基础标注是对语料中正确的语言现象进行的标注，偏误标注是对语料中不正确的语言现象进行的标注。目前我们对语料进行了分词处理、基本句式的正误标注等。

3.4 KHSKKC检索系统的开发

KHSKKC检索系统是基于Matlab2016a软件开发的一个可执行文件，旨在为用户提供便捷的查询与统计功能。采用Matlab软件开发检索系统的优势在于Matlab是一种解释性语言，程序调试非常便捷；同时，Matlab软件自带大量的函数库，非常便于复杂算法的开发。此外其后续的功能扩展容易实现，另外添加其他功能只需在原软件上再加挂相应的处理函数即可。

该检索系统可以生成语料库的字表与词表，也可以根据用户的需求，使用信息组合进行检索范围的限定，对语料库进行检索查询，对各项标注信息进行统计分析和数据提取。

四、语料库建设中的难点和解决对策

4.1 转写难点及解决对策

口语语料转写是转录者对音频语料的听辨和转录的过程，需要真实准确地记录学习者的口语表达内容。但由于很多考生特别是口语水平较低的考生发音不够准确或者发音不到位，声调、发音错误（如声母偏误/韵母偏误等）或者模糊现象非常普遍。难点是应如何处理上述现象。比如例（1），在音频中，学习者将“旅行”的“旅”说成了“liu”，如果在转写时写为“流行”，其实违背了说话者的本意，也会给后期的句法标注带来困难。

（1）我的爱好是【旅】［Yy］行。去年，我去【旅】［Yy］行上海的时候，我对【旅】［Yd］行很感兴趣，因为上海的夜景非常感动。

我们采取的处理对策是，如果转写者能够准确判断出此处对应的正确用字或用词，则先录入正字、正词（即正确的字、正确的词）再打上声调偏误或声母偏误/韵母偏误等标记。如果转写者能够听清语音但由于表义模糊无法判断考生所用字或词，则以汉语拼音代替该字、词。如果发音听不清楚，无法判别正字，也无法替写为拼音，则用无法识别的标记【】［Y？］来表示。

4.2 分词和词性标注的难点及解决对策

汉语中介语口语语料除存在语音偏误、词语和句法偏误外，还有大量的停顿甚至中断、重复和修复，导致机器自动分词的效果极差。所以在现有的中介语口语语料库建设中鲜有对语料进行分词和词性标注。但在汉语中介语语料库库群建构理念下，为与笔语语料库对齐，以便后期进行汉语学习者口笔语语料库对照研究，我们选择尝试对口语语料进行分词和词性标注。

4.2.1 对于预标记被分词的处理

因为对口语语料转写的同时就进行了语音标注的标记，这些标记对自动分词产生极大的干扰，如例（2）。分词后原文中所有的预标记都被切分。为此，我们自编了程序，在人工校对分词结果之前，先通过程序对标注文本进行清洁后再对其进行人工校对。

（2）我以前偶来偶尔参加朋友聚会，因为我最喜欢的我喜我最喜【欢】［Yd］在家【吃】［Yd］巧克力［L］。

自动分词后：

我/r以前/f偶/d来/v偶尔/d参加/v朋友/n聚会/v，/w因为/p我/r最/d喜欢/v的/u我/r喜/Ag我/r最/d喜/Ag【/w欢/a】/w［/wYd/n］/w在家/v【/w吃/v】/w［/wYd/n］/w巧克力/n［/wL/n］/w。/w

人工校对后：

我/r以前/f偶/d来/v偶尔/d参加/v朋友/n聚会/v，/w因为/p我/r最/d喜欢/v的/u我/r喜/Ag我/r最/d喜【欢】/v［Yd］/w在/p家/n【吃】/v［Yd］巧克力/n［L］。/w

4.2.2 对于语素的处理

中介语口语语料中，由于学习者在口语表达时有大量的停顿、重复或者修复，而产生了很多非“词”的成分，这些成分有的是语素，有的是非语素字，在语料标注中要加以区分。如：

（3）或者/c我/r喜/Vg我/r也/d喜欢/v和/p姐姐/n聊天/v，/w但是/c现在/t我/r变/v我/r变化/v了/y，/w我/r喜欢/v参加/v朋友/n朋友/n们/k的/u聚会/v。/w

上述语料中由于学生自我修正出现了“变”和“喜”两个修正项，前者标为动词，后者标为语素。

4.2.3 对于生造词的处理

生造词是二语学习者在表达中常见的偏误，是学习者根据母语推演出或目的语泛化演变出的、汉语中不存在的“词”（如下例中的“高学”）。那么到底要不要给生造词标记词性呢？如果不对其进行任何标记，在分词中就可能会与其前/后的词结合起来，造成分词的麻烦。我们的处理策略是在语料标注中将生造词标记为［Sz］，但不加注词性。如例（4）所示。

（4）我/r觉得/v我/r的/u印象/n最/d深/a的/u一/m位/q老师/n是/v耐心/a的/u老师/n，/w我/r【高学】［Sz］的/u时候/n，/w我/r的/u学习/v成绩/n不/d好/a，/w可是/c老师/n耐心/a等/v我/r，/w努力/v教/v我/r。/w

4.3 最大检索化的处理

语料库检索软件有转写语料查询的功能，用户可以根据需求检索字、词或者字符串。之前“韩国留学生汉语中介语发展语料库（笔语）”的检索软件不能检索到像“见……面”的用法，此次口语语料库的检索软件对此进行了改进。此外，在对检索软件“转写语料查询”功能进行测试时发现，由于语料中已有语音标记，如果一个词中的某个语素有预标记的话，在“转写语料查询”时，该词所在语句无法检索到。如例（5）中的“孤【单】［Yd］/a”，如要查询“孤单”的使用情况，在“转写语料查询”功能界面的查询项直接输入“孤单”，查询不到“我/r在/p我/r我/r没/d感到/v孤【单】［Yd］/a，/w”。为此，我们在检索软件后台程序中将标注文本的预标记进行自动“清洁”，处理后，即使被检索项有标记也能顺利提取。

（5）但是/c但是/c参加/v朋友/n们/k的/u朋友/n们/k朋友/n聚会/v，/w我/r在/p我/r我/r没/d感到/v孤【单】［Yd］/a，/w所以/c的/u自然/a的/u我/r也/d自然/a我/r经常/d参加/v朋友/n聚会/v。/w

五、本语料库存在的问题与建设展望

韩国学习者汉语中介语口语语料库的建设，目前来看，存在以下问题。

（1）语料库需要进一步扩容。一是单纯从数量上来讲，目前的语料规模还不够大，与400余万字的笔语语料数量相比差距较大。二是从语料来源看，目前主要是纯HSK口试语料，形式不够多样。Eric Friginal，Joseph J.Lee等（2017）至少已采集了学术英语课堂上的学习者话语、英语会话访谈中的学习者话语、同伴反馈活动中的学习者话语等不同口语语料类型。因此，我们的语料库下一步将拓展到日常交际口语、课堂表达口语等领域。现已搜集40小时以上的日常交际对话口语，随后将不断探索，以进一步丰富语料库中的语料形式。

（2）需构建国别化汉语中介语口语语料库。应将单国别的汉语学习者口语语料库扩建为国别化的汉语中介语口语语料库。所谓国别化语料库不是多个单国别语料库的叠加，而是一种建库理念和范式，是以国别化研究为导向，以某个单国别语料库建设为基础，根据不同国别学习者特点，对建库原则、语料采集、标注规范等进行适应性调整，以链条延展式进行不同国别语料库的建设。本次单国别的汉语学习者口语语料库是国别化汉语中介语口语语料库的先行探索，为下一步体系化建库提供参考依据。同时，语料采集的方式也应从松散的、较为随意的各国别学习者语料采集，发展为更为严密的共同主题的不同国别学习者语料采集。这一点Gaёtanelle Gilquin，Sylvie De Cock＆Sylviane Granger等（2010）已经有了良好的示范。

（3）在人工智能飞速发展的现在，母语语料库（Native Corpora）已可实现自动录入，文本加工也日益智能化。汉语中介语语料库受制于学习者的偏误干扰，在语料的录入、加工、处理等方面仍然是人工化多于智能化。口语语料的转录则因学习者语音的偏误或模糊不清导致效率低下。如何能够借用更为智能化的手段加快口语语料的处理，也是下一步应探索的方向。

参考文献

［1］崔希亮，张宝林，2011.全球汉语学习者语料库建设方案.《语言文字应用》第2期.

［2］甘瑞瑗，2006.“国别化”对外汉语教学用词表制定的研究.北京：北京大学出版社.

［3］中华人民共和国教育部国家语言文字工作委员会（2010）.汉语国际教育用音节汉字词汇等级划分（GF0015—2010）.北京：北京语言大学出版社.

［4］国家汉语水平考试委员会办公室考试中心，2001.汉语水平词汇与汉字等级大纲.北京：经济科学出版社.

［5］胡晓清，2018.国别化汉语中介语动态语料库建设理念、实践与前瞻.《山东师范大学学报（人文社会科学版）》第5期.

［6］胡晓清，许小星，2018.国别化汉语中介语动态语料库建设与研究.北京：中国社会科学出版社.

［7］李如龙，2012.论汉语国际教育的国别化.《语言教学与研究》第5期.

［8］刘英林，马箭飞，2010.研制《音节和汉字词汇等级划分》探寻汉语国际教育新思维.《世界汉语教学》第1期.

［9］权立宏，2017.小型汉语口语语料库建设探讨.《广东外语外贸大学学报》第4期.

［10］文秋芳，王立非，2008.中国学生英语口笔语语料库.北京：外语教学与研究出版社.

［11］吴伟平，2010.语言习得汉语口语语料库（LAC/SC）的建设与实用研究，首届汉语中介语语料库建设与应用国际学术讨论会论文，南京大学.

［12］杨翼，李绍林，郭颖雯，田清源，2006.建立汉语学习者口语语料库的基本设想.《汉语学习》第3期.

［13］张宝林，2002.“HSK动态口语语料库”总体设计.语言测试的跨学科探索.北京：华语教学出版社.

［14］张宝林，崔希亮，2015.谈汉语中介语语料库的建设标准.《语言文字应用》第2期.

［15］张宝林，等.2019.汉语中介语语料库标注规范研究.北京：北京大学出版社.

［16］Eric Friginal，Joseph J.Lee，Brittany Polat＆ Audrey Roberson.2017.Exploring Spoken English Learner Language Using Corpora Learner. Springer Nature .

［17］Gilquin，De Cock ＆ Granger（eds.）.2010. LINDSEI （ Louvain International Database of Spoken English Language ）.Presses universitaires de Louvain.