购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

语料采集标准研究

杨星星
(北京语言大学)

提 要: 语料采集是一个庞杂的工作。目前,语料的采集还没有统一的标准,即对于采集什么样的语料、怎样采集语料等问题还没有形成规范,通常的做法是采集能采集到的语料。为了给汉语中介语语料库的语料采集工作提供借鉴性的参考,我们主要从语料采集原则、语料采集渠道、语料采集内容与方法三个方面进行了研究。语料采集原则包括真实性、自然性、平衡性、代表性、多样性、丰富性、连续性、系统性。对于汉语中介语语料库来说,无论是书面语语料、口语语料还是多模态语料,最好的采集渠道就是学校、培训机构等教育场所。至于内容与方法,书面语语料、口语语料、多模态语料各自有自己的特点,但总的原则是自然产出的成段表达。

关键词: 语料采集;标准;汉语中介语语料库;语料库建设

一、引言

语料是建库的基本前提,建设一个语料库首先要解决语料采集问题。语料采集标准研究主要涉及采集什么样的语料、怎样采集语料两个问题。卫乃兴等(2007)指出并非所有的真实话语材料都可采作语料。语料的选择和采集要按照一套明确表述的标准。目前,语料库的采样主要依据一套外部标准而非内部标准。外部标准是社会语言学的标准,即根据文本或话语的社会语言学功能而界定的有关语域变量标准;内部标准是根据文本或话语内部的语言特征、风格等因素界定的标准。外部标准基本上是客观的,内部标准则因目前的技术水平制约而有较大的主观性。我们主要从语料采集原则、语料采集渠道、语料采集内容与方法三个方面来研究。

二、语料采集原则

2.1 真实性与自然性

真实性是语料的首要属性。没有真实性,语料就失去价值。张宝林、崔希亮(2015)指出真实性是建设汉语中介语语料库的基本前提,没有这个前提,语料库就不能反映汉语学习者真实的语言面貌,基于语料库的研究及得出的结论也必然是毫无意义的。

张瑞朋(2013)指出语料的真实性至少应该包括两层含义。一是水平真实性,即采集的语料必须是外国学生真实语言水平的反映;二是文字真实性,即采集的语料忠实于原来的语言文字面貌,对错字的保存和呈现要能体现出错误特征。其中,第一层含义是我们采集语料时要考虑的;第二层含义涉及语料的转写和录入,即语料的呈现要真实,保证原貌。关于语料采集时的真实性,张宝林、崔希亮(2015)进一步指出语料的真实性指语料必须是由学习汉语的外国人自主产出的成段表达语料。所以,为了保证语料的真实性,应剔除那些在指导下或借助学习工具完成的语料;单纯的造句也不是我们采集的对象。

一般情况下,语料的自然性越高,真实性也就越高。但在实际操作中,因为涉及个人隐私等问题,完全自然的语料很难获得。我们不得不退而求其次,选择不完全自然但也在很大程度上反映学生汉语水平的考试语料,也叫受控语料。以口语库为例,自由、即兴话语是最自然真实的,也是最有价值的。它具有真实的交际目的、真实的交际者角色关系,实现真实的意义和功能,可真实地反映语言使用者在给定场景中的语言运用特征。但即兴话语语料却很难获得,基本上都是受控话语或者说考试场景话语。影响自然性的另一个因素就是学生是否意识到了他们的谈话正被录音。是,就可能影响交谈的自然性;否,就可能较好地保证交谈的自然性(卫乃兴等,2007)。

其实,真实性与自然性不是完全成正比的关系。杨惠中(2002)指出试卷作文能够真实反映学习者目前的写作水平,但考场压力和焦虑使他们的作文并非常态的语言运用,其数据的自然性较弱。考试作文却可以避免考生查阅资料,又在一定程度上能客观反映作文水平的真实性。另外,不完全自然的试卷语料也有自身的优势。卫乃兴等(2007)指出考试语料的自然性不如即兴话语,受内容和时间限制,学生有一定程度的心理紧张等情绪因素,会影响真实水平的发挥和话语特点的反映;但是,从另一方面看,考试话语具有较强的话题针对性,便于反映有关的词语运用能力。

综上,语料的真实性与自然性是语料库建设的理想状态,在实际操作时我们可以根据研究目的来分配考试语料和非考试语料的比例。

2.2 平衡性与代表性

语料库并非越大越好,而是应该在足够大的规模下达到一种分布的平衡(张瑞朋,2013)。平衡性包括学习者背景的平衡和不同性质语料本身的平衡。学习者背景包括学习者的外语水平、性别信息、所学专业、学校、所属地区等变量。这些变量在采样时应认真考虑,适当平衡,使语料库具有较好的代表性,且日后进行相关的对比研究(卫乃兴等,2007)。语料本身的平衡包括口语与书面语的平衡、自然语料与考试语料的平衡、正式语体语料与非正式语体语料的平衡等。

平衡性也直接关系到语料的代表性,没有平衡性就谈不上代表性。邓海龙(2016)指出要达到语言研究目的,语料库的均衡性和规模量都是很重要的指标。只有做到这两点的语料库才具有代表性,才使检索结果具有实证意义。

语料的代表性指所选语料要能真实反映学习者整体或大多数学习者的汉语面貌与水平,而不仅仅是反映个别或某一小部分学习者的汉语学习情况。因为“我们需要分析由许多说话者采集的大量语言,以保证我们的结论不是基于少数说话者的个性语言而做出的”,“语料库的代表性反过来决定研究问题的种类和研究结果的普遍性”(道格拉斯·比伯等,2012:152,转引自张宝林,崔希亮,2015)。

2.3 多样性与丰富性

保证语料来源的多样性非常重要(约翰·辛克莱,2000)。卫乃兴、李文中、濮建忠(2007)指出话题与语言形式和话语模式的关系紧密,围绕一定话题展开的话语往往共享一个语义场,话语模式也有规律可循。话题多寡也直接影响所含词汇量的大小。所以,“话题多样性”应是口语语料库建设的重要原则之一。语料库建设者应尽可能扩大语料源,增加话语类型,使其更具代表性,体现丰富的语言形式和交际内涵。黄伟(2015)也提出:建设多模态汉语中介语语料库,在采集语料时应注意多样性与丰富性。

所以,通用型语料库的语料要尽可能地涉及生活的各个方面,话题、情境要多元化,不要只局限于校园生活。而专用型语料库的语料也要注意话题的广度和交际内容的多样性。

2.4 连续性与系统性

为了对语言现象或个体学习者做动态跟踪研究,就需要所采集的语料具备连续性(张瑞朋,2012)。连续性不仅可以方便用户对不同级别的语言发展趋势做整体的对比研究,而且可以方便用户对个体学生做语言追踪研究(张瑞朋,2013)。有了“历时”特征,中介语的纵向变化研究才能进行。大时间跨度的语料便于进行中介语的纵向或跟踪调查,研究特定水平的学生群体外语能力发展的模式和规律,或给定语言形式的习得特征(卫乃兴等,2007)。成系统的语料能够反映学习者的整个学习过程和完整的语言面貌,便于从各种角度对语料进行观察分析,对基于语料库的相关研究具有重要意义(张宝林,崔希亮,2015)。

但留学生学习时长不稳定,连续性语料很容易断层甚至流失,所以单个学生语料的连续性很难保证。只有进一步增强初级、中级和高级语料分布的平衡性,才能更好地体现该语料库的连续性,而且即使同一个学习者不能连续学习,但是只要尽量增加各阶段的语料,提高语料库对各阶段的覆盖率,也可以在宏观上增强语料的连续性(张瑞朋,2013)。连续性、系统性的语料有助于我们观察到学习者学习语言时的动态变化,从而发现哪些问题是阶段性的,哪些是持续性的难题,并在此基础上指导一线的教学。

三、语料采集渠道

在采集语料前,首先要确定采集点,并详细深入地了解各个采集点的语料情况。这一步是保证语料质量的关键,也是后续建设工作的基础。如果该采集点语料不适合(如不是成段的自主表达)或者同类语料过多(如日韩母语背景的语料),我们可以选择放弃;也可以跟采集点的负责人商议,让对方产出符合我们要求的语料,包括学生背景信息全面、话题设定、时间/字数要求等。只有找好了采集点,语料的质量才有保证,我们的采集方案才能合理,从而实现语料的真实性、自然性、平衡性、代表性、多样性、丰富性、连续性、系统性。

无论是书面语语料、口语语料还是多模态语料,最好的采集渠道就是学校、培训机构等教育场所。一方面,学生背景信息易获取且全面,另一方面能保证语料采集的连续性。所以,我们可以通过跟学校、培训机构、教师个人合作的方式来采集语料。合作最好采用共赢的方式,如提供语料的单位或个人可以免费享用研究成果等。当然,网络上也有各样的资源,但是其真实性、可追踪性太差,且无法获得学生背景信息,因此,其语料质量是不过关的。

四、语料采集内容与方法

汉语中介语语料库总共有三类语料:书面语语料、口语语料和多模态语料。每种语料的特性不同,其采集内容和方法也不一。

4.1 书面语语料

书面语语料的采集内容是自然产出的成段书写表达。如:平时的作文练习、报告稿、演讲稿、考试的作文(周测、月考、期中、期末、HSK等),甚至是便签、日记、周记等。就可操作性而言,作文是书面语语料的主体。

4.2 口语语料

口语语料的话语类型涉及“独白、演讲、报告、访谈、会话、辩论”等体裁形式,也涉及交际者的角色关系,如“教师—学生、学生—学生、家庭成员—家庭成员、应聘者—招聘者”等关系。体裁形式和角色关系不同,语言使用的特征也就不同。如,“独白”类的话语不具有一般话语的交互性,缺乏话论转换、会话策略的使用等内容,从而使有关研究无法进行,故必须适量控制或者不选;“演讲”和“报告”类的话语经过事先准备并参照讲稿,体现极强的书面语特征,因而不是口语语料库应选的话语类型(卫乃兴等,2007)。

因此,口语语料采集的对象主要是访谈、会话、辩论等事先无准备且交互性强的成段的口头表达。另外,常用的口语语料获得手段包括:背景调查、单独访谈、图片诱导、课堂观察(赵守辉,刘永兵,2007)。我们还可以借助语伴聊天、考试等方式获得语料。

4.3 多模态语料

多模态语料库采集具有声音、图像信息的汉语学习者口头产出的话语材料,与一般所说的口语语料相比,强调语言(语音)层面以外的副语言信息或非语言信息,比如动作、表情、环境等;采集的语料主要包括但不限于考试录像、演讲比赛、课堂教学和日常会话等(黄伟,2015)。一些电视节目的聊天画面也可以成为此类语料库的采集对象,如《世界青年说》《非正式会谈》《世界大不同》等,其话题丰富,贴近生活并联系当下热点,交谈自然。

五、结语

综上,语料采集原则包括真实性、自然性、平衡性、代表性、多样性、丰富性、连续性、系统性。对于汉语中介语语料库来说,无论是书面语语料、口语语料还是多模态语料,最好的采集渠道就是学校、培训机构等教育场所。至于内容与方法,书面语语料、口语语料、多模态语料各自有自己的特点,但总的方向是自然产出的成段表达。

语料的采集是一项庞杂的工作,在采集语料的过程中会受到各种客观条件的限制,很难达到真正的全面和平衡;当然不同的语料库依据不同的建库原则和目的在采集语料时会有不同的取舍,采取的抽样方法和比例也是不同的(何丹,2012)。所以,本文所提出的原则和方法有些是努力的方向,如自然性、平衡性;有些则是在建设语料库时要严格遵守的,如真实性、代表性、丰富性、多样性;实际操作时,连续性、系统性可结合建库原则和目的来取舍、调整。

参考文献

[1]邓海龙,2016.赣南客家方言语音语料库及其检索平台的设计与实现.《考试周刊》第81期.

[2]何丹,2012.三个汉语中介语语料库对比分析.中山大学硕士学位论文.

[3]黄伟,2015.多模态汉语中介语语料库建设刍议.《国际汉语教学研究》第3期.

[4]卫乃兴,李文中,濮建忠,2007.COLSEC语料库的设计原则与标注方法.《当代语言学》第3期.

[5]杨惠中,2002.语料库语言学导论.上海:上海外语教育出版社.

[6]约翰·辛克莱,著,王建华,译,2000.关于语料库的建立.《语言文字应用》第2期.

[7]张宝林,崔希亮,2015.谈汉语中介语语料库的建设标准.《语言文字应用》第2期.

[8]张瑞朋,2012.留学生汉语中介语语料库建设若干问题探讨.《语言文字应用》第2期.

[9]张瑞朋,2013.三个汉语中介语语料库若干问题的比较研究.《语言文字应用》第3期.

[10]赵守辉,刘永兵,2007.新加坡华族学前儿童口语语料库的生成.《世界汉语教学》第2期. tTYL4SQevESJUi5lA3NXPBZyRb71N05U3uktDPOL/8zpL9fg3GTnPTu/ubeEOzOX

点击中间区域
呼出菜单
上一章
目录
下一章
×