购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.3 语料说明

2.3.1 语料标准

语体分类关乎语体研究的精准性。学界遵循的语体分类规则并不统一,对于语体的分类存在一定的主观性,且多采用典型例证法,语体类别的判定更多地依靠研究人员的主观语感(陈芯莹、刘海涛 2014)。具体的分类依据包括传输媒介、语言内容和语言形式等。

目前,最基本和最常见的分类方法就是口语和书面语的划分,其中书面语料较为常见也易于获取,如将“科技语体、公文语体、政论语体”等视为书面语体,这是以“传输媒介”为标准来划分语体。在传统的语体或语体语法研究中,多数研究都是以此为分类标准,具体如图 2 1所示。

另外,还有语体分类以“语言内容”来区分,语体又可以分为“科技语体”“艺术语体”“政论语体”等,其中最直接的就是以“词汇内容”为分类标准,如王德春、陈瑞端(2000:102—108)在对政论语体的特征进行论述时就主要围绕着政论词语、专门术语等。

除“语言内容”外,还有研究以“语言形式”为标准划分语体,可分为“演说语体”“谈话语体”等。但是在目前的语体分类研究中,“传输媒介、语言内容、语言形式”等分类准则经常杂糅在一起,如王德春、陈瑞端(2000)将语体分为谈话语体、艺术语体、政论语体、科学语体、事务语体、报道语体六种。

另外,按“文体”进行分类也是已有语体研究中较为常见的一种分类,不少语体的分类恰是基于文体的分类。不过,从本质上来看,语体是一种说话和交际的方式或结构系统,“诗、词、曲、赋、散文、小说、菜谱、说明书、驾驶手册、新闻、评论、广告”等作为文体的语言材料都不应该视为单独的语体,而且随着媒体的多元化,这种依据文体进行的语体研究越来越不适用。

图2-1 传统语体分类示意思图

因此,根据上述已有的语体分类操作,不难发现学界对语体系统本质的认识仍旧存在一定问题,这导致了传统语体分类也存在一定的不足。不难看出语体的分类并不是从“媒介、内容、功能、形式”等任何单一角度就能划分的,如“口语———书面”的区分是基于媒介的不同,“艺术、政论”等语体的区分是基于内容的不同,这些分类准则分属于不同层次。

2.3.2 语料来源

基于以上背景,本研究的语料选取遵循以下特点:

(1)关注真实语体。对于语体语法研究中使用的语料,本书认为语体研究不能只选取标准规范的“模范语言”语料,如《人民日报》中的文本等。本研究所使用的语言包括自然发生的口语对话,这类语言虽不如《人民日报》语言标准规范,但是“语法是要服从语言实际应用的”,即便这些语言是有噪音的,当语料达到一定规模后,所反映的就是不同语体下真实的语言使用情况。

(2)涉及多种口语。为了更好地观察口语体的内部分化情况,除自然对话外,本书还使用了口语独白、网络聊天、辩论、演说、电视剧对话、情景剧对话、小说对话部分、相声等多种口语语料作为辅助性分析语料。在各种语体语料中,口语语料较难把握,究其原因,一是汉语口语语料库匮乏,二是何为典型的口语这一问题还不是非常确定。因此,不少研究便将电影剧本、话剧剧本等也等同为一般的口语语料,然而这并不完全体现出口语体的特点。Sinclair(1991:16)认为在口语语料较为缺乏的情况下,确实会将电影剧本、话剧剧本等材料视为口语语料,但这些材料是经过加工的语言(“considered”language),是在人为情境下写出的模仿口语的一种语言。这类语言每一种都有其特色,但是都不能真正地反映自然口语。另外,还有公共会议、庭审对话、广播或电视节目转写的文本等材料,尽管这些材料大多是即兴话语和深思语言的混合使用,但是台词或只是被读出来的陈述还是不能作为自然口语的代表。Sinclair在其研究中将上述文本称为“类言语/准言语(quasi speech)”。因此,本书主要关注自然状态下的口语对话和独白,但是也将电视剧对话、情景剧对话、小说对话部分等语料作为与自然口语相比而言的“准言语”以进行对比分析。

(3)细分艺术语体。不少语体语法研究将散文或小说作为一种相对同质、纯粹的语体进行分析,但是本研究的观点是:散文和小说是混合语体,不适合以其作为语料进行研究,而且不管是语言学界还是文学界,对散文和小说的界定都不是十分统一,广义的散文甚至可以包括除韵文以外的所有体裁。另外,单是小说,其内部叙述话语就包括直接引语、间接引语、叙述者对小说人物言语行为的一般性叙述、叙述者的言语表述等,每一种表述中所调用的句法形式都有差异,如果将散文和小说就此视为两种内部同质性程度较高的语体,那么研究结果也势必会出现一些偏差。

基于以上原则,本书主要选取下述各类文本作为研究的语料来源(详见表 2- 2)。

表 2- 2 本书语料来源及语料规模表

续 表

具体语料来源如下:

(1)自然对话。该语料主要取自中国传媒大学媒体语言语料库(media language corpus,MLC)(以下简称“MLC语料库”),以自然场景下发生的非正式采访对话为主。

(2)口语独白。自然口语包含对话和独白形式,本研究以自然对话语料为主要的口语语料,但是为了观察话轮交替对自然语言的影响,也选用了部分口语独白语料辅以分析。此部分语料主要取自北京语言大学语言研究所开发的“北京口语语料查询系统”(以下简称“北京口语语料库”)。

(3)网络聊天。该语料主要取自个人收集的即时聊天文本和微博等。

(4)非正式访谈。该语料主要取自《鲁豫有约》等非正式的访谈节目,该类语料为对话形式,但是正式度要远高于“自然对话”。

(5)辩论。该语料主要取自历年“全国大专辩论赛”“公诉人与律师电视辩论赛”等文本。为保持语料整齐,本研究将主持语、评委与观众提问的部分剔除。

(6)演说。该语料主要取自中央电视台综合频道(CCTV- 1)的《开讲啦》节目,节目以嘉宾进行独白式演讲为主。因此,该语料也可称为“独立口语”。为保证语料内部的一致性,本研究所选的文本以在北方方言区居住或生活的嘉宾演说文本为主。

(7)电视剧对话。该语料主要取自电视剧《北京爱情故事》中的对话文本。

(8)情景剧对话。该语料主要取自情景剧《我爱我家》,不少语体研究将电视剧对话或情景剧对话文本也视为口语大类。实际上,此类语料是一种在非自然情况下发生的伪自然口语,同纯粹自然情况下发生的口语对话或独白相比缺少了重复、停顿等典型的口语特征。因此,电视剧对话和情景剧对话并不是真正的口语,但是却也可以用来观察各种语体因素对语言的影响。

(9)小说对话部分。该语料主要以多篇当代小说中的口语性引语作为语料。

(10)相声。相声是一种艺术语言形式,内容较贴近日常生活,但是语言形式上又具有一定的艺术特色。本研究所使用的相声语料主要取自刘宝瑞、张寿臣、郭荣起等相声大师相声选段的转写文本。

(11)诗歌。本研究的诗歌语体语料主要包括以下两个来源:诗歌文本。主要取自现代新诗。歌词文本。歌词作为一种较为特殊的韵律文本形式,是语体研究不可忽视的文本。因此,本研究选取的歌词文本均为中国内地流行歌曲的歌词,以汉语官话区籍贯唱作者的作品为主。

(12)散文。对于艺术语言大类下的散文和小说语言,本研究的态度较为谨慎。因此,本研究中仅部分章节选取了散文例句作为对比。

(13)操作指南。操作指南是指导读者或听者完成某个具体任务的语言形式。该语料主要取自《中华美食大全》等已正式出版的菜谱文本。

(14)操作流程。该语料取自机构或组织中的流程或任务指导书,以各机构或组织中执行某项工作所需要的流程指导书为语料主体,如街道办事处的办事流程、手术室工作流程等。

(15)操作说明。该语料主要取自家用电器、电子产品的说明书文本,作为操作语体下位语体之间的对比。

(16)公文文本。该语料主要包括“函、通知、请示、规定、决定、公告、通告、议案、意见”等通行于公务场合的事务性语言,并涉及两个子类:上行公文、下行公文。

(17)论述类政论文本。该语料取自《矛盾论》《实践论》等,文本语言重在论述。

(18)正式谈话类政论文本。该语料以《邓小平文选》为主体,文本具有较强的口语特征,有部分研究将其直接视为口语材料,本研究则将其同报告类政论文本和论述类政论文本加以区分。

(19)报告类政论文本。该语料主要取自近年来的国务院政府工作报告,此类工作报告同时以口说和书面两种形式向受众传播,最主要的目的就是向民众报告党和政府的各项工作的进展。

(20)科技文本。该语料主要取自理工科教材文本。

另外,本书部分章节还使用了北京大学CCL语料库和北京语言大学BCC现代汉语语料库中的语料作为补充语料。

在此说明,虽然本研究获取的直接语料是诗歌、散文、政府工作报告、小说、菜谱等 20种具体的文本,但是这些文本都只是其所属语体大类中的一种语体变体。在各文本所属的语体大类中,还存在着一系列相关的语体变体连续统,以上是本研究所一直秉持的理念。

为更清晰地标注例句的来源及语体,本书的例句来源标注如下:

例句。(语料来源/语体分类)

如:专家说要控制好血糖的话必须要经常检测血糖,<可是>血糖试纸挺贵的。(MLC语料库/自然对话)

例句中的逻辑结构标记以“<>”符号标注。

2.3.3 语料处理方法

目前,语体语法研究中的语料分析方法有如下几类:第一类多是对某一或某些句法结构、语法现象进行分析,从某封闭文本或特定封闭语料中选取特定的语言项目进行分析,如以《成功之路》系列教材为语料来源,选取其中的同义动词结合韵律、语体所进行的分析(骆健飞 2015);又如许彩云(2014:8)选择《中华人民共和国宪法》和《温家宝 2013年政府工作报告》作为指令性语体的研究对象。第二类是在某几种特定语体中对某一特定的语言结构进行检索,如朱军、卢芸蓉(2013)基于九种语体各 20万字的语料中对“对于/关于NP”式介宾结构的分析。第三类语料处理方法是同时对不同语体语料中的某一或某几个特定的语言现象进行检索和分析,如刘林、陈振宇(2012)对“了、着、过”在操作语体中的表现进行了分析。

上述研究的语料选择方法多是从某个已定的语料库中检索目标句法结构、语法现象,即采用关键词检索法获取语料,这种语料检索和处理方法对于此类研究是最为简易可行的,但是对于全方位了解语体的整体运筹机制仍存在一定的问题。胡范铸(2016)提出修辞研究的语料选择是否只需要关注语言中的“结构性特征”这一重要问题。本书所要着力探讨的是逻辑结构标记,也就是说,如果只关注这些已经标记化的、相对成熟的逻辑结构标记是否就是充分的?本次研究确实在某些语体中发现了一些正处于标记化过程中的语言现象,而只有将已成标记和标记过程的语言成分充分结合起来,才能了解逻辑结构标记范畴在不同语体下的差异性表现。

因此,对单一标记检索这种语料获取方法并不能避免此问题,一则会忽略语言中不少功能性成分,尤其是面对逻辑结构标记这种与话语高度相关的语言成分;二则会忽视语言中的某些非句内信息和语境信息,如对多重复句的研究也必须考虑其与句群之间的关系。由于逻辑结构标记属于功能性标记,而且不少逻辑结构标记还正处于标记化的过程中,所以事先确定关键词进行搜索这种方法是不可行也是不切实际的。因此,本书所选择的方法是从自建语体语料库的每种语体中随机抽取同等规模的语料样本,利用由北京外国语大学中国外语教育研究中心开发的BFSU Qualitative Coder量化标注工具,对表示各种逻辑关系的标记词以及处在标记化过程中的逻辑关系表达手段进行穷尽性标注。

在语料抽样方法上,国内学者如耿直(2012:30)使用等距抽样法,即“反映语料分布总体面貌的情况下缩小语料分析数量的一种抽样方法。如介词‘比’在国家语委语料库中的不同语料来源篇目检索中检索出约 5 000次,我们每 10条语料取1条语料,可以等距抽样出 500条语料”。而本研究已经掌握 20种不同语体的语料,每一种语体语料的同质性都较高,“等距抽样”适用于同质性较高的研究对象,正适用于我们目前所进行的语体研究。根据语料库传统上分词的做法,如Brown语料库(Brown University Standard Corpus of Present-Day Edited American English)、LOB语料库(The Lancaster-Oslo/Bergen Corpus)、国际英语语料库(The International Corpus of English)均是由若干文本组成,每个文本 2 000多个词(刘颖 2014a:10—17)。另外,如果对语料库不标明文件的大小和来源等基本信息,则会容易被认为是随机采集的小规模的样本碎片。

因此按照惯例,本研究也首先将所获取的所有语料进行分词,将之切分成平均 2 000词的文本,然后进行等距抽样,并从每种语体中抽取共约 20 000词的文本。另外,为了提升处理上的精准性,我们也对语料中的标点再次进行了人工核实,尤其是口语类语料,以使得之后的分句、计算平均句长等步骤所得的结果更为精确。 /irTqhCIRSO1LEEtC5XKmCdfl58Rg7FDJSFULIsxhIa9o965XeC5IVnAaxYTljeH

点击中间区域
呼出菜单
上一章
目录
下一章
×