购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

我国老年人话语多模态语料库建设与反思

华东理工大学 周德宇

[提 要] 在目前世界老年语言学研究的各类范式及方法中,多模态语料库语言学方法属于前沿领域。多模态语料库的建设思路、数据采集、加工方法等均与后续研究的质量密切相关。本文首先对国内外老年人话语多模态语料库的建设做了简要回顾,发现现存语料以任务型、诱导型为主,无法体现语言能力全貌;专用语料库少、规模小、缺乏统一建库体系和标准;共时语料库为主,缺乏历时语料库等问题。针对这些问题,同时为构建我国老年语言学实证研究的数据基础,我们研发了中国老年人话语多模态语料库(MCGD)。本文重点介绍该语料库的设计思路、贴真建模方法、多模态语料加工处理、标注系统与操作规范及建库质量评估等问题。在此基础上,对MCGD的持续构建进行了反思与展望。

[关键词] 多模态语料库;老年人话语;言语行为;人生历程

1.引言

在全球老龄化和我国深度老龄化的背景下,语料库作为重要语言研究方法之一,为老年人语言和话语研究提供高价值数据的同时,在一定程度上也显现了真实规律,可以为相关理论研究提供重要思路。目前国内外语料库语言学研究方兴未艾,语料库构建呈现出多模态格局的拓展。但大多语料库的建库目的聚焦语言某一方面,或关注某一现象,并未就老年人语言能力全貌开展系统性研究以及相应语料库的建设。

为真实了解并全面刻画我国老年人语言能力,文章探讨如何构建符合我国国情的老年人话语多模态语料库(Multimodal Corpus of Gerontic Discourse, MCGD),为老年人语言能力与老年语言学研究提供可靠数据,同时拓展老年人语言的研究范式。

文章涵盖以下内容:(1)梳理国内外老年人话语语料库的现状;(2)聚焦并系统阐释MCGD的构建,包括构建思想与方法、多模态语料的加工建设方案等;(3)讨论MCGD 的未来发展与研究拓展。

2.国内外老年人话语语料库建设情况

老年人话语语料库为统称,涵盖(1)老年人话语专门语料库;(2)通用语料库里老年人话语样本子库。目前国内外老年人话语语料库发展迅速,一些率先步入老龄化国家的研究成果相对丰富。本节主要围绕已公开发表且有一定借鉴性的语料库展开讨论。

通常,研究目的对语料库建设有决定性作用。依据研究目的,现有语料库主要呈现三个建库导向:(1)老年人语言研究导向,(2)老化研究导向,(3)全生命周期语言研究导向。

(1)老年人语言研究导向

该导向的语料库建库目标明确,主要针对老年人语言的某个层面,如语音、韵律、词法、句法、语篇、语用等层面的特征描写,研究问题包括特殊老年人语言及交流、老年人语用能力的多模态特征、衰老中的交流和语用手势、代际沟通、身份构建等。该类语料库以老年人语言参照语料库(a reference corpus for the elderly's language, Corpage)、老年人语言多模态语料库(a multimodal corpus for the elderly's language, CorpAGEst)、老化互动研究语料库(Videos to Study Interaction in AGEing,VIntAGE)(Catherine Bolly团队)和卡罗来纳会话集(Carolinas Conversations Collection,CCC)(Boyd Davis团队)为代表。该类专门用途语料库的建库效率高、用途明确,建库具体方案具备一定系统性,是其他多模态语料库可借鉴的。但该类语料库体较量小,同时在典型性上略显不足。

(2)老化研究导向

该导向的语料库通常是以老化研究为核心的跨学科研究,语料库是这类研究的“附属产物”,最初是为了记录研究中被试参与研究的过程,从语言研究角度来看,这可作为重要资源为语言与老化研究提供语料支撑。这类研究多由国外研究机构构建,具备代表性的有痴呆银行(DementiaBank),成年发展的跨学科纵向研究(Interdisciplinary Longitudinal Study of Adult Development,ILSE ),波恩老化纵向研究(The Bonn Longitudinal Study on Ageing,BOLSA)。该类语料库具备三个优势。一是老化研究为语言老化研究提供了丰富的跨学科基础,同时为含医学、语言学、人工智能在内的界面研究提供了可能;二是语料具备一定历时特点,以多次追踪采录为标志;三是语料库多以队列为主要采样设计。然而该类语料库的建库目的并非针对语言老化,因此与语言维度的关联程度受到很大限制。

(3)全生命周期语言研究导向

该导向的语料库以构建本族语言在全生命周期范围内语言全貌为目的。主要由国家级研究机构或项目支持构建大型语料库为主,并将老年人话语纳入构建范围,以确保整体语料库版图的完整性与研究资源的丰富性。代表性语料库包括俄语国家语料库(НАЦИОНАЛЬНЫЙ КОРПУС РУССКОГО ЯЗЫКА,RNC)、日语自发话语语料库(日本語話し言葉コーパス,Corpus of Spontaneous Japanese, CSJ)和现代汉语现场即席话语语料库(Spoken Chinese Corpora of Situated Discourse, SCCSD)。基于这些语料库的学术研究丰富,学者们采用不同的语料库研究范式在文学研究、翻译研究、语言对比研究、外语与教学研究、语言研究和语料库理论研究等方面均获得了丰富成果。虽然该类语料库体量大、覆盖广、功能全,但不足在于历时语料的欠缺,以及围绕老年人语言老化的研究相对不足。以上提及的老年人话语语料库总览,概括为表1。

表1 代表性老年人话语语料库一览

备注:+/-表示有无某属性

综上,目前老年人话语语料库建设呈现特点主要有四。一是语料库大多以针对某个语言功能的任务型、诱导型语料为主,无法完整体现老年人语言能力,且以自然话语为语料来源的语料库有限。二是以语言研究为建库初衷的语料库有限,很多语料库是某个综合型研究的附属产物,致使在语言层面上缺乏有价值的发现。三是专用老年人语料库较少,大多语料库以全年龄段为语料收集来源,导致老年人语料库规模不大,且尚未形成统一的构建体系与标准。四是共时性语料库为主导,亟须开展更多历时研究,同时应当从人生历程视角采集语料样本。

3. MCGD的构建

为了能够在自然数据的基础上,尽可能吸纳更多可辅助判断老年人语言能力的数据,我们建立了专用MCGD。构建MCGD是一个系统性、层次性的工作,主要包含以下六个核心要素:(1)建库目的及设计;(2)语料采样对象;(3)采样方法;(4)样本代表性;(5)语料处理方法;(6)语料发布。本节将专门介绍我们构建的MCGD。

3.1 建库目的及设计

MCGD以形成全面刻画我国老年人语言能力全貌、形成老年人语言能力判断标准为建库目的,同时意在解决我国老年语言学实证研究缺乏汉语为母语的语料数据资源的问题。MCGD采用出生队列的建库设计,以5年为队列间隔,以认知健康状态为重要指标,收录60周岁及以上老年人的基于人生历程 半结构化访谈的现场即席话语全部内容,并尽可能记录老年人与即席话语当下所关联的“一身”数据 。同时在条件允许的情况下,针对具有代表性特征的老年人开展以6或12个月为采录间隔的历时语料库构建。

3.2 语料采样对象

根据建库目的,MCGD以老年人为采样对象,针对某个独立采样对象所采集的全部信息都归在同一个采样对象中。为了全面刻画采样对象,需要尽可能多地采集采样对象的信息,包括采样对象的“一身”数据以及现场即席话语的全部信息。

3.3 采样方法

根据采样对象,采样方法主要涉及采样设备、采样策略和采样伦理问题。

3.3.1 采样设备

MCGD的多模态属性决定了语料的获取方式与处理办法。多模态语料应当包括能够帮助研究人员进行标注的全部信息,如话语内容、韵律、动作等,如此,多模态语料的获取方式是基于音视频流的。为了确保语料质量以便精准地捕获多种模态信息,本语料库的语料采用高采样率音视频设备获取语料:使用无线数码录音笔(SONY SX2000-A10),采样率分别为16kHZ和44.1kHz和高采样率数控摄像机(SONY FDR-AX60)采集视频流,帧速率为50p,分辨率为1080p。

3.3.2 采样策略

根据不同的社会活动,MCGD采用了不同的采样策略。其中为了解老年人认知状态,直接在合作的三甲医院获取相关多模态数据,这些数据主要来源于神经内科门诊的神经心理学评测以及(部分)影像学数据。为了解老年人生活中的真实状态,MCGD使用了半结构化访谈(semi-structured interview)为主要采样策略。这是一种获取定性材料的方法。其优势在于涉及的问题是有目的、系统性、事先准备好的,同时访谈者可依据实际情况动态调整(Wengraf,2001)。由于本研究所收集语料的主要产出者为不同年龄、不同认知健康状态的老年人,且个体性格差异较大,半结构化访谈的引导性特点能够帮助语料采录者获得预期语料,为获取该人群的现场即席话语语料提供有效保障。

3.3.3 采样伦理

采样伦理以及语料使用的伦理问题(Adolphs & Carter, 2013: 149)是研究人员需要重视的问题之一。MCGD数据采集和研究方案均通过了研究伦理委员会的审查,审查编号为tjsfl rec202101。

3.4 样本代表性

样本代表性包括取样原则、取样、取样代表性,其目的不仅在于确保样本能够反映真实问题,同时还能为其他语料库采样提供借鉴,甚至是可复制的可能。本小节将围绕这三个方面展开讨论。

3.4.1 取样原则

MCGD的建库目的是尽可能刻画老年人语言能力全貌,尤其是研究我国汉语为母语老年人因各种影响因素而导致的语言能力变化的问题。因此取样涉及老年人和其所产生的即席话语两个部分,后者建立在前者的基础上。在进入实际取样前,要首先考虑如何取样、取什么样。对老年人的取样属于人口取样的范畴,需要采取合理的取样方法,并在遵守一定取样原则的前提下进行。本研究以随机取样为原则,采用了先等距取样(又称机械抽样或系统抽样)、再分层取样的办法进行取样。前者以年龄为取样标准,后者以认知健康为取样标准。

3.4.2 取样

在遵守取样原则的前提下,MCGD开展了基于建库设计的取样,包括样本估计与实际取样两个部分。

目前,上海市是MCGD的主要采集地,以上海市老年人口数据为参考,进行样本估计(sample size calculation)。根据2019年 上海市老年人口和老龄事业监测统计信息统计为基础数据,先参照全国1%人口抽样调查的取样比率进行等距取样,再根据Jia等(2020)对我国60岁及以上老年人群的轻度认知障碍(Mild Cognitive Impairment,MCI)患病率和痴呆患病率的估测结果进行分层取样,得到本研究的理想取样,随后进行实际取样。理想取样与实际取样对比如下图1。

图1 MCGD理想取样与实际取样对比图

从等距取样看,除低龄段以外,其他取样队列的趋势较为符合。从分层取样看,认知健康(Cognitive Normal,CN)和阿尔茨海默病(Alzheimer's Disease,AD)在理想取样和实际取样上趋势一致,而MCI则较为特殊。虽然理想取样和实际取样并非完全一致,但鉴于本研究的探索性性质,以及语料采集阶段所处的社会环境(2020年—2022年初新冠疫情管控期间)对采集的阻力,实际取样符合取样预期。

3.4.3 取样代表性

MCGD取样的地域代表性。主要语料采集地区(上海)老龄化程度高,实际取样区域相对分散,涉及8个全域行政区中的5个(占比63%)。同时由于上海地区人口结构多元,语料也相对多元,具备一定的地域代表性。

MCGD语料取样的内容代表性。主要体现在话语承载方式 、语料采集方式以及认知数据上。目前老年人的话语交际倾向于地面承载话语方式,这一方式很好地促进了MCGD设定的面对面半结构化访谈。同时,访谈方案涉及老年人的生命历程与重要生命时刻,个体历程和历史事件均为MCGD的构建提供了代表性数据。最后,MCGD的认知数据均是经由三甲医院评估师进行认知评估的结果,其中部分结果还同时配备生物学数据。因此,MCGD在取样内容上具备一定合理性与代表性。

综上,MCGD样本代表性主要体现在三个方面:(1)等距取样的科学性;(2)分层取样的代表性;(3)实际取样区域分布的均衡性;和(4)取样内容的合理性与代表性。虽然实际取样与理想取样在一些具体方面存在差异,但整体来看,MCGD的实际取样仍具一定代表性。

3.5 语料处理方法

老年人现场即席话语是老年人活着的体验。鲜活体验是整人的整一体验。面对整人整一体验,顾曰国(2013)采用贴真建模的方法,即从不同层面观察整人,针对不同观察层面采取相应的数据采录方法以获得该层面上的数据。如临床医生从血液循环上观察某老人,对老人做抽血化验,由此得到老人的血液循环层面上的数据。同样,我们观察老人语言层面,对其做访谈采集,由此得到老人在语言层面上的数据。把从不同层面观察和采集到的数据再集成起来,企求得到关于此老人的整人全貌。显然,观察层次越多,采集方法越多,越能贴近真实的老人。顾曰国提出这样一个大数据公式:

英文:the (dimensional) self {…{…}…}

中文:(方面)己 {…{…}…}

Dimentional(方面)即研究者的观察层面;self(己)是观察层面上的数据存放夹;{…{…}…} 借自集合论里的数据集,含父集及其子集。

3.5.1 MCGD构建方法:贴真建模

建模(modeling)是搭建一个对某一系统或某一现象实现简化表达的过程。对话语活动的贴真建模(simulative modeling)就是通过建模来贴近人类多模态话语活动的充盈意义状态(total saturated significance,TSS)(顾曰国,2013:4),即从不同的视角观察个体在同一话语中的表现,实现“整人”的化整为零。MCGD采用此贴真建模方法,具体包括概念建模、数据建模和实际操作与评估。

3.5.1.1 贴真建模在语料采集阶段的体现

在语料采集阶段,概念建模能够有效帮助采集计划的制订。根据多模态话语(multimodal text) 分析框架(Gu,2006:132),MCGD要收录能够包括社会心理层和个体行为层的信息。数据建模则确定了语料采集的具体形式、手段,以及具体数据的记录方式与数据类型。理想MCGD包含各类数据的格式编码如表2。

表2 数据类型与格式

3.5.1.2 贴真建模在语料加工阶段的体现

在语料加工阶段,概念建模在为语料加工确定有效分析单位的同时,能有效解构分析单位的构成成分,为数据建模提供建模方向。数据建模则是将概念建模中解构出的成分进行计算机可读的数据化表达。

MCGD以言语行为(语力)为基本建模单位。语力的概念建模采用八维系统(octet system)模型(Gu,2012;顾曰国,2022)。在此基础上,遵守“整一”原则,对研究对象在言、思、情、貌四种视角所产生的数据进行类型的确定以及数据集组的设定。通过对数据内容与形式的预判和试标注进行建模,最终确定数据类型与其对应格式。MCGD语料加工建模结果与对应关系如下表3。

表3 语力的数据建模视角与数据类型关系

3.5.1.3 实际操作与评估

贴真建模的实际操作与评估体现在语料的采集与标注两个方面。

语料采集的实操就是根据采集的概念建模和数据建模进行实际操作,并形成“资源库”(archive)(顾曰国,2002:489)。随后按照一定标准从资源库提取语料,形成符合研究需要的(源)“语料库”(corpus)(顾曰国,2002:489)。简言之,资源库是采录的语料,语料库是选取后供研究用的语料。这一过程就是对语料采集建模效果的评估以及对语料资源本身的评估。

语料标注的实操就是具体的语料标注,需要根据建模方面建立标注层级,并根据实际语料进行标注赋值(即第3.5.2节,MCGD深度加工)。对标注的评估就是验证多模态语料标注的信度(reliability)、效度(validity)以及一致性(consistency)(Cavicchio & Poesio, 2009),具体指对标注内容实行过程性和结果性评估,包括标注员的自评与(非)专家对标注的专业性和经验性评价。通过多次、多方判断确保标注质量。

综上,MCGD贴真建模路径概览如下图2所示。

图2 MCGD贴真建模

3.5.2 MCGD深度加工

MCGD的深度加工是依照标注系统和要求对语料进行切分与标注及其准确性检验的过程。本节主要详述本语料库构建过程中的实际标注办法、标注过程,以及对标注结果的检验与评估。

3.5.2.1 切分与标注

根据概念建模及数据建模的结果,使用对应软件设立相应标注层级,同时设定层级的属性、受控词汇等。本语料库在数据建模的基础上,设立32个标注层(15个父层及17个子层),子父层对应关系如下图3。

图3 老年人话语多模态语料库层级关系图(按父层首字母顺序)

标注前,MCGD通过预标注及明确每一层级的工作定义、切分标准与标注方法 ,形成标注手册,再进行正式标注。根据数据建模与标注实操性,MCGD使用ELAN和Praat进行标注,最终通过MySQL链接多模态数据和老年人元数据,形成熟语料。这里以一个实例(图4)展示本语料库部分标注结果的界面。

图4 MCGD标注实例

3.5.2.2 标注的评估

在语料库建设中,对标注进行评估是把控标注质量(详见第3.5.1.3节),保障研究结果的重要环节,因为标注某个既定语言现象很难做到纯粹的客观(Leech,1997),这对历时较长的MCGD标注评估工作提出了更大的挑战。为尽可能客观描述语言现象,减少标注员主观性的潜在影响,MCGD标注的评估工作采用了多方法、融合式的评估制度,包括过程性与结论性检验方法,以及内部检验(标注员内部一致性检验)联合外部验证(专家信效度验证)的评估方法,并基于SPSS统计软件进行相应信效度结果统计。结果均表明,该语料库在标注体系和具体语力实例的标注上具备较高有效性和可信度。

3.5.3 MCGD建库过程与结果

在完成语料采集、评估、贴真建模、深度加工等建库过程后(图5),完成第一期建设,形成约135小时的多模态资源库,和79.61小时的多模态语料库。包含87位老年人,认知健康状态包括CN、MCI和AD。资源库中活动类型包括访谈、娱乐、庆祝和评估活动,语料库中包含了前三个活动类型。

图5 MCGD建库过程

3.6 语料发布

建成后的语料库可以借助不同介质(如硬盘、网络等)完成数据发布,通过数据共享的形式提高语料的使用率,更好地发挥语料库的价值。

目前文本语料库以及包括音频信息的多模态语料库的共享及相应技术较为成熟,这些语料库包括英国国家语料库(British National Corpus,BNC)、布朗语料库(BROWN Corpus)、汉语口语语篇语料库(Discourse-Chinese Annotated Spontaneous Speech,Discourse-CASS)等。一些研究机构已经开展了对含有视频、图像等模态信息的语料库平台的构建,然而由于这类多模态语料库建库成本高、发音人隐私、音视频版权等问题,导致这类平台中的语料库体量小、内容有限、获取难度大等问题,且这类平台主要由国外机构建设,其中相对成熟的多模态语料库管理平台是LaBBCAT。

目前,国内团队也在积极研发能够进行多模态语料管理的多模态语料库管理平台。北京外国语大学人工智能与人类语言重点实验室研制了“多媒体、多模态语料库协作管理平台”(“平台”),该平台拟协助语料库建设者异地线上协作,便捷共建高质量多媒体、多模态语料库(张永伟等,2022)。未来,MCGD将视具体情况与研究需求,在遵守研究伦理的基础上,借助“平台”尝试数据发布,实现一定的资源共享,为老年人语言研究做出贡献。

4. MCGD的反思与展望

MCGD在借鉴现有老年人话语的多模态语料库经验的基础上,以概念分析为根基,从老年人话语的本质出发,将语言置于全生命时期的视阈下开展相应研究,以“整人”为建库思想,以联通整人一身数据为手段,以链接老年脑健康状态与语言能力为目的,形成了一套系统性的建库理论、原则与方法,以及具有信效度的、以老年人现场即席话语为来源的老年人话语多模态语料库,全面刻画了汉语语境下老年人语言能力的同时,为未来类似语料库的建设提供有效参考。

MCGD在语料库构建的理论以及语料的质和量上均有所突破,基于MCGD的阶段性建成也有了相应的研究成果,包括不同社会活动老年人的语力特征(Huang et al., 2023)、老年人语用障碍及补偿研究(周德宇、黄立鹤,2023)等。尽管如此,MCGD仍存在不足,需要以MCGD的持续建设与维护为中心,不断围绕以下两个方面实现自我革新与突破。

MCGD的持续建设体现在语料库扩容与联通、语料的提质与提速。第一,扩容方面需要在现有共时语料为主的基础上,加强历时语料库的建设;语料库联通一方面指推进界面研究,尤其是达成与生物学界面数据的衔接与协同建设,推进MCGD从语料库向数据库的迈进;另一方面指将MCGD与其他生命时期(如儿童期、成年期)语料库加以联通,能够形成我国全生命周期多模态语料库。第二,语料提质要以高质量语料加工结果为导向,减少返工率;提速则要思考如何将先进人工智能技术与语言研究进一步结合,以减少人工标注的负担与主观性,推进多模态语料库的自动化建设。

参考文献

Adolphs, S. & Carter, R. 2013. Spoken Corpus Linguistics: From Monomodal to Multimodal. London: Routledge.

Allwood, J., Cerrato, L., Jokinen, K., Navarretta, C. & Paggio, P. 2007. The MUMIN coding scheme for the annotation of feedback,turn management and sequencing phenomena. Language Resources and Evaluation 41: 273-287.

Bolly, C. 2015. Multimodal Annotation Guidelines. http://corpagest.org

Cavicchio, F. & Poesio, M. 2009. Multimodal corpora annotation: Validation methods to assess coding scheme reliability. In M., Kipp, J., Martin, P., Paggio & D. Heylen (eds.), Multimodal Corpora. Heidelberg: Springer. 109-121.

Douglas-Cowie, E., Cowie, R., Sneddon, I., Cox, C., Lowry, O., McRorie, M., Martin, J-C., Devillers, L., Abrilian, S., Batliner, A., Amir, N., Karpouzis, K. 2007. The HUMAINE database: Addressing the collection and annotation of naturalistic and induced emotional data. In A. Paiva, R. Prada & R. Picard (eds.), Affective Computing and Intelligent Interaction. Berlin: Springer LNCS, 488–500.

Ekman, P. & Friesen, W. V. 1976. Measuring facial movement. Journal of Environmental Psychology 1 : 56-75.

Gu, Y. 2012. Discourse geography. In J. P. Gee&M. Hanford (eds.), The Routledge Handbook of Discourse Analysis. London: Routledge. 541-557.

Gu, Y. 2006. Multimodal text analysis: A corpus linguistic approach to situated discourse. Text&Talk 26(2):127-167.

Huang, L., Qu, H. & Zhou, D. 2023. Older adults' refusal speech act in cognitive assessment: A multimodal pragmatic perspective. Frontiers in Psychology (14):1026638.

Jia, L., Quan, M., Fu, Y., Zhao, T., Li, Y., Wei, C., Tang, Y., Qin, Q., Wang, F., Qiao, Y., Shi, S., Wang, Y. J., Du, Y., Zhang, J., Zhang, J., Luo, B., Qu, Q., Zhou, C., Gauthier, S., Jia, J. 2020. Dementia in China: Epidemiology, clinical management, and research advances. The Lancet. Neurology 19(1): 81–92.

Leech, G. 1997. Introducing corpus annotation. In R. Garside, G. Leech & A. McEnery (eds.), Corpus Annotation: Linguistic Information from Computer Text Corpus. New York: Addison Wesley Longman Inc. 1-18.

Santrock, J. W. 2019. Life-span Development. New York: McGraw-Hill Education.

Wengraf, T. 2001. Qualitative Research Interviewing: Biographic Narrative and Semi-structured Methods. London: SAGE Publications.

顾曰国,2002,北京地区现场即席话语语料库的取样与代表性问题。载宋月华主编,《全球化与21世纪》:484-500。北京:社会科学文献出版社。

顾曰国,2013,论言思情貌整一原则与鲜活话语研究——多模态语料库语言学方法。《当代修辞学》(6):1-19。

顾曰国,2016,当下亲历与认知、多模态感官系统与大数据研究模型——以新生婴儿亲历为例。《当代语言学》18(04):475-513。

顾曰国,2022,概念分析法与分析哲学、日常语言哲学与言语行为。第二届全国语用学高端论坛主旨报告,北京,2022年9月。

黄立鹤,2018,《基于多模态语料库的语力研究:多模态语用学新探索》。上海:上海外语教育出版社。

张永伟、刘沛鑫、程璐、顾曰国,2022,多媒体、多模态语料库协作管理平台的设计与实现。《语料库语言学》9(01):122-133。

周德宇、黄立鹤,2023,语用障碍多模态补偿的功能与机制。《现代外语》46 (01):15-28。

Multimodal Corpus of Geronto Discourse: Construction and Refl ection

Abstract: The multimodal corpus approach is a frontier domain in linguistics studies for older adults, which requires careful consideration of construction ideas, data collection, and processing methods to ensure high-quality empirical research. This paper delves into the global construction of multimodal corpora of older adult discourse, highlighting some of the issues with established corpora that (1) only capture task-triggered and inductive data; (2) there is a lack of specifi c-purpose corpora, and those that do exist are small-scale and lack unified constructing systems and standards; (3) while synchronic corpora are dominant, diachronic ones are still needed. To address these issues, we have developed a Multimodal Corpus of Geronto Discourse (MCGD) tailored to the Chinese context. This paper details the corpus designing process, simulative modeling, multimodal data processing, annotation system, and operation criterion, along with quality evaluation. Finally, we reflect on the sustainable construction and application of MCGD for future research in gerontolinguistics.

Key words: multimodal corpus; older adult discourse; speech act; life span

(责任编辑:胡旭辉、陈一帆) SemVhPbG6FtRtSYZLLmyBCEC0y78pIxdQ+UtT7SIbqIgrw+7dNHZ11pVaYWlBNVt

点击中间区域
呼出菜单
上一章
目录
下一章
×