[提 要] 老年人多模态语料是老年语言学研究的重要基础。然而,由于采集难度大、切分标注耗时耗力,导致老年人多模态语料库规模普遍偏小,难以满足日益增长的老年语言学研究需求。自然语言处理(Natural Language Processing, NLP)技术是人工智能技术的重要组成部分,可以为老年人多模态语料库的建设提供辅助支持。本文梳理了老年人多模态语料库的特点、建设流程以及自然语言处理技术的框架。在此基础上,本文设计并建立了一个老年人多模态语料库自动切分标注平台,验证了自然语言处理技术辅助老年人多模态语料库建设的可行性,为老年人多模态语料库建设中自然语言处理技术的应用提供了技术参考。
[关键词] 自然语言处理;老年人;多模态;语料库
全球人口老龄化趋势日益显著,我国也不例外。据我国第七次人口普查数据,60岁及以上人口数量为26402万,占总人口的18.70%;其中65岁及以上人口为19,064万,占13.50%(乔晓春,2021)。进入老年阶段后,个体的生理性和病理性衰老会导致语言能力退化与临床语言障碍。近年来,以老年人话语为研究对象的老年语言学逐渐兴起,在全球老龄化问题日益凸显的现实背景下,其研究价值和社会应用价值日益显著。
语料库是经科学采样和加工处理的大规模文本数据集合,在语言本体研究和语言应用研究中发挥着越来越重要的作用。多模态语料库是指把文字语料、音频语料和静、动态图像语料进行集成处理,用户可以通过多模态方式进行检索、统计等操作的语料库(顾曰国,2013)。对老年语言学研究而言,老年人多模态语料库的建设不可或缺。老年人语料库以老年人的言语为主要内容,具备多媒体和多模态特性,为研究老年人语言特点及其发展规律提供数据支持以及理论依据。
由于老年人语料采集耗时耗力、切分标注困难,当前的老年人多模态语料库数量偏少、规模偏小。在这方面,自然语言处理可以提供技术支持。本文第2节将对老年人多模态语料库与自然语言处理技术进行概述,第3节介绍老年人多模态语料库自动切分标注平台的概念模型设计,第4节介绍其工程实现,第5节进行总结。
老年人多模态语料库主要有三个特点:(1)语料来源特殊,限定在老年人群体;(2)语料形式多媒体化,因为许多老年人不便或无法书写文字,只能采集口语对话;(3)语料需要进行多模态标注,以尽可能真实和全面记录语言和非语言特征。
老年人多模态语料库的语料来源限定在老年人这一特殊群体。有的康健老年人语言能力始终保持在较高的水准,但也有老年人随着年龄的增长,因缺乏陪伴或疾病等原因长时间不使用语言,导致语言蚀失甚至语言能力完全丧失。吐字不清、方言混用、逻辑混乱等都是老年人重要的语言表现。因此,老年人多模态语料库的建设需要兼顾不同年龄阶段、不同身体健康状况以及不同语言能力的老年人群,并关注更加丰富的语言变异现象。
传统的语料库多采用普通拼写文本形式,如北京大学CCL语料库、北京语言大学BCC语料库、国家语委语料库等等。然而,采集老年人语料时,一方面有的老年人不愿或不能书写文字,另一方面为了更全面、准确、真实地记录老年人的语言使用,录音录像是必要手段。因此,老年人语料库的语料多采用多媒体形式。
人类与外部世界互动时,全身的器官,特别是多模态感官系统都是参与的,其数据状态是充盈的(顾曰国,2016)。多模态语料库语言学的终极目标是利用各类最前沿技术,尽量采录一切所能收集到的人类与外界互动的多模态数据,力求贴真模拟人类鲜活的多模态活动状况,其中用各类技术采录多模态数据是研究手段,贴真建模(Simulative Modeling)是研究方法(顾曰国,2013)。因此,为了尽可能重现老年人话语产出时的鲜活场景,进行面向老年人的多模态语料库语言学研究,需要对语料进行多模态标注。
老年人多模态语料采集困难,数据类型多样,不同时期、不同质量、不同设备采集的语料常常混在一起,也为后续的加工处理提出了更高的挑战。
同传统语料库建设一样,老年人多模态语料库的建设也包含语料采集、语料加工处理、语料库分析工具研制三个基本步骤。语料采集指采集老年人的多媒体、多模态语言材料,语料加工处理指对采集的语料进行转码、清洗、转写、切分标注、特征提取、元信息标记等,语料库分析工具指全面分析老年人多媒体、多模态语料的计算机软件。
在老年人多模态语料库建设过程中,对语料进行怎样的加工处理,如何加工处理均展现了语料库建设者的学术理念和研究成果。对语料加工处理得越深,在语料库分析时可提供的分析手段就越多。但是,多媒体、多模态语料的标注具有时空属性,需从不同视角对其进行分层标注(黄立鹤、何继红,2013),语料的加工处理不仅耗时耗力,还需要高度专业化的语言学知识。因此,大规模语料库的加工处理通常需要借助自然语言处理技术,由自然语言处理工具自动进行加工处理。
自然语言处理技术涉及数据、技术和应用三个重要方面,自然语言处理技术体系框架如图1所示。
图1 自然语言处理技术体系架构
图1参照刘俊等(2021)重新绘制,并进行适当简化。图1显示,统计自然语言处理依赖语料数据,语料按是否经过语言学信息标注可以分为生语料和熟语料,是自然语言处理的基础。在技术层,语言理解和语言生成是自然语言处理领域的两大基本任务,自然语言理解是让计算机理解和解释自然语言,而自然语言生成则是模拟人类的语言能力,生成自然语言文本或口语。语言理解可以针对语言的不同层次,对词汇、句法、语义、篇章的处理技术分别为词法分析、句法分析、语义分析、篇章分析。语言层次越高,自动处理越困难,效果也越差。在应用层,综合利用各种自然语言处理技术可以解决具体应用问题。
多模态老年人多模态语料库对应于图1的数据层,分为生语料库和熟语料库。生语料经自然语言处理技术层工具的加工处理得到熟语料,人工精加工的熟语料反过来又可以训练并优化自然语言处理工具。
老年人多模态语料库自动切分标注平台的概念模型如图2所示。
图2 老年人多模态语料库自动切分标注平台概念模型
图2显示,老年人多模态语料库自动切分标注平台主要实现4个功能模块:(1)多模态语料采集,(2)语料自动转写,(3)语料自动切分标注,(4)语言特征自动分析。
每个功能模块均将上一个功能模块的输出作为输入,同时为下一个功能模块提供输入。整个平台的输出为老年人的语言特征,供老年语言学研究或基于机器学习方法的老年人语言自动处理使用。
(1)多模态语料采集
多模态语料采集模块由专业医生或其他语料采集人员从医学诊断或老年人语言研究视角对老年人的言语活动录音录像,言语活动包含但不限于量表测量(如简明精神状态评估MMSE、智力状况评估MSE等)、看图说话、访谈等等。除言语活动外,同时需要采集的还有老年人属性信息,如年龄、性别、方言等。为了合法合规地使用采集的语料,采集语料时还需要老年人或监护人签署授权协议书。
为了方便不同地区、不同医院、不同机构、不同医生的使用,多模态语料采集模块应同时具备内置资源和按需定制两大特性。其中,内置资源指系统内置多种常见量表、多种看图说话的图片、多版本授权协议书等,以方便采集人员的使用,这体现了平台的便利性。按需定制指支持使用者根据自己的需求定制平台,体现了平台的灵活性,比如定制平台的商标、名称、单位或项目名称、备案信息,自定义新的量表、新的看图说话图片,设定平台操作界面表单的默认值(比如进行粤语区老年人多模态语料采集时,可设定平台的老年人默认语言为粤语)等等。
采集人员对老人的言语活动全程录音录像,并将各种类型的数据保存在远端服务器上。为保证隐私及数据安全,采集人员经授权并登录验证后,才可以访问平台并使用这些数据。
(2)语料自动转写
语料自动转写模块主要利用计算机对录制的音频进行语音识别(Speech Recognition),获取语料的文本内容。语音识别过程中,不仅需要将语音内容识别为文字,还需要进行话语分段、音段切分、讲话人识别等步骤。音段具有时间属性,这些时间属性在语音识别时需要保留,为语言特征自动分析提供时间信息。
在录音过程中,由于老年人年事高、行动多有不便,在挑选录音场所时我们以方便老年人为首要原则,因此无法邀请所有老年人到专业录音棚进行录音,造成录音环境复杂多样。由于老年人语言退化或语言障碍等问题,老年人的语言表达容易存在发音模糊、吐字不清、内容不连贯等现象,需要采集人员或陪同人员反复引导、反复提醒。这些现象都会导致语音识别准确率较低。因此,在录音环境复杂多变,语音噪声混杂的情况下,语音识别工具还应保持较高的识别准确性,尤其要能区分哪些是老年人正常可识别的内容,哪些是老年人不易识别的内容。老年人不易识别的内容对于普通的语音识别工具而言意义不大,但对于老年人多模态语料库而言,其内容的多少,时长比例大小等均是重要的个体语言特性。
(3)语料自动切分标注
语料自动切分标注模块采用自然语言处理工具对语料的文本内容进行切分,并进行语言学信息标注。切分标注基于对词汇、句法、语义的语言理解进行。
对汉语文本语料库的切分标注而言,常见的词法自动分析包括分词、词性标注和命名实体识别(Named Entity Recognition, NER)等,句法自动分析包括句法结构分析(Syntactic Structure Parsing)、依存句法分析(Dependency Syntactic Parsing)、浅层句法分析(Shallow Syntactic Parsing)等,语义分析包括词义标注、语义角色标注、分布式表示等等。对多媒体、多模态语料库而言,转写文本可以进行词法分析、句法分析、语义分析,而音频、视频等则需要按时空间进行切分,并进行多模态信息标注。
(4)语言特征自动分析
语言特征自动分析模块基于切分标注的结果,结合其他语言资源进行语言特征的自动分析,获取语料个体的语言特征。量化的语言特征有助于对老年人语料进行更客观的老年语言学研究。许多文本分析工具提供了特征自动分析程序,比如文本可读性特征自动化分析系统CRIE
(Chinese Readability Index Explorer), Coh-Metrix
、通用文本分析平台CTAP
等等,其中CRIE原生支持汉语文本特征计算,Coh-Metrix、CTAP均有汉语文本特征计算的第三方实现。但是,这些工具对最新自然语言处理技术和数据资源的利用不足,进行老年人语言特征自动分析时也均未考虑特征的时间属性。
为此,语言特征自动分析模块应基于语音转写和切分标注的结果,利用最新的汉语数据资源,提取丰富的语言特征,尤其是带时间属性的各类多模态特征。
平台前端采用Vue框架,后端使用Java语言开发。平台不需要安装,采集人员借助带有浏览器的联网终端(如手提电脑、平板电脑、手机等)就可以使用平台的全部功能
。
平台多模态语料库采集模块支持量表测量、看图说话、访谈三种任务(也支持任意任务的组合),内置了多种量表和图片。只有老人或监护人签署了授权书,才可以进入采集界面。界面如图3所示:
图3 平台MMSE量表评估+看图说话语料采集界面
图3中,上半部分为老年人属性信息和MMSE电子量表,下半部分内置看图说话图片。语料采集后可以对音视频进行回放和下载。为了支持在多种设备的浏览器上直接回放音频,平台将录音保存为wav格式。多模态语料采集模块涉及的自然语言处理技术较少,本文仅做以上简要叙述。
平台语音自动转写模块实现了语音识别和EAF文件生成两个功能。其中语音识别通过远程调用科大讯飞的语音转写接口实现。为了提高老年人语音识别准确率,转写时进行了以下设置:
① 支持设定热词,用以提升专业词语识别率(主要用于看图说话任务,每个看图说话任务均有一批相对固定的词语);
② 开启讲话人识别(角色分离),支持设定讲话人人数;
③ 支持设定语种,包括普通话、四川话、河南话、西南官话等等;
④ 开启多识别结果候选,便于校对时直接从候选结果中选择正确识别结果。
科大讯飞的语音转写工具输入为wav格式的音频,输出为JSON格式的识别结果。语音内容为“我今天中午吃了番茄炒鸡蛋,还喝了大米粥”时,识别结果如图4所示。
图4 语音识别的JSON格式示意图
图4显示识别结果为一个句子(st),该句子开始时间(bg)为6000毫秒,结束时间(ed)为9720毫秒,讲话人角色编号(rl)为2,词语识别结果(rt)包含了15个词语(ws中的JSON对象,图4只给出了首尾两个词的详情,省略了中间的13个词)。以第1个词语为例,该词语开始的相对时间(wb)为第1帧(这里1帧对应时长为10毫秒),结束的相对时间(we)为第16帧,候选词语集合(cw)中只有一个候选词,识别结果(w)为“我”,词语识别属性(wp)为正常词(n表示正常词、s表示顺滑、p表示标点、g表示分段)。
Elan是常用的老年人多模态语料切分标注工具,除支持自身的EAF格式外,还支持EAF同Praat TextGrid、FLEx等格式的转换。为此,平台将JSON格式的识别结果转换为EAF文件,以支持使用Elan或其他切分标注工具对转写结果进行进一步的校对、标注。解析JSON格式的转写结果,在区分不同讲话人的前提下,将句子、词语、词语识别属性作为不同层次的标注,生成EAF文件(需同时指定音频文件)。在平台上下载音频文件和EAF文件到同一文件夹中,使用Elan软件打开EAF文件,界面如图5所示。
图5 语音识别结果(Elan软件界面)
图5显示,不同讲话人的内容标注在不同的层,语料标注人员可以使用Elan进行校对和其他信息的标注。
平台语音自动转写时同步完成了汉语分词,因此语料的自动分词由科大讯飞的语音转写接口实现。平台基于科大讯飞的分词结果,使用斯坦福CoreNLP
工具实现了词性标注、命名实体识别、依存句法分析、成分句法分析。此外,还改写了ChunkLinkCTB
工具实现了浅层句法分析。由于每个词均具有时间属性,因此切分标注得到的每个实体和短语均具有时间属性。
以“我今天中午吃了番茄炒鸡蛋,还喝了大米粥”为例,图6给出了自动切分标注结果。
图6 语料自动切分标注结果示意图
图6中每个句子切分标注结果保存为CoNLL-U格式
。句子间用1个空行分隔,每个句子有3个以#打头的行作为注释,分别记录了句子编号(id)、句子文本(cnt)和句法结构分析结果(csyntax)。句子编号由讲话人序号和句子序号两部分组成,通过这两个信息可以对应EAF中转写句子的标注,从而建立转写结果和自动切分标注结果之间的关联关系。
图6中句子的每个词语占1行,第1~10列含义分别为序号、词形、原形或词干、通用词性(Google标准)、汉语词性、句法特征、当前词的支配词、与支配词的依存关系、次要依存关系列表、命名实体识别结果和浅层句法分析结果。对于汉语而言,词语没有形态变化,或者说原形或词干等于原形,因此第2列和第3列内容完全相同。平台直接将通用词性作为汉语词性,因此第4列和第5列内容也完全相同。句法特征和次要依存关系平台均未进行分析,因此第6列和第9列均为空(用下划线标记)。第10列的命名实体识别结果和浅层句法分析结果用“|”符号分隔,对于命名实体而言,O表示当前词不是实体,B表示当前词是某个实体的首词,I表示当前词是某个实体的中间词或尾词,“-”符号后的内容为实体类型。图6显示当前句子包含1个日期实体(今天)和1个时间实体(中午),其余均不是实体。浅层句法分析的表示方法与命名实体类似,由此可知“今天中午”为一个名词短语(NP)、“吃了”是一个动词短语(VP)。
当语音自动转写的分词有误时,可以先在Elan中纠正错误切分,再基于纠正后的结果调用自动切分标注模块进行其他切分标注。比如本例中“吃了”应切分为“吃”和“了”两个词。用户在Elan中将他们拆分以后再进行词性标注、句法分析等。
平台参考CRIE、Coh-Metrix、CTAP等工具,研制了老年人多模态语料语言特征自动分析模块。目前,特征分为整体描述、汉字、词语、句法、多模态等模块。语言特征自动分析时,读取EAF文件和切分标注文件,分模块输出语言特征。“我今天中午吃了番茄炒鸡蛋,还喝了大米粥”的部分语言特征如表1所示。
表1 语言特征样表
表1分5个模块给出了25个语言特征结果。表1的汉字特征中,低笔画数、中笔画数特征参考CRIE标准(Sung et al.,. 2016):1—10画的汉字为低笔画汉字、11—20画的为中笔画汉字、大于20画的汉字为高笔画汉字;一级字特征参考《通用规范汉字表》,基本库汉字参考Unicode字符集。词语特征中,词语习得年龄(Age of acquisition,简称AoA)是指以口语或者书面语的形式接触到这个词并且理解其意义的年龄,平台依据Xu, Li 和Guo (2021)研制的汉语AoA词表进行统计,这是CRIE、Coh-Metrix、CTAP等工具尚未支持的特征。多模态特征中,汉字平均时长、尾词平均时长和最长句子时长均是具有时间属性的特征,微笑表情次数、姿势剧烈变化次数均是其他人工标注的多模态特征。目前,平台支持的特征种类和数量还在不断增加。
语音采集后,系统自动进行转写、切分标注、特征分析,平台允许授权用户回放、下载语料和自动分析结果,界面如图7所示:
图7 平台语料回放与下载界面
图7显示语音支持在线回放,语音音频、Elan的EAF文件、科大讯飞语音转写的JSON格式文件和文本特征文件(含切分标注结果和特征两部分)均支持下载。平台支持录制多段语音,并分别进行回放和下载。
本文设计并建立了基于自然语言处理技术的老年人多模态语料库切分标注平台,详细阐述了平台的概念模型以及工程实现。该平台能够完成多模态语料采集、语料自动转写、语料自动切分标注以及语言特征自动分析等功能,有助于提升语料库建设效率,提高语料库质量,对自然语言处理技术的应用进行验证,初步实现了平台研发目标。如何进一步提高平台切分标注的准确性、便捷性,提供更丰富的功能将是平台下一阶段的研究目标。
Sung, Y. T., Chang, T. H., Lin, W. C., Hsieh, K. S., & Chang, K. E. 2016. CRIE: An automated analyzer for Chinese texts. Behavior Research Methods 48: 1238–1251.
Xu, X., Li, J., & Guo, S. 2021. Age of acquisition ratings for 19,716 simplifi ed Chinese words. Behavior Research Methods 53: 558–573.
顾曰国,2013,论言思情貌整一原则与鲜活话语研究——多模态语料库语言学方法。《当代修辞学》(6):1–19。
顾曰国,2016,当下亲历与认知、多模态感官系统与大数据研究模型——以新生婴儿亲历为例。《当代语言学》(4):475–513。
黄立鹤、何继红,2013,从《Routledge多模态分析手册》看多模态语言研究。《语言教育》(1):92–95+97。
教育部国家语言文字工作委员会组编,2013,《通用规范汉字表》。北京:语文出版社。
刘俊、汪春晓、董洪飞、安然、高龙,2021,自然语言处理技术在航空领域的应用探索。《航空标准化与质量》(2):27–32+56。
乔晓春,2021, 从“七普”数据看中国人口发展、变化和现状。《人口与发展》(4):74–88。
Abstract: Multimodal corpus of gerontic discourse (MCGD) is notoriously diffi cult to segment and annotate, being both time-consuming and labor-intensive. Natural Language Processing (NLP) technology as a crucial component of artifi cial intelligence is used to provide auxiliary support for constructing a platform that facilitates online segmentation and annotation of MCGD. This paper on the one hand discusses characteristics, construction process, and the framework of NLP technology for the purpose, and on the other hand reports preliminarily partial implementations of the platform. A technical reference for the application of NLP technology in the construction of MCGD is also provided.
Key words: natural language processing; the elderly; multimodal; corpus
(责任编辑:胡旭辉、王思雨)