文本特征提取是一个从非结构化文本数据中获取用户感兴趣或者有价值的信息的过程。简单说,为了应用海量文本信息进行研究,我们需要对以文本形式存储的文件提取特征,从中分析出有意义的信息,建立有价值的模型。与会计领域传统的定量财务数据研究方法相比,由于文本特征较模糊且难以抓取,文本分析在精确性上稍弱(Loughran和Mc Donald,2016)。然而,理解文本信息对于理解财务数据、公司决策和公司行为至关重要(Li,2010)。而且,相对于以数字形式报告的财务信息,管理者以文字形式撰写财务文本信息的自由度可能更大,因而,年报文本可以为学者们探究市场效率和年报披露影响因素提供更多有价值的信息(Li,2006)。近年来,计算机技术尤其是自然语言处理技术的发展,为年报中的非结构化文本数据的抓取和量化提供了条件。这使得越来越多的学者开始关注并可以切实开展大样本的年报文本信息研究。本节将主要梳理年报文本信息特征提取研究的相关进展。
年报文本信息主要披露的是非财务信息和自愿性披露信息。在计算机文本分析法新兴之前,上市公司对这些信息的披露质量评价方法多种多样。Beattie(2004)将这些评价方法分为主观等级法和半客观法,其中,半客观法又分为指数研究法和内容分析法。实际的研究文献中主要采用两种方法:一是采用相关协会或监管部门等机构发布的信息披露评级结果;二是通过研究者自建评分法构建信息披露指数。
1.机构发布的自愿性信息披露评级结果
比较权威和常被学者们引用的机构信息评级包括四项:一是AIMR评级。美国投资管理与研究协会(The Association for Investment Management and Research,AIMR)自二十世纪八十年代以来,每年都对外公布其评级报告。AIMR将公司公布的信息分为三类:年度信息、季度信息和其他自愿披露信息,然后按行业组成不同的分析师组群对其做出打分和排名,加权后形成对该公司披露的总体评分和行业排名。评级由具有丰富行业经验的卖方和买方财务分析师进行,具有相当的权威性。但令人遗憾的是1995年之后,AIMR不再进行此项工作,停止发布评级报告。因此,投资者和学者们只得另寻他法。二是T&D评级。T&D(Transparency and Disclosure)评级是美国标准普尔公司于2001年开始的,通过分析最新的核心公开披露文件,如年度报告等,评价发达市场和新兴市场的信息质量水平。评级共分三类98个属性进行,每个属性一个问题,共有98个问题。每个问题是一个得分点,最后根据总得分进行分级。但T&D评级突出的问题是过多地关注于信息的披露数量,却无法评价所提供信息的质量。三是CIFAR评级。这是美国国际财务分析和研究中心在二十世纪九十年代创立的,用来衡量上市公司信息的披露密度。CIFAR评级对34个国家8个不同制造行业的856家企业的7个类别90个重要披露项目的披露数量进行衡量。数量越多,指数越大,信息的披露质量就越好。但同样,该指数只关注信息披露的数量,没有关注到信息的质量。四是我国证券交易所的信息披露质量评级。这种评级由我国深圳证券交易所在2001年开始启动,考核办法主要是以上市公司在该年度的信息披露情况为基础,综合下面四个方面的因素进行评级:对上市公司采取的处罚、处分及其他监管措施;上市公司与深交所配合情况;上市公司信息披露事务管理情况;深交所认定的其他情况。对上市公司信息披露质量的考核结果分为优秀、良好、合格和不合格四个等级。考核主要从上市公司对外信息披露的真实性、准确性、完整性、及时性、合法合规性和公平性出发。这种信息质量评级综合考虑了上市公司信息披露的数量和质量两个方面,不仅包含对信息本身的质量考核,还包括对披露程序的考核,能够较恰当地反映我国上市公司的信息披露质量。目前,国内学者对于上市公司的整体信息披露质量的研究,大多采用交易所的信息披露评级作为代理变量。但是,该评级指数具有太大的综合性,且并不完全是对年报文本信息的度量。
2.自建评分法信息披露指数
在AIMR不再公布自愿性信息披露的评级报告之后,国外学者开始自己构建信息披露指数来衡量自愿性信息披露水平。在计算机文本分析技术新兴之前,大多研究文献采用的方法是基于Meek(1995)和Botosan(1997)构建的自愿性信息披露指数。Meek(1995)将自愿性信息披露项目分为战略性信息、非财务信息和财务信息三大类合计85个项目。若样本公司披露某一项目则得1分,若没有披露则得0分,最后将所有项目得分加总获得样本公司自愿性信息披露实际得分。Botosan(1997)在分析自愿性信息披露与权益资本成本之间关系的文章中,提出了新的自愿性信息披露指数。该披露指数以公司的年度报告信息为基础,目的是建立一个以公司年报中的自愿性信息披露为基础的横截面评价方法。按照这种衡量方法,Botosan(1997)将公司年度报告中自愿披露的信息分为五类:公司背景信息、历史数据的总结、关键的非财务指标、预测信息、管理层讨论与分析,对五类信息分别设定一些明细的项目,根据各项目得分进行分类汇总,然后对五类信息的总分进行汇总,得到公司的自愿性信息披露的总得分。总得分越高,公司的自愿性信息披露水平越高。这两种传统的文本信息或自愿性信息披露质量的衡量方法为我国上市公司自愿性信息披露水平的衡量提供了借鉴经验。我国学者常用的构建自愿性信息披露指数的过程是,剔除中国证监会颁布的《年度报告的内容与格式》中规定的强制性披露项目,增加《年度报告的内容与格式》中规定鼓励自愿披露的项目,最后得出适用于我国上市公司的自愿性信息披露指数,对公司年报进行评分(肖华芳和袁建国,2007)。国内也有学者以上市公司自愿性信息披露的次数作为衡量自愿性信息披露的指标,披露的次数越多,说明公司的信息披露频率越快,自愿性信息披露水平也就越高。但显然,这种度量方式过于粗略,与对披露内容评分的方法有着相当大的差距。
3.传统度量方法的缺陷
机构评级法和自建评分法并不是专门为年报文本信息设计的,但是在计算机文本分析法成熟之前,当大量研究涉及非财务信息或者文本信息披露的讨论时,经常采用这些方法得到量化的指标。与计算机文本分析法相比,这两类指标存在难以克服的重要问题。这至少包括:一是评分法需要大量的人工成本阅读年报,耗时耗力,进而容易造成样本量少的问题;二是机构评价指标存在发布时间不连续或获取上较为困难和被动的问题;三是不能直接衡量年报文本信息,例如,评分法容易遗漏掉文本包含的细节内容;四是主观性较强,评分法显然带有评分者的主观判断。
计算机文本分析法可以有效避免上述问题。目前,会计学者已经可以借助于类人工智能程序来阅读海量年报文本,通过计算机专家式的信息解读,进行文本特征识别来解决文本信息变量构建问题。至今,比较成熟的计算机文本特征识别包括可读性、相似度和情感分析。以下将分别对这三种以计算机技术为基础的文本特征研究进行介绍。
Dale和Chall(1948)将文本可读性界定为“在最广泛的意义上,可读性是给定的一份材料,影响读者理解材料的所有元素的总和”。关于英文可读性的研究起源久远。早在十九世纪中期出现的《麦高菲读本》,就是由专家学者通过阅读文本并判断其可读性等级之后得到的成果汇总。到了二十世纪初期,美国心理学家Thorndike也利用整体判断法建立了“写作量表”,此后整体判断法被广泛应用于教育学界。1920年以后,可读性研究中开始出现传统公式法。可读性公式就是针对某种阅读文本,将影响阅读难度的、可进行量化的文本因素综合起来,评估文本难易程度的公式。它通常给出数值结果作为文本难度分数。传统公式法主要针对文本表面特征进行提取和研究,操作比较简单,便于大规模数据的处理,因此,成为最主要的可读性特征提取方式。但是,影响文本难度的因素很多,可读性公式只能考虑有限的、可计量的文本特征,无法把所有影响文本可读性的变量如语法语义、句法、篇章等考虑在内,因此,可读性公式的效度一直颇受争议。但不可否认的是,可读性公式法针对特定阅读人群,实现了通过量化手段客观地评估文本阅读难度,为后来的可读性研究奠定了基础。使用可读性公式评估文本的难易程度具有客观性、简便性和经济性等特点。20世纪50年代后,可读性公式的构建逐渐兴盛。到了80年代,超过两百个可读性公式被构建出来并广泛应用于出版社、研究所、医疗说明、法律、保险等行业。美国教育部和国防部也建立了以可读性公式为中心的可读性分析体系,用来对教育体系中使用的教材、国家政策中使用的文件进行评估和定级。在传统公式法的发展过程中,逐渐衍生出关于认知结构法的研究,这类研究的侧重点转向更为深层次的文本特征,需要通过深度的文本挖掘才能确定,应用范围因此相对有限,多属于语言学家与其他领域学者所进行的跨领域理论研究。
可读性公式的构建主要包括两方面的内容:一是与可读性级别密切相关的文本因素;二是各因素与可读性级别之间的函数关系。由于组成一篇文章的最基本元素为单词,最小的集合为句子,所以,传统公式法的研究无一例外的考虑了文本的两大要素:“单词”和“句子”。学者们指出,对文本的阅读和理解的难易程度影响最明显的两类指标为“单词难易度”和“句子复杂度”。其中最常用的“单词难易度”指标为单词的平均长度,以平均字母数和平均音节数等来衡量。“句子复杂度”指标则为句子的平均长度,多以平均单词数来衡量。目前在上市公司年报分析中应用最为广泛的可读性公式主要有Dale-Chall公式、Fog指数、Flesch-Kincaid公式等。这几个较为权威的英文可读性公式如表2-1所示。
表2-1 具有代表性的英文可读性公式
注:RL:可读性级别;SL:平均句长,即平均每个句子的平均单词数;DW:不在3 000常用词表的非常用词的数量;HW:指文本中难词的比例;WL:平均单词长度。
(1)Dale-Chall公式。Edgar Dale是美国教育学家,为了建立阅读测试和文本难度之间的关系,他和Jeanne Chall于1948年编写了四年级学生一般能够理解其中80%的包含769个词的词表,1995年该公式所用的单词表扩展为包含3 000个简单词。该公式适用于四年级以上水平的学生或成人文本阅读难度测度。Dale-Chall指数越低,文本可读性越佳。
(2)The Gunning Fog指数。该公式于1952年被提出,是为了测度文本阅读难度与公民教育水平的对应关系,即轻松读懂某篇文档所需要的教育水平。该公式在各个研究领域均得到了广泛的应用,主要原因是十分易于计算且适用性强。Fog指数是两个变量的简单函数:平均句子长度(单词)和复杂单词,复杂单词在英文语境中定义为超过两个音节的单词。这两个因素以一种旨在预测等级水平的方式组合在一起。Fog指数的值越低,说明文字可读性越强。
(3)Flesch-Kincaid公式。Flesch-Kincaid可读公式是美国国防部可读性标准测量公式,也是Microsoft Office Word内置的英文可读性测度公式。在可读性统计中,Flesch-Kincaid年级水平测度指数被广为应用,而且该公式的变体在世界各地被用于多种语言的阅读难度分析。Flesch-Kincaid可读值越低,文本越容易被读懂。
会计学界对公司年报文本可读性的测试和研究开始于1950年Pashalian和Crissy两位学者使用Flesch-Kincaid公式进行的分析。由于英文可读性测试方法经过近八十年的探索,已经较为成熟,且普适性强,这导致澳大利亚、加拿大、英国、美国等国关于年报可读性的研究颇丰。孙蔓莉和阎达五(2002)选取我国深市B股企业为研究样本,利用Flesch模型对我国上市公司年报进行了可读性分析,认为公司年报阅读难度极大。虽然中文文本可读性特征提取方法的研究还在进行中,一些研究已经在借鉴Flesch模型的基础上,结合中国语言文字的特点,提出中文文本的可读性。例如,李清(2012)选取沪市A股201家上市公司作为研究样本,以MD&A的篇长、平均句长、会计术语密度作为衡量可读性的三个指标,构建上市公司MD&A可读性影响因素的互动模型。陈世敏在总结了关于英语的可读性公式的研究之后,认识到中英文的衡量存在差异性,不宜完全照搬英语的可读性公式直接应用到中文中。因此,他结合了Flesch公式和Dale-Chall公式,改进了Fog公式,建立了新的可读性公式:可读性分数=0.8*平均句子字数+难词比例。孙刚(2015)提出可读性公式就是对文本中的基本词法单元的特征统计,比如,平均句子长度(平均句子单词数)和平均单词长度(平均单词音节数)。根据以前在英文可读性领域的研究成果,其文章计算了一系列的适合于中文的表面特征用于可读性的计量。
文本相似度计算是自然语言处理中的一项基础性研究,有着非常悠久的研究历史。但由于不同应用场景的内涵有所差异,故没有统一和公认的定义。从信息论的角度来看,文本相似度与文本之间的共性和差异有关,共性越大、差异越小,则相似度越高;反之,共性越小、差异越大,则相似度越低。 文本相似度最大的情况是文本完全相同。基于此,相似度的基本公式表达为如下公式(2-1)。该公式表达出相似度与文本共性成正相关。由于没有限制应用领域,该公式是被较多采用的概念。
其中, common ( A , B )是A和B的共性信息, description ( A , B )是描述A和B的全部信息。
文本相似度计算中有一个重要概念是文本表示,代表对文本的基本处理目的是将半结构化或非结构化的文本转换为计算机可读形式。文本相似度计算方法的不同,本质是文本表示方法不同。文本相似度计算一般是通过一定的策略比较两个或多个实体(包括词语、短文本、文档)之间的相似程度,得到一个具体量化的相似度数值。现有文本相似度计算中的大量方法可以被分为表面文本相似度计算和语义相似度计算两类。其中,表面文本相似度计算直接针对原始文本,作用于字符串序列或字符组合,以两个文本的字符匹配程度或距离作为相似度的衡量标准。其算法原理简单、易于实现,是研究历史最长的一类文本相似度算法。语义相似度计算可以分为基于知识库和语料库两大类计算方法,基于知识库的计算方法包括基于本体知识和网络知识两种,基于语料库的计算方法包括基于分布表示和基于搜索引擎两种。但未来,基于神经网络的分布表示方法是文本相似度计算领域最为重要的研究方向。
目前,对上市公司年报文本特征提取较多的是用表面文本相似度计算方法。其中,最常用的是基于字符串法。该方法从字符串匹配度出发,以字符串共现和重复程度为相似度的衡量标准。根据计算粒度不同,可将方法分为基于字符(Character-Based)的方法和基于词语(Term-Based)的方法。一类方法单纯从字符或词语的组成考虑相似度算法,如编辑距离、汉明距离、余弦相似度、Dice系数、欧式距离;另一类方法还加入了字符顺序,即认为字符组成和字符顺序相同是字符串相似的必要条件,如最长公共子串(Longest Common Substring,LCS);还有一类方法采用集合思想,将字符串看作由词语构成的集合,词语共现可用集合的交集计算。表2-2列出了主要方法,其中, S A 、 S B 表示字符串 A 、 B 。
表2-2 基于字符串的代表方法
续表
如何从大规模文本中快速挖掘出有价值、有意义的信息,并对其进行情感分析,成为当下学者普遍关注的问题。文本情感分析作为自然语言处理领域中一种用于情感识别和意见挖掘的关键技术,在舆情监测、股市和电影票房预测、消费者偏好分析等方面有着十分广泛的应用。文本情感分析的根本是识别文档中重要的文本特征(词语强度、词性和词频率、意见/情绪词和短语,以及否定和增强词等)。接下来进行情感识别,利用文本信息的极性(正面、负面或中性情感)表征文本文档。
在无监督情况下,文本情感分析经常使用基于词典的方法,利用词汇资源将极性分数分配给单个词以检测文档的整体情绪。在受监督的情况下,文本情感分析通常遵循机器学习方法,其中,情感检测任务通过采用诸如支持向量机算法对情感进行分类。
(1)基于词典的特征提取。情感词典是文本情感分析的基础。利用构建的文本情感词典,并对情感词典进行极性和强度标注,进而对文本情感分类,能够有效地进行情感分析。其中,构建情感词典是关键。根据人工在情感词典构建过程中的参与程度不同,又分为人工构建情感词典和自动构建情感词典。
(2)机器学习方法。利用机器学习方法进行文本情感分析是近几年比较流行的研究方向。通过训练数据对测试数据进行识别,然后进行特征提取。通过模型训练生成文本情感分析模型,然后进行文本情感分析,过程如图2-1所示。
图2-1 基于机器学习的文本情感分析过程
根据分类算法不同,可以将文本情感分析分为基于朴素贝叶斯的方法、基于最大熵的方法和基于支持向量机的方法。Pang et al.(2002)比较了这三种方法在文本情感分析中的应用,发现利用基于支持向量机进行文本情感分析能达到最优效果。此外,情感分析按照处理的文本粒度不同,可以分为篇章级、句子级和方面级三个层次。早期的情感分析很多都是面向篇章,主要完成文档的情感分类。篇章级情感分类的基本任务是处理从篇章中提取观点词,并检测这些观点词的极性,将篇章文本中表达出来的情感分为正、负、中性三类,最后看表达的情感对主题整体是正面意见还是负面意见。但篇章级情感分析过于粗糙,由此出现句子级情感分类。这是指提出识别句子是主观还是客观的,然后对主观性句子进行情感极性判断。方面级情感分析是一种更为细化的模型,它提取了针对不同实体的不同方面发表的意见,主要涉及方面和意见的提取,得到(方面,观点)二元组,并将它们分类到相似的类别中,再确定意见的极性和结果的汇总。对于文本情感特征的提取分析,虽然人们在研究和应用方面已经进行了深入探讨和取得了长足进步,但整体上对于情感分析的认识以及时下的解决方案,仍未达到理想水准。目前还没有一个算法能够实效、完备地解决情感分析问题。也就是说,在技术上,情感分析仍然具有广阔的研究发展空间。
会计领域的文本情感分析法在招股说明书信息披露、上市公司新闻发布会、新闻报道、年度报告等文本信息研究中均有涉及。其中的文本情感也被称为文本披露的语调。Schleicher和Walker(2010)将词汇划分为肯定、中性、否定,运用内容分析法研究了不同类型的公司在日常报道中对公司前瞻性信息披露的语调倾向。Sadique et al.(2013)采用内容分析法对美国联邦储备委员会公布的经济报告进行内容分析,特别是对包含预测内容的部分进行了分析,研究表明在经济上升时期,美国联邦储备委员会公布的经济报告肯定语调变得更加突出,否定语调变得不突出。林乐和谢德仁(2016)发现,管理者语调信息在资本市场资源配置效率方面发挥着重要角色,管理者语调可以传递企业的未来业绩信息,市场对语调披露有强烈反应。同时,有利语调信息会提高分析师荐股(林乐和谢德仁,2017)和提高分析师盈余预测的准确性(Kothari et al.,2011)。