我国上市公司年报文本信息研究最新章节_张娟著

1.2 基本概念的界定

1.2.1 财务信息和非财务信息

一般而言，财务信息是指那些完全符合可定义性、可计量性、可靠性、相关性的，能够通过确认、计量、记录、报告程序进入财务报表的信息，以及报表附注中的解释说明和由财务报表扩展而来的信息。非财务信息是指与财务信息相对应的，不以货币为主要计量单位，与企业生产经营活动相关的，与利益相关人决策相关的信息。这种财务信息和非财务信息的界定与美国财务会计准则委员会（FASB）在《企业财务报表项目的确认和计量》中的观点，以及澳大利亚特许会计师协会（1997）在《报告非财务信息》中的定义相一致。

上市公司年报信息披露是以“受托责任”和“决策有用”为基础的。长期以来，上市公司在年报中应当充分披露高质量的财务信息已经成为共识。但财务信息由于受到会计确认、计量等因素制约，其主要面向过去，是对企业历史经营情况的反映，很多重要信息无法通过传统的财务报表予以披露，越来越难以满足投资者准确了解公司经营现状以及预测未来业绩的需求。同时，随着利益相关者理论的影响日益扩大，信息需求者的范围也不断增加，如员工更加关注福利待遇、职业培训、工作环境，政府更加关注环境保护、社会责任履行等信息。为增强年报的“决策有用”目标，增加非财务信息披露，已经得到了理论界和实务界的广泛认同。

从非财务信息的内容看，美国证监会发布的S－K规程最早详细规定了年报中必须提供的非财务信息，主要包括：①经营说明；②普通股的市场价格与红利；③管理部门的讨论与分析；④会计师的变更与分歧；⑤管理人员的薪金；⑥与有关方面的交易与关系；⑦收益的使用；⑧管理人员与董事们的报酬。但随着经济环境的发展和市场对重要信息的需求变化，上市公司对非财务信息的自愿披露内容也在发展变化中。Robb et al.（2001）在对美国、加拿大和澳大利亚的公司年报进行综合分析的基础上，将非财务信息划分为前瞻性的非财务信息和历史性的非财务信息，前者主要包括公司周围环境、战略和管理、公司发展趋势信息；后者主要包括公司环境信息、产品信息、顾客信息。2013年，为了解决实务中非财务信息披露标准缺失的问题，国际综合报告委员会（IIRC）发布《国际综合报告框架》提出了八大类非财务信息。近年来，全球报告倡议组织（GRI）提出将非财务信息分为环境、社会与治理（Environment，Society and Government，ESG）三类。由此看出，因为上市公司披露的非财务信息是对信息需求者的回应，而企业的生产经营与社会经济发展是密切相关的，随着经济发展方式、企业经营模式或经营内容的转变，信息需求者的信息需求也在变化。时至今日，我国上市公司年报中披露的非财务信息主要包括：①背景信息。企业经营总体规划和战略目标，企业经营活动和资产的范围与内容，所处行业的特点，产品生命周期及产品结构。②经营业绩说明。经营活动指标、成本指标、关键经营业务指标、关键资源数量与质量指标。③管理部门的分析与讨论。企业财务状况、经营业绩变化的原因和未来的发展趋势。④前瞻性信息。企业面临的机会与风险，管理者的计划，影响的关键因素，将实际经营业绩与以前披露的机会与风险进行比较。⑤社会责任。环境责任指标，包括处理废水、废渣、废气的情况，对社会环境治理提供的服务，减少耗用稀有及不可再生资源的措施与效果；人力资源信息，如企业员工构成情况信息、员工安全和健康信息以及员工培训、员工福利和社会保障信息；企业经营对当地的影响，包括对带动地区经济发展的积极作用，为当地提供就业机会情况，对居民居住环境和社会稳定的影响。⑥核心竞争力及持续发展能力。研究与开发创新能力，员工能力，资源利用情况。

上市公司年报中这些多维度的非财务信息具有结构化财务数据难以体现的丰富内涵，为扩展财务会计研究提供了充足的资源。例如，反映公司治理、创新、竞争、风险、前瞻性等的非财务信息可以传递公司更多的状态。探究非财务信息披露的内在机制和经济后果，可以自然地融入和发展已有的财务会计研究。

但是目前非财务信息的披露大多还是处于自愿的状态，因此，实践中各公司披露的差异较大。为此，一系列关于非财务信息披露规则标准制定的工作正在进行中。正如Baker和Eccles（2018）在《FASB和IASB应该为非财务信息制定标准吗？》提出，如果没有监管机构提供的标准和报告要求，非财务信息将永远不会具有财务信息的质量、效用和合法性。近年来，美国可持续发展会计准则委员会（SASB）和国际综合报告委员会（IIRC）、全球报告倡议组织（GRI）一致努力在实现公司非财务信息报告的标准，并且要推动非财务信息在上市公司年报中实现与财务信息统一进行披露。在这一背景下，我国为维护资本市场的健康发展，优化市场资源配置效率，保护投资者及其他利益相关者的权益，对非财务信息的研究亟待加强。这包括非财务信息的披露方式、影响因素、经济后果，以及非财务信息与财务信息的关系等问题，相关研究将为我国监管层推动非财务信息披露规范提供重要参考。

1.2.2 年报文本信息内容

我国上市公司年报需要依据证监会《公开发行证券的公司信息披露内容与格式准则第2号——年度报告的内容与格式》中的规定进行披露。该准则的总则中指出“准则的规定是对公司年度报告信息披露的最低要求；对投资者投资决策有重大影响的信息，不论本准则是否有明确规定，公司均应当披露。鼓励公司结合自身特点，以简明易懂的方式披露对投资者特别是中小投资者决策有用的信息。”年报正文包含的内容分为十二节：重要提示、目录和释义；公司简介和主要财务指标；公司业务概要；经营情况讨论与分析；重要事项；股份变动及股东情况；优先股相关情况；董事、监事、高级管理人员和员工情况；公司治理；公司债券相关情况；财务报告；备查文件目录。许多公司实际披露的年报篇幅经常长达上百页，这其中不同的利益相关者的关注点存在差异。

按照信息的表达形式，上市公司年报的内容可分为数据信息和文本信息两部分。数据信息是指上市公司在年报中通过数字形式列示的各项主要经济指标。资产负债表、利润表、现金流量表中的所有项目都属于数据信息。财务报表是上市公司提供数据信息的主要载体。文本信息是指公司报告中除数据信息以外，其他所有以文字叙述为主要表达方式的信息（孙蔓莉和姚岳，2005）。文本信息以非财务信息为主，包括股东情况、治理结构、董事会报告、监事会报告、重要事项等，是公司对外报告的重要组成部分。如果按篇幅计算，非财务信息在公司报告中占主体地位。2009年的一项调查发现，2005年至2009年期间，非财务信息内容增加导致伦敦交易所上市公司的年报页数增加了41％。在一份典型的上市公司年报中，以文本表达的非财务信息的篇幅在80％左右（赵立新和黄燕铭，2013）。

就财务会计研究而言，经营情况讨论与分析，重要事项，董事、监事、高级管理人员和员工情况，公司治理构成年报非财务信息文本分析的重要对象。

首先，经营情况讨论与分析。这对应着美国上市公司年报10－K文件中的“管理层讨论与分析”（Management Discussion and Analysis，MD＆A）。MD＆A不但包括公司管理层对当前公司经营状况的阐述，还包括对公司未来的展望，因此，信息含量较高。我国上市公司年报在2002年首次引入管理层讨论与分析概念，在2016年将年报中的董事会报告正式更名为经营情况讨论与分析。这部分信息披露的内容从业务层面充分解释导致财务数据变动的根本原因及其反映的可能趋势；提供了许多关于公司经营情况的细节信息，例如研发投入、投资状况、生产经营环境变化；还包括了公司未来发展战略、下一年度的经营计划以及公司可能面临的风险。对这一部分信息进行解读，能够帮助阅读者理解上市公司运营状况，判断公司核心竞争力、预测上市公司未来的发展。

其次，重要事项。重要事项中所包括的内容应该是投资者特别予以关注的方面，这段文字可能埋藏着公司正常持续经营的“炸弹”。其中包括的重大诉讼、仲裁事项关乎公司业务和财务状况，是公司风险的重要来源；公司、公司董事及高级管理人员受监管部门处罚的情况，可以传递公司是否规范经营的重大信息；公司收购及出售资产、吸收合并事项的情况，可以让投资者理解上述事项对公司财务状况和经营成果的影响，更为清晰地认识公司的本来面目；重大关联交易事项可以提供公司社交网络的信息来源。在重大事项中，公司资产或项目存在盈利预测，且报告期仍处在盈利预测期间内，公司董事会、相关股东和负责持续督导的中介机构应当就资产或项目是否达到原盈利预测及其原因作出说明。这为前瞻性信息的文本分析提供了资源。同时，披露准则鼓励公司主动披露积极履行社会责任的工作情况，这成为分析社会责任的重要来源。

再次，董事、监事、高级管理人员和员工情况。董事、监事和高级管理人员的背景信息和报酬决策程序、报酬确定依据以及实际支付情况、母公司和主要子公司的员工情况，包括在职员工的数量、专业构成（如生产人员、销售人员、技术人员、财务人员、行政人员）、教育程度、员工薪酬政策、培训计划以及需公司承担费用的离退休职工人数，是年报阅读者了解公司人力资源信息的重要来源。特别是高管人员信息为分析高管激励、高管特征、团队能力等指标和公司绩效的关系提供了信息来源。

最后，公司治理。近二十年来，我国学术界对公司治理的研究日益深入，公司治理从一个研究问题演化成一个研究领域，并最终成为一个学科。公司治理结构是否规范；治理职能是否齐全；议事规则是否合理；人员是否胜任等指标的度量，充分应用了年报中的公司治理信息。随着内部控制基本规范的出台，公司治理信息披露要求公司内部控制存在重大缺陷的，应当披露具体情况，包括缺陷发生的时间、对缺陷的具体描述、缺陷对财务报告的潜在影响，已实施或拟实施的整改措施、整改时间、整改责任人及整改效果。这为内部控制领域的研究提供了详细信息。

1.2.3 文本分析和自然语言处理技术

围绕着各种非财务信息披露内容，大量密密麻麻的文字提高了阅读者的处理成本。为了挖掘年报中非财务信息的价值，年报披露准则多次提出要求“语言表述平实，清晰易懂，力戒空洞、模板化。”然而，具体文本表达难以进行统一规范，由此产生了文本偏差。这是指不同社会范畴个体运用语言及文字向他人传递信息时，语言与文字的特征表现出一定的差异。文本分析通过文本特征识别与变量构建来解决非财务信息的量化问题，一直被认为是挖掘年报中非财务信息价值的重要手段。

文本分析又可以称为文本知识发现，它是一个运用自然语言处理、数据挖掘和计算机技术，从半结构化或非结构化的文本中，提取文本信息，进而发现知识的过程（Ronen et al.，1995）。从基本技术上来讲，文本分析是个多学科交叉的研究领域，可将其视为数据挖掘的一个分支。数据挖掘中的统计知识、机器学习技术及可视化技术都可以被运用到文本分析中来。一般文本分析的过程首先是文本信息的预处理，主要是指量化方法的选择，信息的清洗，分类，特征标识等；然后建立索引与存储结构，形成中间表示层（聚类、趋势分析、关联规则发现等）；最后是信息的分析，即知识发现和表示的过程（谌志群等，2005）。但文本分析与传统的数据挖掘相比较，最大的不同之处在于，数据挖掘处理的是结构化数据，如存储在数据库中的数据，而文本分析所处理的对象主要是不规则的，无法直接量化表达的文本。因此，相关研究面临着许多自然语言处理上的困难和挑战。

现有经济管理研究领域在运用计算机技术提取以下五种文本特征上取得较为一致的意见，这五种特征分别为：

（1）可读性。在最广泛的意义上，可读性是影响读者理解文本信息的所有元素的总和（Dale和Chall，1948）。根据Tekfi（1987）的经典定义，可读性是“确保给定的一段写作按照作者的意图来传达并影响其受众”。在计算机处理的文本分析中，可读性具体是指文本的复杂性或模糊性特征。SEC将文本复杂性定义为非简明语言的使用。可读性较差的文本会增加投资者处理信息的成本。

（2）相似性。这是指文本之间的相似度。与之相对应的概念是文本距离，指的是两个文本之间的距离。文本距离和文本相似性是负相关——距离小，“离得近”，相似度高；距离大，“离得远”，相似度低。在商业领域，通过文本相似度可以找到与主题信息相似度较高的信息。通过测量文本的重复或者距离，还可以衡量公司之间经营的同质性，进而测度竞争程度（Brown和Tucker，2011；Hoberg和Phillips，2016）。Li（2010）则认为文本的重复性披露可以增强投资者对其他非重复性文本信息的理解。

（3）前瞻性。这是指文本中包含与公司未来发展和业绩相关的信息。这些信息一般包含在管理层讨论和分析（MD＆A）的段落中，比如，行业发展趋势、公司未来的发展战略、新年度的经营计划、未来资金来源及使用、未来可能的风险因素以及应对策略等。MD＆A前瞻性信息对投资者有重要的战略指导意义，准确的前瞻性信息能直接帮助预测公司的未来发展趋势，为投资决策提供有效的指引。

（4）语调。文本语调分析又被称为文本情感分析、意见挖掘，是指对带有情感色彩的主观性文本进行采集、处理、分析、归纳和推理的过程。语调或情感是由乐观或悲观、正面或负面、积极或消极两种对立的感觉构成。中性语调或可视为第三种语调，因为大部分词句既不乐观也不悲观（Li，2010）。

（5）管理者特征。文本不仅可以对受众、环境和话题做出有效回应，还可以微妙地展现文本披露人的角色个性等特征（Rampton，1995）。这种特征体现主要基于自我服务偏差或归因心理，例如，在MD＆A中存在管理者对年报业绩的自我服务归因偏差。文本中第一人称的使用频率，或者管理者在电话会议中的发言特征都经常被用来度量管理者特征（Li et al.，2009）。

相对中文而言，英文语句中单词之间存在空格，词与词之间有自然区分，采用词作为索引在英语语言处理技术上要比中文简单得多。中文文本挖掘受自身特点的限制，比英文处理难度更高。中国学者对中文文本挖掘也做了许多的研究，其中，中文分词技术的研究尤为重要。自20世纪80年代中文信息处理提出自动分词以来，中文文本分析取得了一些重要的研究成果（刘迁等，2006）。中文分词技术总结起来大致分为三类：

一是基于词典的分词方法。这也被称为“词袋法”，基本思想就是字符串匹配技术：确定一个匹配策略，将待处理文本段落中的词与“词袋”中的词条进行匹配，若在词典中找到某个词或短语，则匹配成功，即该词语被识别。该方法的优点是过程实现非常容易，但缺点是匹配速度慢，词典的创建和质量影响分词效果，也存在歧义切分等问题。

二是基于统计模型的分词方法。这种方法的基本思想是鉴于词是稳定的字的组合，因此，某文本集中一些字同时出现的次数越多，就越可能构成一个词（曹倩等，2004）。基于统计的分词方法依赖于一些统计模型的应用，主要的统计模型有互信息、神经网络模型、隐马尔科夫模型和“熵”模型等。这些统计模型主要是利用字与字的同时出现概率作为分词的依据。基于统计的分词优点明显，不受待处理文本的领域限制，无须建立适合该领域的专属字典。其缺点则是需要大量的文本进行训练学习，完善模型参数估计，分词精度受到训练文本数量和质量影响。

三是基于规则和理解的分词方法。这主要依赖人工智能技术的应用，进行中文的分词处理。该领域算法的分词过程是希望将人的思维方式模拟移植到机器之中，使机器像人一样思考，理解人的言语表达方式，从而自动识别文本中词的构成。该方法是理论上最理想的方法，也是最难实现的方法，由于该分词方法的研究处于起步阶段，并且由于汉语自然语言复杂灵活，因此，基于人工智能的分词技术仍然面临着巨大的挑战。