基于大数据的证券市场财经信息效应研究最新章节_陈岩著

2.3 媒体信息的分类、量化方法及媒体与证券市场关系的分析模型研究

作为信息中介，媒体一方面可以增强信息在投资者之间的流通性，降低市场上的信息不对称性，提高资源配置的效率（Engelberg et al．，2012；Healy et al．，2001）；另一方面，媒体能够通过引起投资者的情绪波动改变其投资行为，进而造成证券市场的异常波动。如何有效地利用合适的分析手段，捕捉媒体信息中蕴藏的价值信息与证券市场波动风险之间的内在关系，成为学界和业界的研究热点，其中充满着挑战。这项复杂的任务主要面临三方面的挑战，第一，根据张雅慧等（2012）的研究，不同内容的信息会使投资者产生不同的关注度，从而造成投资者的差异化投资行为。因此，为探索不同媒体信息对证券市场的不同影响力，首要任务是将不同主题的文本内容成功分类。第二，媒体内容主要由文字构成，并蕴含了丰富多样的信息，但绝大多数是非结构化数据，如何将文本信息量化成为模型能够接受的结构化数据，又是一个挑战。第三，构建适合证券市场数据结构的关联分析模型，精准捕捉媒体信息与证券市场波动之间的关联。因此，本节首先探讨将文本信息按主题分类的关键手段，其次介绍提取媒体中价值信息的关键技术，最后从经济学和计算机科学两个角度回顾洞悉媒体与证券市场关联的分析模型。

2.3.1 媒体信息的分类方法

不同类别的媒体信息内容通过对投资者注意力的不同分配，使其产生差异化的投资行为（张雅慧等，2012）。因此，异质性新闻对证券市场风险波动的影响程度存在差异性。事实上，早在 1971 年，Niederhoffer（1971）首次尝试研究不同主题的新闻对证券市场的不同影响，他搜集了1950 至 1966 年发布在《纽约时报》上的 432 篇重大新闻，并依据新闻的标题将其人工分为 20 个类别，探索了重大新闻事件以及不同类别的新闻对证券市场的影响程度。刘海飞和许金涛（2017）研究 5 类新闻对证券市场影响力的差异，发现政策扶持类、兼收并购类、再融资类和盈利能力类新闻能够对公司股票产生正向影响，而违规处罚类新闻会对公司股票产生负向影响，且各类新闻影响力的持续时间有所不同。少部分研究从某一类新闻入手研究证券市场的媒体效应，例如，Keown和Pinkerton （1981）通过观察并购类新闻发布前后证券市场异常收益率的变动，发现并购类新闻对证券市场的影响共持续 12 天，早在新闻公布前第 1l天就产生了影响，并占据了整个事件窗内累积异常收益的 50％。Asquith和Mullins Jr （1986）研究了美国证券市场上 1963 至 1981 年的再融资样本，结果显示再融资消息公布当天，将大大降低相关股票的价格。Sahut和Pasquini －Descomps（2015）发现ESG新闻对英国证券市场存在一定的影响性，但是对美国和瑞士的市场并没有影响，表明两国的投资者并没有将ESG新闻视为评估市场剩余风险的标准。

由于技术的局限性，上述关于异质性新闻对证券市场影响的研究多是依靠人工阅读信息内容的方法，将不同主题的信息进行分类。显然，在大数据时代下，互联网新闻量呈现爆炸式增长，人工阅读判别法已经无法胜任这项庞大的任务。随着人工智能技术的发展，一些学者尝试利用自然语言处理技术对文本内容进行分类。利用机器学习方法来解决文本分类问题始于 20 世纪 90 年代，传统的机器学习算法首先需要将一部分已经分类好的文本交给机器，机器经过训练与学习，得到一个具有最优参数集的分类模型，后续的未知类别的文本便可利用该模型自动分类，从而在保证了文本分类准确性的同时提升了分类的效率。常用的传统的文本分类机器学习方法主要包括K最近邻法（ Cover et al．，1967）、朴素贝叶斯（ Naïve Bayes）（McCallum et al．，1998）、决策树（ decision tree）（ Lewis et al．，1994）、支持向量机（support vector machine，SVM）（Joachims，1998）。但是这些传统的机器学习方法在前期训练样本的准备工作中依赖大量的人工，需要预先选定一些词语作为关键字，再根据关键字出现的频率判断该文本的类别标签。可见，这种依靠人工标签标注和特征构造的方式同样会耗费大量的人力成本，分类效率受限。在大数据时代，这类文本分类方法在处理海量文本信息时依然显得捉襟见肘。

2006 年，随着深度神经网络（ deep neural networks，DNN）被Hinton教授的提出，深度学习（ deep learning）依靠其能够精准捕捉高维非线性关系的特点，得到了飞速发展与广泛应用，一个典型的案例是围棋机器人AlphaGo于 2016 年 3 月以 4 比 1 的比分击败了围棋世界冠军李世石，AlphaGo的核心算法就是深度学习。将深度学习用于自然语言处理任务的研究起步相对较晚，Mikolov等（2013a）提出了一种使用前后词语预测中间词语的连续词袋模型（ continuous bag－of－words，CBOW），有效实现了对文本数据的训练，并开源了Word2Vec 词向量训练工具。Kowsari等（2017）提出了一种分层的深度学习模型实现了对文本信息的多类分类，并证实了深度学习模型的分类效果优于传统的朴素贝叶斯和SVM模型。

上述提到的文本分类技术均是基于英文文本的，由于中文没有明显的词语间隔之分，且句型结构复杂、句式繁多，关于中文文本分类技术的研究具有一定的难度，目前国内正处于快速发展阶段。古万荣等（2016）利用SVM模型，从新闻的题材、关键人物、地点等不同维度，成功将《南方日报》和新浪网上 3 年的 11 150 篇新闻分为 23 个类别。周远阳（2012）利用朴素贝叶斯模型，以《南方日报》发布的新闻为研究对象，将 4 000余篇新闻分为 21 类。周朴雄（2008）分别使用KNN算法、 SVM算法和神经网络算法，对互联网文档进行分类，结果显示神经网络算法的准确性优于其他算法。夏从零等（2017）提出了一种基于事件卷积特征的文本分类方法，利用文本的句法结构和词间依存关系抽取出文本中的事件集合，提升了卷积神经网络（CNN）的分类效果。刘高军和王小宾（2020）结合CNN和引入注意力机制的长短时记忆网络结构（ long short－term memory，LSTM）来解决新闻文本分类的问题，有效提高了文本分类的准确率。可见，利用先进的人工智能技术，将海量的互联网财经新闻自动分类，能够实现人力成本、时间成本的大幅降低和准确分类效率的大幅提升，是一种可行的方案。

2.3.2 媒体信息的量化方法

如何量化媒体影响力，也就是如何将媒体信息转化成为分析模型能够接受的结构化数据，是证券市场媒体效应研究的核心。传统金融学的“有效市场假说”认为理性投资者能够对市场信息及时做出反应，引起证券价格围绕企业内在价值上下波动（Fama， 1965）。近代行为金融学认为投资者是“非理性”的，普遍存在的认知偏差和不完全理性导致其情绪化投资行为的出现，从而形成了各种“金融异象”（Banz，1981；Gultekin et al．，1983；Hirshleifer et al．，2003；Rozeff et al．，1976）。因此，如何准确地量化媒体文本信息中反映经济状况、企业基本面情况或投资者情感的价值信息是研究的关键。目前的量化方法总体上可以归为三种，即数量法、词袋模型法、情感分析法。

（1）数量法

数量法是指统计与研究对象相关的媒体信息发布的数量，用数量的多少来衡量投资者对相关研究对象的关注程度。这种方法起源于早期的经济学领域的研究，由于缺乏合理的量化文本内容的方法，学者往往只能通过对个别媒体报道展开案例研究，或者利用媒体报道的数量作为媒体信息对证券市场影响性研究的衡量指标，利用经济学线性模型研究其与证券市场指标的因果关系。Meulbroek等（1990）以及Mitchell和Mulherin （1994）都是用每日道琼斯重大新闻的数量来衡量投资者关注度，并得出了相似的结论，即新闻的数量与证券市场交易量和收益率都直接相关。Chan（2003）使用道琼斯互动出版物图书馆中的报刊，将正面报道和负面报道的数量作为解释变量，研究了其与证券市场月度收益率之间的关系，发现负面报道对证券市场能够产生更强的冲击。Fang和Peress （2009）收集了美国四家主流媒体的新闻报道，将新闻的数量作为媒体曝光度的代理变量，发现媒体关注度低的股票存在显著的溢价现象。Moat等（2013）和Curme等（2014）发现了企业维基百科网页的浏览频率与证券市场波动的关联。数量法能够在很长一段时间广受学者的欢迎，得益于其简单便捷、易于操作的优势。但是事实上，媒体对证券市场的影响来源于文本内容中的情感倾向诱导投资者产生非理性行为。仅用数量来代表影响力的量化方法过于简化，难以准确地捕捉媒体真实的影响力。随着计算机技术的发展，学者们开始采用先进的文本挖掘技术（如词袋模型法和情感分析法）来有效地提取互联网媒体文本中的重要信息。

（2）词袋模型法

随着信息技术的发展，提取出媒体信息的文本内容成为可能。计算机学者通常利用词袋模型法将文本转化为向量，来捕捉媒体信息的内容与证券市场的关系。其核心思想是忽略文本 T 中的语法和词序，将其视为一个词语的集合，用向量的方式来表达，即 T ＝ { t ₁ ， t ₂ ，…， t _i }，其中 t _i 表示文中第 i 个词与文章主题的相关度（权重）。Wuthrich等（1998）首先尝试利用词袋模型法将互联网新闻文本转化为向量，来探索互联网新闻对亚洲、欧洲和美洲主要证券市场的影响。Wang等（2012）采用相同的方法来研究雅虎财经新闻对股票价格的影响。然而，利用文本中的所有词语来表达文本的中心思想显然会产生过多的“噪音”，类似于“好像”“这种”“应该”“刚好”等与主题无关的的词语会降低模型的量化效果。同时，随着文本信息量的加大，计算负担也会随之激增，可拓展性比较差。因此，学者提出利用文本中的某类词语集合来表达整篇文本的核心内容，从而减少“噪音”和提高算法对海量信息的处理能力。例如，Schumaker和Chen（2008）以及Schumaker和Chen （2009b）运用了 4 种不同的词集（全部词集合、名词集合、专有名词集合、和实体名词集合）来量化新闻文本，发现使用专有名词集合的效果最佳。

（3）情感分析法

依据行为金融学，证券市场波动会受到投资者情绪的影响（De Long et al．，1990）。也就是说，投资者的心理可能会受到新闻报道中的专家观点或社交媒体中的同行意见的影响。为了提取文本中的情感因素，学者尝试采用基于词语或句法的情感分析法来量化一篇文章的情感倾向，特别是量化成为正面（积极）或负面（消极）情感的程度来表达新闻内容的方法得到了广泛的应用。例如，Tetlock （2007）和Tetlock等（2008）利用哈佛大学的通用领域情感词库Harvard－IV－4，通过计算《华尔街日报》新闻中的正面词语和负面词语的比例来量化新闻中的情感因素对证券市场波动的影响。王超等（2009）利用文本倾向性算法为每篇新闻打出一个分数来表示其褒贬性及其强度，并将其作为外部变量加入时间序列模型中，有效提高了对证券市场的捕捉能力。Schumaker等（2012）利用匹兹堡大学研发的情感分析软件Opinion Finder得到一篇新闻的情感指数，发现将新闻的名词和情感指数综合考虑会更加有效地刻画新闻和证券市场波动的关联。林培光等（2020）利用一种基于深度学习的情感分析方法从股吧中的股评信息中提取出每天的投资者情感权重，较好地捕捉了其与证券市场走势的关系。

通过上述分析发现，虽然情感分析法已经得到了广泛的应用，但是以往的研究通常是基于运用通用情感词语来量化媒体情感倾向的。事实上，语言的多样性使得通用情感词在金融领域中可能只是普通词语，反之亦然（Loughran et al．，2011）。因此，运用面向财经领域的专业情感词库就显得至关重要。此外，寻找到适用于互联网大数据时代下的海量媒体信息的合理量化手段，也是精准捕捉媒体影响力中举足轻重的一部分。

2.3.3 洞悉媒体与证券市场关系的分析模型

当从媒体文本中提取出有价值的信息，并以结构化的数据呈现之后，需要构建合理的分析模型来研究媒体信息与证券市场波动指标的关系。经济学学者和计算机科学学者开始从不同的视角，利用各自领域的分析模型来探索媒体信息与证券市场的关联。

（1）经济学模型

经济学模型分为数理统计模型和计量经济学模型。数理统计模型通常是通过验证市场波动指标在不同因素影响情况下的假设检验（如t检验、Wilcoxon符号秩检验、 Kruskal－Wallis秩和检验），或通过统计分析影响因素和证券市场波动指标之间线性关系的强度和方向（常用的线性相关性的度量方式包括皮尔逊相关系数、斯皮尔曼相关性系数、肯德尔相关性系数）来判断二者是否相关联。Moat等（2013）利用Wilcoxon符号秩检验发现了企业维基百科网页被浏览的频率与证券市场波动的关联。Zhang（2006）利用皮尔逊相关系数、斯皮尔曼相关性系数发掘出公司规模、年龄与股票价格波动性、现金流量波动性的负相关性。

计量经济学模型不仅关注市场影响因素与证券市场之间的相关性，还致力于探究它们之间的因果关系。经典的计量经济学模型包括现代投资组合理论模型（如马柯维茨的均值－方差模型）（ Markowitz，1952）、Modigliani－Miller资本结构模型（Modigliani et al．，1958）、 Black－Scholes－Merton期权定价模型（Black et al．，1973；Merton，1973）、资本资产定价模型（Lintner，1965；Mossin，1966；Sharpe，1964）、套利定价理论模型（Chen et al．，1986），以及Fama和French构造的三因子和五因子模型（Fama et al．，1993，2015）等。例如，Sharpe （1964）、 Lintner （1965）和Mossin （1966）提出CAPM模型来研究证券市场系统性风险与期望收益的关系，发现只有投资高风险资产才会收获更高的回报。Fama和French先后提出了三因子（ Fama et al．，1993）和五因子（ Fama et al．，2015）模型，用市场风险、市值风险、账面市值比风险、盈利水平风险、投资水平风险五个因子来解释股票收益。Black和Scholes （1973）率先提出的Black－Scholes－Merton期权定价模型指出股价未来的预测值与过去无关，只与价格的当前值有关。事实上，随着自回归差分移动平均模型（ autoregressive integrated moving average model，ARIMA）的出现，越来越多的研究证实了证券市场波动的时序性，也就是说当前的输入数据产生的结果受到前序输入数据的影响。例如，Gultekin （1983）利用ARIMA探索 26 个国家股票收益与通货膨胀的关系。Bollerslev （1986）提出的广义自回归条件异方差模型（generalized autoregressive conditional heteroskedasticity model，GARCH）在证券市场分析领域被广泛采用。French等（1987）成功运用GARCH模型捕捉到了美国股票市场收益与市场波动的关系。

（2）机器学习模型

在计算机科学领域，通常将证券市场风险波动预测视为机器学习的二分类问题。将 T 时刻的市场信息（如交易数据、新闻报道等）作为输入特征向量，将 T ＋ 1 时刻的证券市场波动指标（如股票价格、交易量、换手率、收益率等）分为上涨、下跌两大类，并作为输出量，通过经典机器学习算法［如KNN、朴素贝叶斯分类、决策树模型、 SVM、多核学习（multiple kernel learning，MKL）、传统神经网络］将市场信息分为影响证券市场波动指标上涨和下跌两大类别。新的市场信息特征向量通过和这些已有类别的文本的特征向量相比较，对其进行归类，从而判断其对证券波动趋势的影响。例如，Wuthrich等（1998）运用KNN预测新闻内容对证券市场股指走势的影响。然而，KNN模型面临样本分布不均匀时，比如关于证券市场的新闻报道大多以利好消息为主，较少出现利空新闻，其预测结果更倾向于判定市场会受到上行压力的影响。Li （2010）利用朴素贝叶斯模型研究公司财务报表与股票价格之间的关联。但是朴素贝叶斯模型要求属性之间相互独立的前提假设对于媒体文本往往无法成立，这给模型的正确分类带来了一定的影响（王守选等，2012）。Rachlin等（2007）运用决策树模型探索新闻文本对股价走势的影响，发现其效果优于朴素贝叶斯模型。Mittermayer和Knolmayer （2006）利用单核SVM来预测新闻对公司股票价格趋势的影响。由于单核SVM无法适用于多种类别的数据特征（如新闻文本的特征、公司历史股价数据的特征及其基本面的特征），Shynkevich等（2016）为了兼顾异构特征，利用MKL将多个核函数进行融合，且取得了更好的效果。Bollen等（2011）利用自组织模糊神经网络模型，成功发现推特中的“冷静”情绪指标的走势和道琼斯工业平均指数的走势有着惊人的相似。

相较于传统的神经网络模型，深度神经网络模型（DNN）具有更多的网络层数，更强大的对现实世界的刻画能力，故其能够更好地捕捉信息对证券市场波动的真实影响。例如，Ding等（2014）利用深度神经网络（DNN）捕捉新闻事件与证券市场之间隐藏的间接关系，结果表明DNN比SVM的预测效果更佳。Sim等（2019）使用卷积神经网络（CNN）探索互联网媒体与历史交易数据对证券波动的影响，发现相比于传统的神经网络，CNN具有更好的预测性能。事实上，CNN更优的原因在于其更适用于空间特征分布的输入数据，如以像素格子为特征的图片数据，同样有助于捕捉不同维度（如宏微观经济指标、媒体信息、企业关联状态）的信息之间的相互关联特性。事实上，在证券市场波动风险分析研究中，作为输入数据的市场信息还具备一个重要的特性——时序性，即当前的输入数据产生的结果受到前序输入数据的影响。为此，学者将长短时记忆机制（LSTM）引入深度神经网络中，去研究市场信息与证券市场波动的关系。例如，Akita等（2016）利用基于LSTM机制的递归神经网络（ recurrent neural network，RNN）来研究新闻对证券市场的影响。Sun等（2017）利用LSTM模型研究微博上的文本信息对中国证券市场的影响。Zhang等（2017）利用基于多频率状态记忆的循环神经网络（state frequency memory recurrent neural network）来预测 50 家上市公司的证券波动变化。然而，不同于经济指标因子的定时长特性，上市公司的相关新闻是不定时发布的，媒体因子具备变时长的离散特性。Li等（2020a）提出了一个事件驱动的LSTM模型，通过记忆门和遗忘门机制来平衡多种不同时序间隔的市场因子对证券波动的综合影响。

2.3.4 本节评述

简而言之，基于媒体感知的证券市场波动风险分析研究在技术层面大致可以分为三个方面，即媒体信息的分类、媒体信息的量化、媒体信息与证券市场关系的分析模型。

媒体信息的分类方面，早期的研究多是采用人工阅读判定的方法，根据文章的标题或少有研究根据正文的内容，将媒体信息的主要内容进行分类（Asquith et al．，1986；Keown et al．，1981；Niederhoffer，1971；刘海飞等，2017），需要耗费大量的人力、物力、财力才能完成这项复杂且庞大的任务。随着自然语言处理技术的诞生，非结构化文本信息的自动处理取得了飞速发展，并广泛应用于机器翻译（Och et al．，2002）、自动问答（Soricut et al．，2004）、垃圾邮件识别（Kumar et al．，2016）等领域，以及少部分研究用于通用领域的文本分类（Kowsari et al．，2017；Mikolov et al．，2013a），鲜有研究涉及财经领域的文本信息自动分类。因此，利用先进的自然语言处理技术，完成海量互联网财经新闻文本的自动分类，实现人力成本、时间成本的大幅降低和准确分类效率的大幅提升，是证券市场媒体效应研究的重要前提，也是该领域的必然趋势。

媒体信息的量化方面，传统金融学通常采用数量法，用媒体信息在单位时间内发布的数量来衡量媒体的影响力（Chan，2003；Meulbroek et al．，1990；Mitchell et al．，1994）。虽然数量法因其简单便捷的特性一直被经济学者普遍采用，但是该方法忽略了媒体报道中关于公司的描述性信息对证券市场的影响。计算机学者便提出了词向量法，将文本的词语量化成为结构化数据，用于捕捉媒体报道的内容对证券市场的影响（Schumaker et al．，2008，2009a；Wang et al．，2012；Wuthrich et al．，1998）。不过该方法考虑了所有的词汇，会大大加大计算机运算负担和无用信息对文本主题思想的干扰。行为金融学发现，投资者情感是影响证券市场波动的重要因素（De Long et al．，1990）。因此，大部分学者致力于利用情感分析法提取出媒体信息中的情感性倾向，来探索媒体信息与证券市场的关联，情感分析法逐渐成为目前最为常用的方法。

媒体信息与证券市场关系的分析模型方面，经济学者通常采用数理统计模型或计量经济学模型来研究二者之间的关系。数理统计模型着眼于证实媒体信息与证券市场之间关系的存在性，计量经济学模型着眼于二者之间的因果关系。但是经济学者通常受限于信息技术手段的缺失，难以从大数据的角度来分析问题。随着机器学习技术在众多领域中取得了突破性进展，例如人机博弈（ Silver et al．，2016；Silver et al．，2018；Silver et al．，2017）、化学合成（Mennel et al．，2020；Segler et al．，2018）、生物工程（Babayan et al．，2018；Noé et al．，2019），计算机学者尝试将其运用于证券市场风险波动研究领域，从大数据的角度挖掘两者之间复杂的非线性关联（Bollen et al．，2011；Mittermayer et al．，2006；Pinto et al．，2011），使得从微观视角分析信息对证券市场影响的各种局部细微影响模式成为可能。