为达到本书的研究目的,确保本书的研究切实可行,本节基于总体研究视角,针对上节阐述的四个研究问题,围绕“互联网财经新闻获取、主题判别与量化—证券市场媒体效应的多维深入探索—智能风险分析模型的精准捕捉”逻辑主线,构建出本书的总体技术路线(如图 3. 2 所示),具体而言:
(1)互联网媒体中海量财经新闻的抓取与处理
随着信息技术的发展,利用先进的网络信息抓爬技术获取海量互联网信息成为可能。本书设计了面向互联网财经新闻的数据自动获取方案——网络定向分布式抓爬器。主要涉及以下关键技术手段:第一,利用Scrapy爬虫框架简化整个爬虫代码实现的过程,并且做到动态处理验证码识别和突破用户代理(UA)高频率访问限制;第二,将Scrapy模块与Redis任务队列对接,实现分布式爬虫,来提高数据获取效率;第三,通过Pyppeteer工具来控制浏览器,特别是模拟用户操作浏览器的过程,避免被网站的反爬机制检测到是机器行为而禁止浏览网页,并且可以成功应对动态加载数据和数据混淆机制;第四,利用动态隧道代理方法实时更新爬虫所用的IP地址,来避免单一IP地址对网站的高频率访问而被限制;第五,利用网络信息解析手段,从所有网页中提取出本书所需的关键信息。另外,在数据预处理过程中,抓爬器利用SimHash编码算法将每篇新闻转换为用 0 和 1表示的“指纹”数字串,通过对字符串相似度的比较来寻找相似的新闻,然后仅保留其中最早发布的新闻,最终将新闻存入数据库形成互联网财经新闻信息库。具体的实现方法与过程将在本书的第 4 章详细描述。
图 3. 2 研究总体技术路线
(2)互联网财经新闻的主题分类与情感量化
财经新闻的主题分类方面,首先采用基于Python计算机编程语言的Jieba分词技术将整篇新闻切分成为一个个词语,删除其中没有实际含义的停用词(如连词、副词、语气词等)后,构建出一个包含新闻中所有词语的语料库;其次,采用基于Word2vec技术的特征提取方法将语料库中的每个词语用词向量来表示,成功将词语转化成为计算机可以识别的结构化数据;再次,将一篇新闻中的所有词语的词向量拼接成为文本向量矩阵,用来表达整篇新闻的语义;最后,将每篇新闻的文本向量矩阵作为深度学习模型卷积神经网络(CNN)的输入量,将每篇新闻进行分类,在此过程中,本书采用半监督式的机器学习方法,以更好地大规模标记未分类的新闻。互联网财经新闻的情感量化方面,本书采用金融学的经典情感量化方法,即通过量化新闻中正向和负向情感词的比例来代表一篇新闻的情感,这种简单而有效的框架得到了学者们的广泛采纳(Chen et al.,2020;Tetlock,2007;Tetlock et al.,2008),该方法同样适用于大数据的计算。
(3)财经新闻与证券市场关联性的深入细致分析
本书从施动者(媒体)、受动者(公司)和管理者三个层面,从大数据的角度对证券市场新闻媒体效应展开一系列深入且细致的探讨。在施动者层面,本书采用事件研究法,通过观察 7 类新闻(公司高管类、政策类、运营与业绩类、持股变动类、重组并购类、 ESG类、违规处罚类)发布前后证券市场的异常收益率,来探讨不同主题的新闻的影响力,此外将新闻情绪因子引入资本资产定价模型(CAPM)和Fama -French三因子(FF3)模型,来探索不同主题新闻中表达的情感性倾向与证券市场的关系。在受动者层面,本书根据证监会《上市公司行业分类指引》,将研究对象分为 17 个行业,利用事件研究法探究新闻对各行业上市公司的作用机理,以及利用CAPM和FF3 模型研究新闻情感因素对不同行业的公司的影响。在管理者层面,本书首先将公司高管的媒体行为通过计算公司高管相关新闻的出现频率分为高曝光和低曝光;其次通过观察CAPM和FF3 模型中的高管曝光与新闻情感因子的交乘项,来度量高管的媒体行为对证券市场媒体效应的影响方向与程度。
(4)基于深度学习的证券市场新闻媒体效应的精准捕捉
本书进一步提出一个深度学习框架,用整体、连续,而非单一的数据关系,研究复杂市场因素对证券市场新闻媒体效应的综合影响。对于现有的智能分析模型“大而全”的缺陷,本书在对财经新闻与证券市场的关联性进行深入细致分析的基础上,提出“分而治之”的指导思想,从三个维度(施动者、受动者、管理者)提升人工智能模型在不同情况下对证券市场风险波动的捕捉能力,实现对互联网媒体影响力更细微、更精准的刻画,克服智能模型在证券市场产生巨大内部变化或突发外界干扰时应对能力不足的弊端。本书利用基于互联网财经新闻驱动的LSTM证券市场风险波动捕捉模型N-LSTM,同时将上市公司基本面信息、证券市场交易信息和新闻情感信息这些时序数据作为LSTM模型的输入,利用模型特有的包含三个门(输入门、遗忘门、输出门)的细胞结构,选择性地控制数据在整个神经网络中的走向。因此,模型不仅能够考虑基本面信息、证券市场交易信息和新闻情感信息三类输入信息的当前状态,也会将三类信息的上一状态经过一定的衰减纳入模型中,成功捕捉了市场信息数据的重要时序特性,即当前的输入数据产生的结果受到前序输入数据的影响。