购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

3.2 研究问题描述

通过对国内外相关文献的梳理,以及对研究总体框架的设计,本小节在正确审视研究过程中可能存在的潜在障碍和需要承担的风险的基础上,厘清了本书可能面临的难点问题,具体而言:

(1)如何高效且准确地获取海量互联网财经新闻

大数据时代下,互联网信息量巨大、更新频率高、传播范围广,互联网财经新闻亦是如此。期望高效、准确、全面地获得各大主流媒体的新闻报道,则需要强大的定向分布式网络抓爬引擎的支持才能实现。数据获取作为本书的基础工作,如何开发出适用于海量互联网新闻信息的抓取工具,是本书面临的第一个问题,其难点主要在于网站的反爬机制 、硬件成本高、不同网站结构的差异、数据解析精准度等。其中,最为困难的是如何攻破网站复杂的反爬机制,一个稳健的爬取工具需要突破用户代理(UA)高频率访问限制、 IP高频率访问限制、动态加载数据、数据混淆、验证码识别、登录验证、人机身份识别、 cookie限制等难点,其中任何一个环节的疏忽都有可能造成爬虫失效,导致爬虫无法继续访问网站。

(2)如何根据互联网财经新闻文本的特征,合理设计主题分类与情感量化方法

面向海量数据的文本信息筛选、识别、处理过程,必须借助计算机技术来完成,以保证研究的准确性与效率。财经新闻多具有短文本属性和特定的文本特征,例如表达简明扼要、信息量大、书面用语多、金融领域专用词汇多。在新闻主题分类的过程中,如何高效捕捉文本特征,找到适用于短文本分类的新闻文档识别技术,最大化区分文本所表达中心思想的类别,是本书亟待探讨和解决的问题。在情感量化方面,通用领域中的情感词或者普通词语,在金融领域中的含义皆有可能改变,基于普通情感库的量化方法对证券市场刻画深度不足。因此,寻找针对证券市场新闻信息的特定情感量化方法是本书需要解决的又一问题。

(3)如何更深层、细致、具体地分析互联网财经新闻与证券市场关联性

虽然已经有较多文献探讨了新闻对证券市场的影响,但是尚未从大数据的角度探索异质性新闻在证券市场中的不同作用、不同行业公司受新闻冲击程度的差异性,以及上市公司管理者行为在证券市场媒体效应中扮演的角色。探究这些问题的落脚点主要在于针对不同情况采用更合理的分析方法,这也是本书的首要问题。在金融学领域,对于信息影响性的分析,有多种方法(模型)能够揭示研究对象之间的内在关系。从中选择恰当的分析方法,从施动者(媒体)、受动者(公司)和管理者三个角度,更深层和细致地揭示证券市场媒体效应的具体表现,是本书需要解决的关键问题。

(4)互联网财经新闻对证券市场的精准量化分析问题

目前,计算机领域所研发的面向证券市场风险波动的智能分析模型往往脱离了金融学背景,尝试构造出一种能够普遍适用于整个证券市场的同质化算法 。事实上,证券市场的波动是受到外界因素和上市公司自身属性等多方面因素综合影响的结果,“大而全”的通用智能交易模型难以完成对证券市场波动更细微、更精准的捕捉。因此,本书面临的又一问题是,如何根据不同影响因素在证券市场风险波动中的不同作用机制,以“分而治之”的指导思想来构建更具有指向性、更稳健、更精准的智能分析模型,从而弥补传统交易策略大而全、应对特殊情况处理能力不足的缺陷。这个问题的解决,不仅意味着本书在技术方面的突破,也对本书的落地应用具有积极的意义。 7jTLL1IK1y8yb2+9p/FybHntSEepNLGwof2TGeUGBPuvTnYltPpF/rZNKEr6Q9dt

点击中间区域
呼出菜单
上一章
目录
下一章
×