4 互联网财经新闻的自动获取、主题分类与情感量化

第 3 章基于全局视角，阐明了本书的总体框架、研究问题以及技术路线，并明确了本书的逻辑主线，即“互联网财经新闻获取、主题判别与量化—证券市场媒体效应的多维深入探索—智能风险分析模型的精准捕捉”。本章为研究逻辑主线的起始工作，将完成互联网财经新闻的自动获取、主题分类与情感量化三部分工作，力图为后续研究的顺利展开，以及研究结果的有效性和可信度奠定坚实的数据基础。

互联网财经新闻具有信息量巨大、更新频率高、传播范围广、速度快等特点，对于海量互联网财经新闻数据的获取与处理，依靠人工的方法显然已经无法完成，必须借助计算机的强大计算能力来自动完成数据的获取、文本主题的分类与情感量化工作。因此，本章首先基于海量数据的视角探讨互联网财经新闻的自动获取方法，通过定向分布式网络抓爬引擎实现信息的自动爬取，并利用先进的文本处理技术将文本清洗、去重和溯源，最终完成互联网财经新闻库的构建；其次，利用机器学习的方法，按照不同的主题内容，高效且准确地将财经新闻自动分为公司高管类、政策类、运营与业绩类、持股变动类、重组并购类、 ESG类、违规处罚类 7 类；最后，采用金融学的经典情感分析方法实现新闻内容的情感量化，将新闻的文本内容转化成为机器能够理解的结构化数据。

总体而言，互联网财经新闻的获取、分类与量化是本书的重要基础工作，每一个环节的高准确性与高可信度是后续探索新闻影响力的充分保证。因此，为避免人工方法的主观性偏差和工作的低效，本书采用机器学习的方法提升文本分类的准确度与效率，并采用金融学经典方法实现对文本情感的自动量化。