尽管如第二章所述,人们在文本信息处理方面做了多种前沿技术的理论探讨,但这些就技术而谈技术的分析较为零散,缺乏对整体文本信息处理实践的系统指导。这就难免导致实践中应用文本信息处理技术的发展缓慢。本章是在现有自然语言处理框架的基础上,应信息披露研究对文本信息处理的改进要求,界定一些关于文本信息处理的技术。针对当前实证研究中出现的一些问题,这些处理技术至少需要讨论的问题包括:在当前的文本信息环境下,如何基于传统特征工程对文本进行分类?如何基于深度学习技术对文本进行分类?文本信息处理的字典有哪些?本章将对这些问题进行阐述,并从机器学习法和字典法两个维度,为文本信息处理应用提供一个系统框架。