前言

文本作为重要的非结构化数据之一，其相关方面的数据挖掘在医疗健康、市场营销、电商媒体、数字人文等各种场景中都有重要的应用。例如，对电子病历的规范化文本数据进行提取，可以量化病人的诊断结果，提出合理建议；在点评类平台中对消费者的评论进行关键词提取，可以对店家的服务进行评估；在公共社交平台上对某一个话题的文本进行提取和情感量化，可以获知大众对某一个话题的看法，把握相关舆情。这些应用都有着巨大的价值提升潜力，而要发掘这些潜力则需要掌握体系化的文本数据挖掘方法。

对于文本数据挖掘工具而言，除了基于图形交互界面的软件（如Tableau）外，还有基于命令行的通用开源软件，如R和Python。虽然利用Python来做自然语言处理和文本数据分析的资料非常多，但是随着文本数据挖掘日渐普及，各行各业的科研人员和从业者都需要发掘文本的价值，并希望快速习得一些实用的工具来对文本进行分析。Python需要初学者具备更多的计算机编程知识，才能发挥其效力；而R语言作为一个面向统计和可视化的开源工具，逐渐受到更多来自工业界和科研界的认可。R语言的开发者在设计工具的时候通常认为用户也没有太多的计算机编程基础，所以在各种软件包中通过提供“傻瓜式”的函数操作，让使用者仅仅通过复制粘贴较少的代码，就能够直接对自己的数据进行复杂的数据操作与分析，这是R语言的一大特点。

本书立足于R语言在文本数据挖掘领域的发展前沿，对文本数据挖掘的基本概念和实现方法进行了系统介绍，并利用大量实际案例和通用代码来引导读者进行实践和思考。通过阅读本书，读者可以循序渐进地掌握文本数据挖掘中的各种概念、方法和工具，完成日常学习和工作中的文本分析任务。

本书内容

第1章，走进文本数据挖掘。对文本数据挖掘进行了综合的介绍，内容包括什么是文本数据挖掘、为什么要进行文本数据挖掘和文本数据挖掘的基本框架，并对文本数据挖掘的常用软件工具进行了概述。

第2章，文本数据挖掘利器——R语言。向初学者介绍R语言的基本使用方法，包括软件的安装、环境的配置、数据结构与类型、编程基础和数据操作方法。

第3章，从基础做起1——字符串的基本处理。主要利用stringr包作为工具，讲述各式各样的字符串操作及其在R中的实现方法。

第4章，从基础做起 2——用好正则表达式。介绍了正则表达式的基本概念，包括通配符、简写字符集和反向引用等，并结合实例引导读者进行实践。

第5章，步入正题——导入各类文本数据。介绍了如何把本地各种格式的文本数据导入到R环境中，并讲述了如何进行编码格式的识别和文本数据结构的转化。

第6章，更进一步——对各类文本数据进行预处理。针对文本数据清洗这一主题，对文本切分、去除停用词、词干提取、词性标注等预处理任务进行了介绍。

第7章，上手文本数据挖掘——文本特征提取的4种方法。主要介绍了文本特征提取的方法，包括TF-IDF特征提取、各种词嵌入的方法以及文档向量化。

第8章，文本分类——基于机器学习的方法。从无监督和有监督两个方面，介绍了文本数据分类的基本方法，并给出相关的实践代码。

第9章，深入理解文本内涵——文本情感分析。分别对如何进行英文情感分析和中文情感分析进行了介绍，并给出通用案例和系统实现过程。

第10章，文本数据的直观表达——文本可视化。聚焦于文本可视化，介绍了如何利用文本信息绘制条形图、克利夫兰点图、矩形树状图、词云图、词汇位置分布图、网络图等。

第11章，举一反三——文本数据挖掘项目实践。利用 3个典型的文本分析案例，来引导读者对情感分析、文本分类和关键词提取进行学习和实践。

本书特点

● 深入浅出，简单易学：本书不需要读者具有文本挖掘或R语言的基础知识，循序渐进地带领读者掌握文本数据挖掘中的各种知识以及文本分析在R语言中的实现方法。

● 代码丰富，实践性强：本书几乎在所有文本分析任务中都提供了简洁可行的R语言实现代码，读者可以通过实践来体会每一步文本挖掘操作。通过反复练习，可以习得其中的技巧，并运用在自己的文本数据挖掘任务中。

● 体系完备，系统性强：本书介绍了文本数据挖掘基本任务的方方面面，从文本数据的导入和预处理到分析、建模和可视化。有利于读者对整体知识结构的把握，从而在解决文本数据挖掘问题的时候具有更加全面而细致的考虑。

● 内容新颖，紧跟前沿：文本数据挖掘作为经典的知识体系不会过时，但是软件工具却在一直在更新迭代。本书参考了大量近 3年内的R软件包及其帮助文档，紧跟技术发展潮流，让读者能够习得较为先进的实现技术，提高编写代码的效率。

适用对象

本书适合需要对文本数据挖掘进行了解和运用的在校大学生、科研人员和数据分析从业者，尤其适合初学者入门，同时能够为来自各行各业（新闻媒体、人文社科、医疗健康、生物医药、环境生态、市场营销等）对文本数据分析感兴趣的广大读者提供技术参考。

本书作者

本书在编写过程中参考了国内外大量的文本挖掘与R语言实现的相关资料。本书的完成首先要感谢R语言开源社区，他们不知疲倦的努力和无私的分享让R语言在文本数据挖掘中越发强大。同时，需要对复旦大学图书馆情报研究部进行致谢，我在这里担任助管期间得到了很多锻炼和启示。还要感谢谢琳老师、赵斌教授和中国科学院文献情报中心科学计量小组在本书编写期间对我的支持。感谢机械工业出版社各位编辑专业的工作。最后，感谢我的父母，无论在任何时候都给予我无私的爱。

由于作者水平有限，书中难免出现错误和不足之处，敬请广大读者批评指正。希望本书能够让各位读者从零到一、从无到有地获知文本数据挖掘的基本概念，并习得利用R语言进行文本数据挖掘的技术技巧。

黄天元