R数据科学实战：工具详解与案例分析最新章节_刘健著

第2章

数据清理工具

无论是人工还是传感器采集的数据，都或多或少地存在一些错误或者瑕疵。比如说，不同采样人员记录数据方式的不同会导致数据值重复或不准确，录入数据时的失误会导致数据输入错误，传感器断电会造成大段的数据默认，不同国家和地区对时间日期制式的不同标准等，各种各样的原因造成数据无法直接用来分析、可视化的情况非常普遍。一般来讲，在从数据收集到最后报告的整个过程中，数据清理会占用整个流程80%的时间。如此耗时的原因是数据清理并非一次性工作，数据清理、计算、可视化是一个动态的循环，根据分析需求的不同，需要应用不同的清理思路和方式。例如，对于默认值的处理，在探索性数据分析阶段，一般都会尝试各种不同的处理方式，完全移除、部分移除或替换成其他数值，并参考分析的目的来决定如何清理默认值。

本章会向读者分享数据清理的一些基本原则，作为框架来指导数据清理工作，以帮助读者逐步形成一套属于自己的数据清理思路。本章还将重点介绍如何使用tibble、tidyr、lubridate和stringr这4个包来进行数据清理。希望读者在浏览过本章之后，会对以下三点有所了解。

1）“脏”数据和“干净”数据的标准是什么。

2）数据清理的指导原则。

3）可以使用的工具包。