与Ryan Kearns共同撰写
现在我们已经熟悉了优先考虑数据可靠性所需的各种工具,所以接下来讨论一下如何在考虑数据质量的情况下为生产用例准备好数据。
在第2章中,我们讨论了一些领域术语,并介绍了数据质量金块(主要是元数据)的分类方法。不过,要全面了解数据管道中的数据质量,你需要从头到尾审视数据在组织中的整个生命周期。
在本章中,我们将通过影响整体数据质量的四个关键步骤(数据收集、清洗、转换和测试),了解如何在数据传输之前和传输过程中对其进行管理。数据收集和清洗是生产管道中的第一步,而数据转换和测试则在生产管道中解决数据质量问题。