购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第3章
收集、清洗、转换和测试数据

与Ryan Kearns共同撰写

现在我们已经熟悉了优先考虑数据可靠性所需的各种工具,所以接下来讨论一下如何在考虑数据质量的情况下为生产用例准备好数据。

在第2章中,我们讨论了一些领域术语,并介绍了数据质量金块(主要是元数据)的分类方法。不过,要全面了解数据管道中的数据质量,你需要从头到尾审视数据在组织中的整个生命周期。

在本章中,我们将通过影响整体数据质量的四个关键步骤(数据收集、清洗、转换和测试),了解如何在数据传输之前和传输过程中对其进行管理。数据收集和清洗是生产管道中的第一步,而数据转换和测试则在生产管道中解决数据质量问题。 mWFks7skZEAtZc7IZPjP2rBhPuAr3q1drkuKacOtnGOFIIibHJzmh7Lq9vZi5kvN

点击中间区域
呼出菜单
上一章
目录
下一章
×