购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第2章
对可靠数据系统的构建模块进行组装

与Ryan Kearns共同撰写

对于任何数据从业者来说,解决生产过程中的数据质量问题都是一项关键技能,但只要有适当的系统和流程,就基本可以防止数据宕机。

与软件一样,数据在管道的任何阶段都可能会受到操作数量、编程甚至数据相关性的影响,也许只需一次模式更改或代码推送,就会让下游报告处于混乱状态。

正如我们将在第8章讨论的,解决数据质量问题并构建更可靠的管道分为三个关键组件:流程、技术和人员。在本章中,我们将解决组件中的技术部分,将数据管道的不同部分映射在一起,并了解在每个步骤中测量、修复和防止数据宕机所需的内容。

数据系统极其复杂,而数据管道中的各个阶段都导致了这种混乱。随着公司越来越多地投资于数据和分析,这种大规模构建的压力也为数据工程师带来了巨大的压力,甚至让他们在数据进入管道前就开始为质量问题负责。

在本章中,我们将重点介绍各种来自数据目录、数据仓库和数据湖中的,元数据驱动的构建模块,以便在管道的每个阶段都确保高质量的数据,并保证成功建立数据基础设施。 h0u7c05eYQpU3ugBQ90awpumETrtH+6OoKypT58qvU7gwYjLY7IfNp3WHLPIQjW3

点击中间区域
呼出菜单
上一章
目录
下一章
×