购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第4章
数据调度与消息传输

基于数据存储技术,企业按照不同数据的特点或者类型进行持久化存储。然而企业业务决策往往需要整合多个业务系统之间的数据,所以企业开始逐步建设数据平台类的系统以满足业务的需求。这个过程就涉及不同系统之间的数据流动,即我们通常说的ETL。数据抽取(Extract),从数据来源端进行抽取;数据转换(Transform),按照业务逻辑进行加工转换,生成目标结果;加载(Load),将结果数据加载至既定的数据模型端。ETL负责将异构数据源的数据、文件等集中到数据平台并进行处理后输出。这些不同的ETL作业按照指定的规则(例如时间、依赖关系等)执行进而构成企业的调度系统。

企业调度系统构成企业数据流转的核心链路,它承载着不同数据源、不同系统、不同数据表甚至不同字段在技术层面的依赖关系。随着企业调度系统的逐步发展,ETL作业之间的依赖关系变得更加复杂,同样数据依赖关系也变得异常复杂。

本章将针对主流的调度工具进行横向对比,分析不同数据调度平台的优缺点,让读者在构建企业调度系统时有较为清晰的认知。同时选取一些当下较为流行的调度平台Airflow以及数据转换工具DataX进行较为深入的剖析,使读者明白其优势与劣势。此外,由于随着企业业务的发展,实时计算的场景逐渐增多,本章也将针对被广泛运用的消息中间件Kafka进行深入介绍,以帮助读者了解高并发的原理。 lidSeZF2ON6MRXclGZxToQJNEWpY8gEfeCoVDX/fJrLcp14eGwVfupZIheb3vZS4

点击中间区域
呼出菜单
上一章
目录
下一章
×