购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

4.5 总结

从类型来看,企业数据平台主要分为离线计算以及实时计算两大类,二者主要的区别在于企业业务对时效性的要求。离线计算往往出现在企业BI报表以及数据仓库等批处理作业中,而实时计算主要是对一些时效性较高的应用场景进行处理,例如实时数据报表以及监控等。

离线计算架构需要数据调度平台(例如Airflow)以及数据同步工具(例如DataX),二者负责完成不同系统之间的数据流转以及转换等工作。


Tips 注意数据同步工具并非数据处理工具,这两者有着较大的区别,前者是将源系统的数据同步到目标系统中,而后者更多是在数据库内部的处理逻辑。


实时计算架构的数据往往是以消息的方式存在,而非一般的数据表(当然最终会落地为数据表),数据的传输需要引入消息队列(例如Kafka)来满足不同组件之间的消息传递要求。

当前纯实时计算的架构被称作Kappa架构,而同时存在离线计算以及实时计算的架构被称作Lambda架构。在接下来的章节中我们将更加详细地解析这两种不同的架构。 ONF/awJkj0KPKHLQ3H2aKNPrTQo4CAILHWmGIEtGc70pCgwoWdpb0xmOdgb0kKPH

点击中间区域
呼出菜单
上一章
目录
下一章
×