2017年英国《经济学人》杂志提出一个观点:世界上最具价值的资源不再是石油,而是数据。有关数据的各种概念,如数据要素、数字经济、数字化转型以及数据资产定价等不断提出,对数据理论层面的探索从未停止过。各行各业乃至整个社会都对数据愈发重视,政府也提出建设“数字中国”的概念。上述种种无疑对数据从业者提出了更高的要求。
笔者工作这十几年来始终在一线从事开发工作,接触过很多企业内部的需求。笔者清楚地感受到,企业在不同时期,对于数据平台的定位或者期待发生了很大的变化,同时企业高层对于数据的重视程度也在持续提高。同时,企业内部关于数据平台建设的思路或者对于从业者技能的要求也发生了巨大的变化。
笔者花了很长时间去思考一些问题,例如:数据平台在这些年的发展过程中,有哪些内容是始终不变的,哪些内容变得更加重要;从业者需要掌握哪些技能才能更好地适应新时代的发展。基于这些思考,笔者写了这本书,从数据架构的角度阐述不同时期企业数据平台的建设,期望给从业者提供一些参考。
这是一本偏落地实践的书。笔者会基于自己在一线工作的经验,在书中详细介绍数据架构涉及的技术栈、技术组件以及数据架构落地中可能遇到的问题,并提供对应的解决方案。
这也是一本包含必要理论的书。数据架构涉及大量的概念,不同的概念在不同的阶段可能会有不同的内涵。所以本书会针对这些概念以及不同概念之间的因果关系、逻辑关系等进行详细的介绍。通过这些介绍,相信读者可以更加深入地了解数据架构。
本书会将书介绍的组件与书中提到的理论相结合,并一步步地带领读者搭建自己的迷你版数据平台,以加深读者对于数据架构的理解。
本书是一本企业数据架构相关的书,比较全面地介绍了企业数据架构在企业架构中的位置以及数据架构的构成等。从内容来看,本书比较适合以下读者阅读:
❑对数据感兴趣的相关行业从业者。
❑想了解企业数字化转型内涵的相关人员。
❑期望从事数据相关工作的初学者。
❑想提升自身能力的数据相关从业者。
❑想拓展自己的技术领域的应用开发人员。
❑正在或者将要进行数据治理或者数据资产建设的相关人员。
❑在建设企业数据平台时遇到困难的一线人员。
本书共17章,分为五部分。
第一部分为架构基础(第1章),将会总览性地介绍企业架构及数据架构的内容。
第1章主要介绍企业架构的组成,例如业务架构、数据架构及应用架构等,从不同角度解析两个主要企业架构—Zachman框架及TOGAF,并对比不同组织或者机构对于数据架构的理解。
第二部分为数据架构基础(第2~6章),从不同方面阐述数据架构的组成。
第2章主要介绍数据架构的构成,例如数据模型、元数据、数据质量、数据标准、数据治理、数据资产、数据生命周期、数据分布、常见数据架构技术选型、数据调度等。如果想知道数据架构的核心组成,建议仔细阅读这一章。
第3章主要介绍数据架构中数据存储的发展以及不同类型数据存储的特点,然后分别从集中式数据库、分布式数据库、大数据存储、特定领域存储、实时计算阶段等方面进行详细阐述。如果对于不同类型的数据存储都非常了解的话,这一章可以选择性阅读。
第4章主要介绍数据存储中数据调度与消息传输的相关内容,对比了不同类型的商业ETL软件的区别,之后分别介绍了开源调度平台(Airflow)、ETL工具(DataX)、消息中间件(Kafka)的架构及核心概念等。读者可以根据自己对这些内容的了解程度有选择地阅读这一章。
第5章主要介绍数据架构的演进,引出Lambda架构和Kappa架构,并详细介绍这两种架构的组成及区别,最后简单介绍流批一体化的优劣势。
第6章主要介绍数据架构落地中可能涉及的各种辅助类应用,例如资源管理、资源及组件监控、应用监控以及日志监控等。如果企业内部已经有比较成熟的解决方案,这一章可以作为拓展阅读内容。
第三部分为数据架构模型实践(第7~9章),详细介绍了数据架构涉及的数据模型的部分。
第7章主要介绍企业内部数据区的划分以及企业内部数据的流向等内容,包括大多数企业内部数据区层级的划分以及每一层级的作用,并介绍互联网公司的集成型数据区分层特点等。
第8章主要介绍数据模型架构的内容,包括建模策略、建模步骤、建模方法论以及常见模型概述等。对于数据建模比较感兴趣的读者可以仔细阅读这一章内容。
第9章主要介绍维度建模的内容,包括维度建模概述、维度建模总线结构、维度详解、缓慢变化维度、事实表详解、事务型事实表等。对于维度建模的各种概念不是很理解的读者可以仔细阅读这一章内容。
第四部分为数据资产管理(第10~14章),第10~12章介绍数据架构的核心内容,第13章及第14章介绍企业如何开展数据治理以及数据资产相关工作。
第10章主要介绍元数据管理,包括元数据的产生、分类及价值等,同时介绍元数据的应用及生命周期等,最后阐述如何构建元数据管理体系。
第11章主要介绍数据质量管理,主要内容包括数据质量的管理框架、核心维度及规则体系等,同时介绍企业如何进行数据质量评估。
第12章主要介绍数据标准管理,详细阐述了数据标准的内涵、体系设计框架、管理流程以及面临的挑战,最后系统阐述数据标准与数据质量的关系。如果想系统了解不同概念之间的关系,需要花点时间阅读这一章内容。
第13章主要介绍数据治理的相关内容,就数据治理的产生原因、内涵、核心准则、通用流程等内容进行阐述,最后列举数据治理面临的挑战以及相应的应对方式。推荐将要或者正在进行数据治理的读者仔细阅读这一章内容。
第14章主要介绍数据资产管理相关的内容,包括数据资产的现状以及当前企业可以进行的数据资产管理内容,梳理数据资产与其他概念之间的关系,同时详细介绍如何展开数据资产目录构建工作。
第五部分为数据架构实践(第15~17章),从实践的角度对前面的内容进行了介绍。
第15章主要介绍离线计算的相关实践,并以某个具体的场景为例展开介绍,包括架构设计、软件部署、模型设计、数据处理及离线计算数据应用等。
第16章主要介绍实时计算的相关实践,同样以某个具体的场景为例展开深入介绍,包括架构设计、软件部署、连通性配置、实时计算层等。
第17章主要结合笔者自身的理解以及在行业内的多年观察对数字未来进行展望,希望可以给读者带来一些启发。
由于水平有限,书中可能存在一些描述不准确或者错误的地方,恳请读者多多包涵。同时期待本书可以对读者的工作提供一些帮助。