数据架构到底由什么构成,不同的组织、不同的视角下有着不同的解读。在本部分中,我将会根据自己的理解,结合不同机构的定义,提炼出数据架构的核心内容,供各位读者参考。
2021年12月20日,在第四届数据资产管理大会上,《数据资产管理实践白皮书(5.0版)》正式发布。该白皮书提到数字资产主要包含数据资源化及数据资产化两个环节。在该白皮书的定义中,数据资源化是以数据治理为工作重点,以提升数据质量、保障数据安全为目标,确保数据的准确性、一致性、时效性和完整性,推动数据内外部流通。数据资源化包括数据模型管理、数据标准管理、数据质量管理、主数据管理、数据安全管理、元数据管理、数据开发管理等。
几乎所有组织对数据架构的定义都会涉及数据模型、元数据、数据质量、数据标准、数据治理和数据资产这6个概念,它们是任何企业搭建数据平台必须面对的数据层面的核心管理领域,也是数据架构的核心内容。
数据模型 是对现实世界特征的模拟和抽象,其本质是现实世界在应用系统上的投射。 元数据 会伴随着数据模型的创建、使用、销毁而产生、完善及销毁。 数据质量 与 数据标准 是从两个维度保证数据模型承载的数据能够更加高效稳定地供不同系统、不同层级,甚至企业内外部使用或传输。
Tips 在数据仓库时代,人们往往将元数据、数据质量及数据标准的管理统称为数据管控。
数据治理 是指由于企业架构逐渐变得复杂,企业在运用数据的过程中出现这样或那样的问题,因此它想通过治理的手段提高企业数据流转的效率、降低使用过程中可能存在的风险等。 数据资产 是在数字化时代,企业通过对所拥有的数据进行资产化,提高企业的收益等。
企业的业务会发生变化。当业务发生变化,例如有新的业务产生时,业务的调整就会导致既有的数据模型的调整。这也会导致数据模型所承载的数据发生变化或者调整,即数据会随着业务迭代而迭代。在这个过程中会涉及 数据生命周期 ,数据生命周期包括数据的创建、使用、归档及销毁 。
企业的数据分布在不同的应用系统中,不同的系统可能使用不同的数据存储方式,不同的系统之间可能涉及不同的数据访问形式,例如离线的数据访问、实时的数据访问等。这时就会用到 数据分布 的概念,它用来描述企业不同数据的分布情况。
上述8个概念构成数据架构的核心内容,但更多是概念层面的内容,而其落地需要依托于一定的技术架构。为此,数据架构主要可以分为两部分:一部分是承载数据架构的技术内容,另一部分是承载数据架构核心概念的解构。
上述内容构成本书的核心框架,共4部分。第一部分是数据架构基础,阐述基本概念以及相应的数据存储等;第二部分将系统地阐述企业数据流向及数据架构模型实践;第三部分将介绍数据资产管理的相关内容,其中会深入地阐述数据治理的内容;第四部分主要是对前三部分涉及的内容的实践与总结。
图1 本书核心框架
接下来我们学习数据架构基础的相关内容。