目前并没有对数据资产的权威定义,我们选取业界较为认可的一个定义:数据资产(Data Asset)是指由企业拥有或者控制的,能够为企业带来经济利益的,以物理或电子的方式记录的数据资源,如文件资料、电子数据等。在企业中,并非所有的数据都能构成数据资产,数据资产是能够为企业产生价值的数据资源。
数据资产管理贯穿数据采集、存储、应用和销毁的整个数据生命周期。企业管理数据资产就是对数据进行全生命周期的资产化管理,促进数据在“内增值,外增效”两方面的价值变现,同时控制数据在管理流程中的成本消耗。
数据资产概念的提出是有一定历史背景的,接下来我将与大家一起探寻数据资产的概念提出与兴起。
数据管理的概念是在20世纪80年代推广数据库技术时被提出的,较数据资产的概念的提出早几十年。DMBOK1.0将数据管理定义为规划、控制和提供数据资产,发挥数据资产的价值。DAMA将数据管理体系分为10个部分,分别是数据治理、数据架构管理、数据开发、数据操作管理、数据安全管理、参考数据与主数据管理、数据仓库与商务智能管理、文档与内容管理、元数据管理和数据质量管理。
Tips 虽然DMBOK1.0在20世纪80年代就提出了数据治理的概念,但是当时国内比较流行的是数据管控,它包含数据质量、元数据与数据标准。数据治理的概念在国内是随着大数据技术的普及而逐步推广开来的。
数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)
数据仓库作为数据管理的重要组成部分,承载着建立企业数据中心、打破企业数据孤岛、提高企业数据的利用率、实现数据共享等责任。这个时期其实没有数据资产的应用场景,因为构建企业数据资产的前提是知道企业有什么数据。但是数据仓库的应用场景是,基于业务需求对企业主数据等进行集中化管理,然后提供对外的服务。这里有一个前提,在知道自己需要什么数据的情况下对接不同的应用系统,将应用系统中的结构化数据进行ETL(数据抽取、数据转换和数据加载)处理。
这个过程基本上不会涉及非结构化数据,最多只会涉及极少的半结构化数据,例如XML文件格式的数据。
Tips 与数据仓库同时配套的还有数据管控体系,即元数据、数据质量与数据标准。
数据湖的兴起其实是由大数据及AI技术的发展而推动的。为什么这些技术的发展会推动数据湖的兴起呢?原因是在数据仓库时代,数据的接入处理是以结构化数据及关系型数据库为主导的。而大数据技术主要处理的是半结构化数据(如CSV、日志、XML、JSON)、非结构化数据(如Email、文档、PDF)及二进制数据(如图像、音频、视频)等。在此基础上,企业可以将原先业务过程中不被重视的操作数据、日志数据以及非结构化的业务数据利用起来,进一步挖掘数据的价值,例如利用访问日志量动态进行资源的缩放以提高资源利用率。
同时,随着算力的提升以及AI技术的兴起,企业要想利用AI深入挖掘数据的价值,就需要有不同的系统和尽可能原始的数据。因此,数据湖开始发展。
根据WiKi的定义,数据湖通常是企业中全量数据的单一存储。全量数据包括原始系统所产生的原始数据副本以及为了各类任务而产生的转换数据,各类任务包括报表、可视化、高级分析和机器学习。数据湖中的数据包括来自关系型数据库的结构化数据(行和列)、半结构化数据、非结构化数据和二进制数据。
Tips 与数据湖同时兴起的概念有数据资产和数据治理。
没有数据湖的数据资产是残缺的或者说不完整的,但是基于数据湖构建的数据资产也并不一定是完美的。这个关系我们一定要弄清楚。
数据资产管理的前提是弄清楚企业到底有什么类型的数据。在数据仓库时期,我们更多的是按需接入数据,不会对数据有完整的认知(更不要说那些日志数据或者操作数据)。而数据湖并不是按需接入数据,而是将企业现存的数据都接入之后进行挖掘并提供应用服务。
在数据资产化的背景下,数据资产管理是在数据管理基础上的进一步发展,可以视作数据管理的升级版。数据管理更多的是被动接入数据,然后对接入的数据进行管理,而数据资产管理更多的是在数据湖时代的主动管理,主动利用前沿技术挖掘数据的价值以实现数据资产化。
中国信息通信研究院(以下简称信通院)在《数据资产管理实践白皮书(4.0版)》中提到,数据资产管理框架包含 8个管理职能和 5 个保障措施,如图2-2所示。管理职能是指落实数据资产管理的一系列具体行为,保障措施是为了支持管理职能而实现的一些辅助的组织架构和制度体系。
图2-2 数据资产管理框架
Tips 这里出现的元数据管理、数据质量管理、数据标准管理及数据模型管理也是数据治理的主要内容。