数据生命周期主要分为4个阶段,分别是数据创建、数据使用、数据归档与数据销毁。从字面意思就可以看出在这4个阶段中数据承担的主要角色。在进入数据生命周期之前,还有两个前置阶段,分别是业务规划阶段和应用设计阶段。
Tips 业务规划属于业务架构的内容,而业务架构是以实现企业战略为目标,构建企业整体业务能力规划,并将其传导给技术实现端。业务架构本质上是一种结构化企业业务能力分析方法。
业务规划阶段主要是业务人员进行业务规划及业务标准设计。应用设计阶段主要是利用数据模型、应用系统及数据接入等完成具体的业务场景。
数据并不是凭空产生的,而是要依托于企业具体的业务场景(即业务架构的一部分)产生。为此我们需要首先进行业务规划,然后进行应用设计与实现,在应用系统进入企业业务场景后数据才会真正产生。
不同类型的数据有着不同的作用,相同的数据在不同阶段的价值也会不同,故需要按照数据所处的不同阶段对数据执行不同的管理策略,以提高整个企业对数据及资源的利用率。
例如,当我们去某电商网站注册会员时,网站录入我们的基本信息并分配用户ID信息,这时进入数据创建阶段;当我们在电商网站活动一段时间后,网站统计个人的PV及UV信息,这时进入数据使用阶段;为了减少存储资源以及计算资源,企业将部分不活跃用户标记为休眠账户,并将相关信息进行分类存储,这时进入数据归档阶段;由于新的电商平台加入,用户注销企业账号,按照条款,企业需要销毁用户在平台上的相关数据,这时进入数据销毁阶段。
从上面的例子可以看到,在不同阶段数据的价值其实是不一样的,企业很难也无法按照统一的数据管理策略对相同的数据进行管理。此外,数据在不同生命周期,采取的存储方式以及对外提供的服务方式也是有区别的。
Tips 在具体的数据平台搭建过程中,识别数据所处的生命周期也是一件非常重要的事情。
数据的创建其实就是数据生成的过程。在这个阶段,实际产生的数据并不只有业务系统提供服务而产生的数据,也有可能是应用系统在被调用过程中产生的访问日志,甚至是在数据使用过程中产生的临时数据,这些都属于数据创建的范畴。
但是并非所有创建的数据都能支撑企业的业务或者产生价值,这不只受限于企业对于业务的认知,也受限于可以使用的具体技术手段。例如,在大数据技术出现之前,企业对于非结构化数据价值的挖掘进展缓慢。
数据的价值往往与时间成反比,因此数据创建与数据销毁本质上是一对“孪生兄弟”。这意味着随着数据价值的降低,数据带来的收益(不一定是直接收益)逐渐低于其存储或其他成本等,数据往往会以某种方式被销毁。例如应用运行时产生的临时数据,随着应用的停止运行,这些临时数据的价值会急剧下降,进入相应的清除流程。
数据创建阶段会产生各种类型的数据,对于不同的应用和数据,需要制定不同容量、性能及稳定性的数据存储方案以满足不同的使用方式。例如,利用关系型数据库存储订单系统的订单数据,利用NAS存储某些数据文件,利用缓存存储数据量较小且高频访问的数据等。
数据使用阶段可能是数据生命周期中的核心,也是整个数据生命周期中最复杂、最具技术含量的阶段。数据挖掘、数据可视化、数据资产等都是数据使用在不同方面的体现。
数据只有被使用才有可能支持企业的业务以及为企业提供价值。在数据被使用之前,我们需要知道当前有什么数据、这些数据代表什么业务以及有什么数据可以被谁使用。这三部分内容分别代表着元数据中的技术元数据的数据模型、业务元数据的业务含义及管理元数据的权限部分,后面会详细介绍。
同时,数据使用过程中必然会有新的数据产生。如何存储新产生的数据,如何确保企业中不同业务部门的业务口径或者标准是一致的,例如1和2可以分别代表男、女,male和female也可以分别代表男、女,这就涉及数据标准及数据质量的工作了。
当企业的业务发展到一定程度,需要构建企业的数据资产目录来了解并分析企业的业务现状时,可能涉及数据平台,如数据仓库或者数据湖等的搭建工作。搭建过程中会不可避免地涉及数据调度的工作。
随着数据平台的增加,数据的使用与维护管理变得越来越复杂,这时就需要进行数据治理,成立数据治理委员会,系统性地梳理和优化企业的组织架构,明确不同角色的职责。同时,数据治理的相关系统需要介入企业的数据流转过程以期待提供好用、高质量的数据。
数据归档阶段是数据所处的中后期阶段。数据归档的目的主要有三个方面:一是降低整体的存储成本,低成本地保存对于企业有一定价值但是不需要热访问(对访问的频率和速度要求不是很高)的数据,例如用磁带备份操作系统及历史数据,同时保护这些数据记录不会被破坏;二是提高系统整体的冗余程度,以应对突发的状况;三是应对某些特定审计或者监管的要求,例如中国证券监督管理委员会(以下简称证监会)要求企业保存15年的交易记录。
数据归档涉及数据的迁移和数据的存储,同时不同的企业采取的数据归档策略是不一样的,且存储的方式也各不相同,没有统一的落地方案,需要结合具体的企业业务场景制定。数据归档是企业数据生命周期的重要组成部分,用于保证企业可以在数据因为某种原因被破坏时进行恢复。
上面提到数据价值往往与时间成反比,企业的很多数据在经过一段时间后,将无法继续为企业带来价值,没有了继续保存的意义,那么这些数据将进入数据销毁阶段。
在这个阶段,企业需要制定某些策略,对没有保留或不需要继续保存的数据进行销毁或回收。这部分数据需要从应用系统中删除,例如数据仓库中的数据接口文件或者某些日志文件等。数据销毁是一个健康的企业数据生态中必不可少的一环,它可以对企业数据系统进行“瘦身”,以保证系统继续健康有序地发展。因为从正常企业发展的角度来看,数据往往是持续增长的,数据的持续增长不仅会增加企业的数据维护成本,也会降低企业应用系统的性能。
但是数据销毁并不只是需要考虑企业本身的业务诉求,也需要考虑某些法律法规的要求。例如,上面提到证监会要求保存15年的交易记录,那么对于某些金融机构来说,虽然用户已经注销账户,但是还需要继续保存该用户的相关数据以满足审计的要求。
至此,数据生命周期的4个阶段已经介绍完毕。数据的生命周期是抽象的,而企业的数据是实实在在存在的,数据如何衔接业务与技术是接下来要介绍的内容。