说起数据人员最大的苦恼,非数据治理不可,但是数据又不得不治:随着数据量的大爆发,很多数据从产生到采集、存储、生产、使用等的过程中,存在噪声和错误记录的可能。如果数据没有得到良好的治理,就无法判断数据的准确性,更无法判断通过这些数据得出的间接结论和由其支撑的数据服务能否带来预期的效果。
传统的数据治理通常包括数据标准管理、元数据管理、数据质量管理、数据安全管理、数据生命周期管理等内容。在数据治理领域比较著名的理论有以下几个。
这些理论对数据治理各细分领域都有非常详细的技术论述,但是企业在实际的数据治理过程中仍会遇到众多困难和阻碍,如图1-7所示。
图1-7 数据治理的5大典型困难
1. 传统数据治理的专业门槛较高
传统数据治理涉及对数据的标准进行统一制定,对数据的安全进行分类分级,对数据的质量进行控制和迭代优化,对数据的元数据进行一一梳理并归档,对数据的生命周期进行全链路跟踪并构建溯源机制……这些工作不仅有体力活,更有脑力活和心力活,需要有具备更高视野的数据管控者进行全局考虑,并且具体执行者需要掌握数据治理专业技能,才能进行具体操作和衔接。这对数据人员的要求较高,一般的数据开发人员可能无法胜任。而业内专业的大数据专家或大数据治理人才非常稀缺,聘请成本高昂。
2. 传统数据治理涉及的板块多,周期长
数据治理所涉及的治理领域较多,因此一个数据治理项目往往会持续一年或一年以上。在数据治理项目实施过程中,可能会面临不同板块之间的衔接问题,因此需要一个治理总工程师来统筹规划:确定统一的治理目标和原则,安排好合理的治理计划和路径,选择适配治理目标和流程的工具产品,挑选并培养数据治理队伍,制定确保数据治理平稳推进的工作机制等。但在漫长的治理过程中,可能会出现人员更替、信息缺失、事项遗漏等无法避免的问题,这些都是数据治理工作中不得不面对的困难。
3. 治理工作一遍又一遍,治理不完
治理工作初始阶段定下的目标,很可能在治理到一半的时候,因为数据的来源、生产、使用等重要环节发生改变而不得不修正,治理工作需要重新进行。例如数据来源发生了变化,如新增数据、替换或删除了原有数据,都会使数据部门不得不重新对数据源进行治理;又或者数据生产过程发生了变化,例如在治理过程中因为数据质量存在问题,进而牵扯出标准、安全等问题,这样由一个问题引发出多个相关联的问题,导致治理工作量越来越大,最终可能远超原来预估的工作量。
另外,数据治理完成后,在使用某部分数据的过程中,业务端也可能会提出进行质量调优或变更原有数据开发代码的需求,那么数据治理的其他相关模块都要相应修正。因此从这些点上看,数据治理因其周期长,且在治理过程中势必会发生数据变化,而容易进入一直无法收尾的怪圈。
4. 治理工作难以对外扩展,获得配合
传统的数据治理项目往往是由技术部门或数据部门来主导,但是数据部门其实只能影响数据生命周期的中间环节,即数据的生产和加工环节。数据的两端(来源端和使用端)并不属于数据部门能掌控的范围,更多属于业务部门控制的范围;而数据治理所包含的多项重要工作,如数据标准、数据安全、数据质量、数据生命周期等,都是全链路工作项,如果缺乏两端的配合与支持,是无法顺利完成的。
例如,即使数据部门制定了数据标准,但是业务部门认为不符合业务实际,难以执行,那么数据从业务端采集开始,就没有遵循统一的标准记录;数据的溯源记录也是如此,如果数据流向的各环节部门不配合,数据就难以真正得到治理,更不用提数据的融合、校验和挖掘。
5. 治理难度太大,是一项系统工程
综合以上各种原因分析,会发现数据治理难度非常大,它其实是一项模块多、跨度周期长、技能要求门槛高、受外界环境影响大、需要多部门联动配合的系统工程。这个系统工程如果仅由数据部门来强力推进,很难做好。
数据治理工作,大家都知道重要,但是又难以迅速开展和得到广泛支持,这其中不乏技术工具储备积累的问题,也不乏管理机制和数据认知的问题。技术问题好解决,最难解决的是人心。企业开展工作不能仅仅依靠政策指导、领导站台、规章考核等方式强硬地层层递推。
传统的数据治理理论和工作模式都强调从数据出发,想要将所有的数据都治理干净。这是一种数据人的理想结果,在现实的企业经营场景中往往会碰壁。人性是趋利的,要么让业务人员真正懂数据,会用数据,要么就向其展示、证明数据对业务场景的显著提升作用,这样才能拉动业务侧一起积极配合、共同治理。
那么可不可以跳脱出原来固化的数据治理模式,寻找一种数据资产管理的新模式?可以从业务出发,找到数据核心价值,以价值来联动数据与业务两个部门,共同完成数据资产设计、数据资产治理、数据资产使用等过程,将数据以资产的形式高效运营起来。