除了数据孤岛,最重要的数据问题是烟囱式建设,重复造轮子,即每个业务部门各自从业务需求出发,从头至尾构建一套数据基座,以满足自身的数据能力建设需要。
烟囱式的数据建设会带来三大危害,如图1-4所示。
1. 烟囱越建越高,难以支撑
企业各部门从自身需求出发建设的数据就像工厂中的烟囱一样,纵横林立,相互之间没有联系,时间久了自然难以支撑。从部门出发的数据梳理容易过于关注部门的内部需求,既无法获得跨部门的数据资源,也无法得到全局视野上的数据支撑。在具体实施过程中,年轻的数据工程师并没有充分考虑数据底层的系统梳理和清洗溯源,就进行了快速的数据开发工作;在开发过程中,也缺乏数据逻辑和建模分层上的思考和指导。一切都以业务为导向,为了及时产出最终的数据结果,中间步骤是否合规合理、代码程序是否稳健正确都可能会被忽略。这样进行的数据建设极容易倾斜倒塌。
图1-4 烟囱式数据建设带来的三大危害
2. 数据治理在局部难以成功
近几年,数据治理概念受到了企业的认可。企业要用数据反映企业的真实情况,需要清洗、梳理、治理出干净的数据,只有数据加工逻辑准确无误,最终的数据结果才能反映出问题的本质。如果数据建设是各业务林立的烟囱式做法,并没有统一的部门来进行源头管理,那么数据治理很难在局部获得成功。
3. 重复投入容易造成资源浪费
烟囱式数据建设的最大弊端是造成了企业在数据建设上的重复投入,造成资源浪费。虽然各部门都有自己的业务特色和业务目标,但在数据建设中,底层原始层数据、中间明细层数据,乃至上层应用层数据都可能存在大量重复。如果各部门都自建一套数据系统,会发生反复存储、反复计算的问题,导致资源浪费。这种浪费会随着数据量的增加而越发凸显。
烟囱式的数据建设也使得部门间的信息通道天然割裂。数据人员埋头苦干几个月,殊不知他希望得到的数据成果早就有别的部门开发完成了。即使通过数据工作分享会,数据人员了解到其他部门开发的数据成果,想要申请使用,也会因为底层开发模式或开发语言不同而难以阅读、修改、使用。如果仍然需要使用这些数据成果,则需要在理解其开发逻辑后重新开发,这也会造成一定程度的数据资源浪费,并且降低企业使用数据的整体效率。
产生烟囱式数据建设的根源有以下几种。