老汤姆最近去了一个电商企业,担任数据部门的总监一职,负责企业所有与数据相关的工作内容,管理数据开发、数据工程、数据产品和数据分析等团队。
按照老汤姆以往的经验,入职第一周,他需要同合作部门都进行交流,了解业务现状及合作部门对数据部门的反馈意见,以方便后续开展工作。因此,他和各个业务部门的负责人都约了一对一面谈。
很多业务部门的负责人都不约而同地提及了一个“痛点”——数据质量的问题。例如,报表的数据产出经常延迟,甚至经常出现数据不一致的情况,这让大家很困惑;除此之外,还有指标同名不同义、同义不同名的情况等。听着各业务部门负责人的吐槽,老汤姆不好意思地直挠头。
接着,老汤姆和团队的每位成员也做了一对一的面谈。当和数据产品经理小风(负责建设数据中台)交流时,老汤姆也感受到了他被数据质量的问题所困扰。
针对当前出现的问题,小风已经设计了一些方案和解决办法。在听完老汤姆介绍自己的履历和经验之后,小风带着求知若渴的眼神说:“老汤姆,最近大家在用数据的时候,发现质量很差。都知道数据质量很重要,我设计了一些数据中台的架构和方案,对你的经历也比较好奇,能简单和我讲讲你们之前是怎么做的吗?”
老汤姆看着小风,意味深长地说:“关于数据质量,我想先和你简单地说一下提升数据的价值。随着业务的发展,数据量会呈现爆炸式的增长,数据能发挥的价值会越来越大,数据质量的问题就会越来越严重。低质量的数据不仅使用不便,还有可能误导决策,导致灾难性的结果。说得直接一点,数据质量的高低决定了数据是否能够真正发挥价值。”
还没等老汤姆说完,小风就打断:“这些我都知道,各个业务部门一直在反复吐槽数据质量的问题,其实就已经从侧面反映出了数据质量的价值。可是,我们现在没有统一的标准去衡量数据质量的高低,有了衡量标准才好确定工作方向啊!”
老汤姆看小风有点儿着急,耐心地解释:“如何判断数据质量的高低呢?什么样的数据是高质量的呢?引用美国著名的质量管理学家J.M.朱兰(J.M.Juran)的一句话:If they are fit for their intended in operations, decision making and planning。意思是如果根据这些数据做出的操作、决策和规划符合之前的预期,那么这些数据是高质量的。换个角度来理解,高质量的数据可以真实地反映它们所代表的主体信息。说到判断数据质量的标准,不得不提一个词,大家应该经常用到,就是SLA,Service-Level Agreement,即服务等级协议,指的是系统服务提供者(Provider)对客户(Customer)的一个服务承诺。”
小风听到这,赞同地点点头:“我听说过SLA这个词,之前我们也会给业务方承诺SLA,可是我们承诺的大部分SLA都没有达到,所以慢慢地SLA就名存实亡了。”说到这,小风不好意思地挠挠头。
老汤姆宽慰地笑了,拍了拍小风的肩膀:“你说的这些问题业务方都反馈过。其实SLA只是一种方式,数据质量可以通过很多维度去衡量。我给你重点解释一下。”
从定性的角度来看,数据质量的衡量涉及数据的完整性、数据的准确性、数据的一致性、数据的规范性及数据的时效性等,如图1-1所示。其中,数据的完整性要求业务涉及的数据是完整的,能够对业务造成很大影响的数据都要保持一定的完整性;数据的准确性要求数据是准确无误的,且在精度上能满足业务的需求;数据的一致性要求同一个指标的口径要一致,不能有二义性;数据的规范性要求数据是被有效组织的,并且能够被高效地获取;数据的时效性要求业务数据都是最新的,而不是无效的过期数据。
图1-1
数据的完整性主要是通过采集数据的完整程度来衡量的,它被用于评估应采集数据和实际采集数据之间的差异。例如,在电商的用户个人信息页中,电商平台会让用户完善头像、昵称、性别、出生日期等数据;在用户下单的过程中,电商平台会让用户填写收件人、收件地址、电话号码等信息,如果用户仅填写了部分信息,电商平台采集到的数据就是不完整的。
数据的完整性体现了数据的质量,只有基于更多完整的数据,才能发现更多的信息,实现多场景探索和更大价值的挖掘。
数据的准确性反映数据值和真实值之间的差距,即误差,误差越大,准确性越低。数据的准确性至关重要,只有基于准确的数据做出的决策才是真实可靠的。
例如,订单量这个指标,业务真实发生的有100万笔订单,而数据统计的只有92万笔,数据值和真实值之间有8万笔的误差,误差达到了8%,这对业务的目标达成率评估和任务拆解都可能造成误导。因此,我们需要严格保证数据的准确性。
数据的一致性要求对于同一个指标,数据的数值要是一致的。数据的一致性是数据部门经常面临的一个问题,从不同出口出来的数据不一致,导致用户不知道以哪一份数据为准,从而怀疑数据的质量,并对数据部门产生不信任感。
数据的规范性要求数据被按照统一的格式存储、被有效组织,并且能被高效地获取。例如,数仓(数据仓库的简称)通过规范表的命名、表的注释等,可以让数据被更有组织地管理,后续也能被高效地获取和使用。
数据的时效性要求数据能够被及时产出。我们经常遇到的一些情况是,业务部门希望能够在早上8点看到数据,以便指导业务动作,但是,由于数据的时效性存在问题,数据在中午12点才被产出。数据的时效性也是SLA重点强调的一部分,关于数据服务承诺,可以量化的最重要的指标就是数据的时效性。要想很好地服务于业务,提升用户体验,我们就要保证数据的时效性。
综上所述,数据质量很重要,大家千万不要小看数据质量的问题,它是一切数据建设和数据产品化的基础。数据质量的问题在很多小企业中尤为严重,这些企业采用“业务先发展,数据后治理”的思路,导致后期做数据治理的成本极高,甚至到了数据质量影响业务发展,企业不得不重新采集数据的地步,对时间成本和人力成本造成极大的浪费。这非常不可取。
在后面的章节中,老汤姆会带领小风提升数据的质量,还会建设完善的数据中台,彻底解决上面提到的数据完整性、数据准确性、数据一致性、数据规范性及数据时效性的问题。
用一句话来总结数据质量的重要性:产品千万种,数据第一条,建设不规范,企业两行泪。