数据是你的CEO的首要任务,对于以数字为先的公司来说,通常如此,她非常熟悉最新和最好的商业智能(BI)工具。你的CTO对将业务迁移到云上感到非常兴奋,并不断向你的团队发送相关文章,重点介绍一些针对最新技术的性能度量方法。你的下游数据消费者(包括产品分析师、营销领导者和销售团队)则依赖于数据驱动的工具,例如,客户关系管理/客户体验平台(CRM/CXP)、内容管理系统(CMS)以及任何其他相关工具,以便让他们能够快速有效地完成工作。
作为负责管理这些数据并使其可用、可访问和可信赖的数据分析师或工程师,你几乎每天都会处理一些相关人员的请求。但如果数据是错误的,会发生什么呢?
你是否曾经在经过一天长时间运行查询或构建数据管道后,被你的营销主管打电话告知在关键报告中出现了“数据丢失”?如果你的CTO发来一封关于在商业智能仪表板中出现“重复数据”的疯狂电子邮件,你会怎么办?或者,你那位非常看重数据的CEO发来了一份备忘,里面提到在他最新的数据面板上有一个令人困惑或不准确的数字,你要怎样做呢?
如果这些情况中的任何一种都让你感同身受,那说明在这个过程中你并不是孤军奋战。
这个问题通常被称为“数据宕机”,即使是最具创新性和数据优先的公司也会遇到这种情况。而且在我们看来,这也是21世纪企业面临的最大挑战之一。数据宕机是指数据丢失、不准确或出现错误的情况,它表现为过时的仪表板、不准确的报告,甚至是糟糕的决策。
数据宕机的根源是不可靠的数据,这样的数据不胜枚举。
数据宕机每年都可能使公司损失数百万美元( https://oreil.ly/FF8kC ),更不用说丢掉客户信任了。事实上,ZoomInfo在2019年发现,五分之一的公司都曾因为数据质量问题而失去了客户。
正如你可能意识到的那样,受数据宕机影响的不仅仅是公司的利润。处理数据质量问题将消耗数据团队40%以上的时间( https://oreil.ly/HEpED ),这些时间本可以用于更有趣的项目或进行真正的业务创新。
这个统计数据可能对你来说并不意外,对我们来说当然也不。
Barr Moses此前曾在一家客户成功软件公司担任运营副总裁。她的团队负责管理更广泛业务的报告,从为CEO生成仪表板以供在全员会议期间使用,到根据用户指标制定减少客户流失的策略。她负责管理公司的数据运营并确保利益相关方在使用数据时能够取得成功。
Barr永远不会忘记,有一天当她结束了长达数小时的激烈规划会议后回到办公桌前,她在计算机显示器上发现了一张写有“数据错了”字样的便利贴。这种穿帮的情况不仅令人尴尬,而且并不少见。她和她的团队会一次又一次地遇到这些无声的、微小的但又可能有害的数据问题。
所以,必须找到更好的方法来解决问题。
数十年来,无论是报告不力、虚假信息还是技术错误造成的糟糕数据质量和不可靠的数据,一直都是组织所面临的重要问题。随着组织越来越多地利用数据并构建越来越复杂的数据生态系统和基础设施,这一问题只会变得越来越严重。
“坏数据”(bad data)和糟糕的数据质量这两个概念几乎与人类存在的时间一样长,尽管形式各有不同。对于Robert Falcon Scott船长和其他早期的南极探险者来说,糟糕的数据质量(或者更确切地说,缺乏数据支撑的决策)导致他们无法准确预测到达目的地(南极)所需的时间和准确位置。
近年来发生的一些事情依然令我们记忆犹新。以1999年臭名昭著的火星气候轨道飞行器坠毁事件为例——美国航空航天局(NASA)的火星气候轨道飞行器由于数据输入错误而坠毁,该数据输入错误产生了非国际单位制(non-SI)而不是国际单位制(SI)的输出,使其过于接近火星。这次坠毁事故给NASA造成了1.25亿美元的巨大损失。与航天器一样,分析管道在过程的任何阶段都极易受到最无害变化的影响,而这仅仅只是表面上的问题。
Barr的便利贴事件让她想道:“我可不能孤军奋战!”所以,她和Lior Gavish一起着手来寻找“数据宕机”问题的根本原因。他们一起就所面临的最大问题采访了数百个数据团队,而数据质量一次又一次地排在首位。从电子商务到医疗保健,各行各业的公司都面临着类似的问题:模式更改导致数据管道损坏、重复的行/列出现在业务的关键报告中、数据在仪表板上丢失等问题都让他们不得不付出大量的时间、金钱和资源来进行修复。我们还意识到,需要有一种更好的方式来沟通和解决数据质量问题,作为提高数据可靠性的迭代循环并建立推动数据信任文化的一部分。
这些对话启发我们编写本书,来记录我们在数据管道(从接收到分析)的各个阶段中所学到和开发的一些与管理数据质量相关的最佳实践,并分享在类似情况下,数据团队要如何防止数据宕机。
就本书而言,“生产中的数据”指的是来自源系统(如CRM、CMS和前面提到的其他类似系统的数据库)的数据,这些数据已经被数据仓库(data warehouse)、数据湖(data lake)或其他数据存储和处理解决方案接收,并通过数据管道流动(提取-转换-加载,即ETL),以便分析层将其呈现给业务用户。数据管道既可以处理批数据,也可以处理流数据,并且在较高的层次上,度量这两种类型数据质量的方法都大致相同。
数据宕机是软件工程和开发人员运营的必然结果,在这个世界中,应用程序的正常运行时间或宕机时间[即你的软件或服务可用(正常运行)或不可用(停机)的频率]都被仔细度量,以确保软件的可访问性和性能。许多站点可靠性工程师都使用“正常运行时间”作为度量标准,因为它直接关系到软件性能不佳对业务的客户影响。在“五个九”(即99.999%的正常运行时间)可靠性正在成为行业标准的世界中,我们该如何将其应用于数据呢?
在本书中,我们将讨论当前数据团队要如何构建更灵活的技术、团队和流程,以确保整个组织的高数据质量和高可靠性。
在本章中,我们将首先定义数据质量在本书中的含义。接下来,我们将构筑当下,以更好地理解为什么数据质量对数据领导者来说比以往任何时候都更加重要。最后,我们将进一步研究一流团队是如何在数据管道的每个阶段实现高数据质量的,以及如何保持大规模的数据信任。本书主要关注数据质量,它为构建决策仪表板、数据产品、机器学习模型和其他数据科学输出的数据分析数据管道提供动力。