当前,人工智能、机器学习、商业智能、区块链等新兴技术飞速发展,极具吸引力。所有这些新技术都依赖于高质量数据,也就是它们只有在可靠的数据基础上才能发挥作用。若它们在错误的数据基础上运行,根本就不会起作用。计算机科学与信息通信技术领域有GIGO(Garbage In Garbage Out)原则,它是指如果将错误的、无意义的垃圾数据输入计算机系统,计算机系统也一定会输出错误的、无意义的垃圾结果。因此,新兴技术需要以高质量数据作为基础,而数据质量往往被忽视。
普拉桑特·苏特卡尔(Prashanth Southekal)博士的这本书聚焦数据质量,探讨了关键领域中数据管理和数据治理的最佳实践,内容十分全面。数据质量的先驱拉里·英格利什(Larry English)一定会为苏特卡尔博士所做的工作感到自豪。因为苏特卡尔博士浇灌了他在许多年前播下的数据质量概念的种子,这些种子已经在一片郁郁葱葱、翠绿欲滴之地茁壮成长。
我从这本书中受益匪浅。这本书有如下亮点:
· 数据定义——数据是什么,以及它为什么在业务中很重要。
· 数据血缘——许多作者忽略了这个主题。
· 数据记录系统——大多数作者都忽略的一个重要概念。
· 认识数据量在决策中发挥的重要作用。
· 数据治理——什么是数据治理以及如何进行数据治理。
· 数据保护和数据安全对于任何现代组织来说都是必不可少的。
· 数据伦理——大多数作者都没有涉及这个主题。
· 数据所有权和管理责任。
如果你要构建依赖于数据的系统,或者有更加宏大的目标,那么通过阅读此书,你将打下坚实的基础。
“数据仓库之父”比尔·恩门(Bill Inmon)