前言

环顾四周，可以发现到处都有人为人工智能、机器学习或数据网格（Data Mesh）等技术的革新而兴奋不已。

事实上，新技术和技术的进步确实孕育着巨大的发展前景。

但是，这些新技术的发展都有一个共同的前提：必须有可靠的数据来支持这些技术的应用。拥有可支持人工智能、机器学习和数据网格运行的数据源只是一种基本假设。

每个人都希望他所在的组织能够以数据驱动的方式运营。

但很多时候往往事与愿违。遗憾的是，人工智能、机器学习和数据网格与它们的前辈一样容易受到“垃圾进，垃圾出”（Garbage In，Garbage Out，GIGO）范式的影响。GIGO适用于人工智能、机器学习和数据网格，就像适用于其他已开发的技术一样。

事实上，目前仍缺乏坚实的数据基础设施，以有效支持各种新技术的运用。

然而，数据湖仓的出现改变了这一现状。数据湖仓架构不仅为新技术和复杂技术提供了数据基础，同时也为构建更深入的分析能力奠定了基础。

为了确保这些技术能够发挥作用，必须建立可靠的数据基础，同时其中仅仅有数据是不够的，还要确保这些数据具备以下特性：

● 可信；

● 具有延展性；

● 能够被共享。

只有拥有了具备上述特性的数据，我们才能推进如人工智能、机器学习和数据网格等新技术的运用。因此，一个合适的数据湖仓将提供强大的数据基础设施。

那么，支持未来应用程序的基础数据需要具备哪些品质呢？

针对这个问题，必须考虑不同类型的数据，特别是结构化数据、文本数据和模拟/物联网数据。这3种类型的数据具有不同的属性。针对其中某种数据类型的技能并不一定适用于其他类型的数据，像南极洲、亚马孙河和撒哈拉沙漠一样，这3个地方虽然都在地球上，但它们的地质风貌是完全不同的。

换句话说，不同类型的数据在检索、操作和使用规则以及使用方法上有很大的差异。然而，为了支持应用程序和数据处理，我们必须了解不同类型数据的不同特性。

本书讲述了现代信息系统中数据发展和生存所需的数据基础。没错，这本书是关于数据湖仓的。

本书是为数据架构师、业务人员和系统开发人员准备的。

希望本书的内容对你有用。我们也希望你在人工智能、机器学习和数据网格方面取得成功。

比尔·恩门
戴夫·拉皮恩
瓦莱丽·巴特尔特
2023年6月