购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

前言

环顾四周,可以发现到处都有人为人工智能、机器学习或数据网格(Data Mesh)等技术的革新而兴奋不已。

事实上,新技术和技术的进步确实孕育着巨大的发展前景。

但是,这些新技术的发展都有一个共同的前提:必须有可靠的数据来支持这些技术的应用。拥有可支持人工智能、机器学习和数据网格运行的数据源只是一种基本假设。

每个人都希望他所在的组织能够以数据驱动的方式运营。

但很多时候往往事与愿违。遗憾的是,人工智能、机器学习和数据网格与它们的前辈一样容易受到“垃圾进,垃圾出”(Garbage In,Garbage Out,GIGO)范式的影响。GIGO适用于人工智能、机器学习和数据网格,就像适用于其他已开发的技术一样。

事实上,目前仍缺乏坚实的数据基础设施,以有效支持各种新技术的运用。

然而,数据湖仓的出现改变了这一现状。数据湖仓架构不仅为新技术和复杂技术提供了数据基础,同时也为构建更深入的分析能力奠定了基础。

为了确保这些技术能够发挥作用,必须建立可靠的数据基础,同时其中仅仅有数据是不够的,还要确保这些数据具备以下特性:

可信;

具有延展性;

能够被共享。

只有拥有了具备上述特性的数据,我们才能推进如人工智能、机器学习和数据网格等新技术的运用。因此,一个合适的数据湖仓将提供强大的数据基础设施。

那么,支持未来应用程序的基础数据需要具备哪些品质呢?

针对这个问题,必须考虑不同类型的数据,特别是结构化数据、文本数据和模拟/物联网数据。这3种类型的数据具有不同的属性。针对其中某种数据类型的技能并不一定适用于其他类型的数据,像南极洲、亚马孙河和撒哈拉沙漠一样,这3个地方虽然都在地球上,但它们的地质风貌是完全不同的。

换句话说,不同类型的数据在检索、操作和使用规则以及使用方法上有很大的差异。然而,为了支持应用程序和数据处理,我们必须了解不同类型数据的不同特性。

本书讲述了现代信息系统中数据发展和生存所需的数据基础。没错,这本书是关于数据湖仓的。

本书是为数据架构师、业务人员和系统开发人员准备的。

希望本书的内容对你有用。我们也希望你在人工智能、机器学习和数据网格方面取得成功。

比尔·恩门
戴夫·拉皮恩
瓦莱丽·巴特尔特
2023年6月 xL58Nagj1YFzjeyoqritrU+Y0HUhj5kbPpsHdpWiKYpwY3idX1h4UqB8mdO1skfU

点击中间区域
呼出菜单
上一章
目录
下一章
×