大数据可能意味着更多的信息,但也意味着更多的虚假信息。
——Naseem Taleb
正如我们在第1章了解到的,关于云数据湖有两个关键要点,它们为本章奠定了基础:
· 数据湖方法始于存储和处理任何类型的数据的能力,无论其来源、大小或结构如何,从而允许组织从具有可变值密度(即信噪比)的许多不同的数据源中提取高价值见解。
· 在云上构建数据湖涉及一个分解式架构,你可以将IaaS、PaaS和SaaS解决方案的不同组件组合在一起。
重要的是要记住,构建云数据湖解决方案还为你提供了许多架构选项,每种选项都有自己的优势。Future.com上的这篇文章( https://oreil.ly/VUHSK )全面概述了现代数据架构的各个组件。在本章中,我们将以一个名为Klodars的虚构公司(组织)为例,深入探讨一些更常见的架构模式,了解它们并理解每种架构的优点。