诞生于伯克利大学AMPLab的 Spark 是当今大数据领域最活跃、最热门、最高效的大数据通用计算平台,是Apache软件基金会下所有开源项目中三大顶级开源项目之一。在任何规模的数据计算中,Spark在性能和扩展性上都更具优势,Spark正在加速成为一体化、多元化的大数据处理中心的首选的和唯一的计算平台。
本章将介绍Spark的巨大价值、独到之处和具体的功能。
Spark为何是大数据处理平台的必然选择?Spark速度如此之快的原因是什么?Spark的理论基石是什么?Spark具体又是如何仅仅使用一个技术堆栈解决多元化的大数据处理问题的?本章都会逐一解答。