本章将着重介绍Spark 3.0最重要的核心部分:DataFrame。Spark的运行和计算都慢慢转向围绕DataFrame来进行。DataFrame可以看成一个简单的“数据矩阵(数据框)”或“数据表”,对其进行操作也只需要调用有限的数组方法即可。它与一般“表”的区别在于:DataFrame是分布式存储,可以更好地利用现有的云数据平台,并在内存中运行。
本章将详细介绍DataFrame的基本原理,尽量使用图形方式讲解。同时还将与编程实战结合起来介绍DataFrame的常用方法,为后续的各种编程操作奠定基础。
本章主要知识点:
·认识DataFrame,并了解它的重要性
·DataFrame的工作原理
·DataFrame的常用方法