Intellij IDEA是目前常用的Java和Scala程序设计以及框架处理软件,拥有较好的自动架构、辅助编码和智能控制等功能,有取代Eclipse的趋势。
在Windows上对Spark进行操作解决了大部分学习人员欠缺大数据运行环境的烦恼,便于操作和研究基本算法,这对真实使用大数据集群进行数据处理有很大的帮助。在后面的章节中,笔者将着重介绍基于Windows单机环境下Spark的数据处理方法。这种在单机环境下相应程序的编写与集群环境下运行时的程序编写基本相同,部分程序稍作修改即可运行在集群中。
本章介绍了如何安装和上手运行一个Spark 3.0的程序,下一章将详解Spark 3.0 ML包的主要使用格式DataFrame。