购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

| 第3章 |

Spark实战环境设定

俗话说,巧妇难为无米之炊。由于PySpark工具运行在Apache Spark组件之上,因此,用PySpark对数据进行处理,必须建立Spark实战环境。PySpark可以让开发人员用Python对Spark中的API进行调用,因此可以大大降低Spark的学习成本。

本章重点介绍如何快速搭建Spark实战环境,这也是学习PySpark对大数据进行处理的前提,其中涉及Hadoop、Hive和Spark等软件的安装。

本章主要涉及的知识点有:

· 建立Spark环境的前提:需要提前在操作系统上安装JDK 1.8+和Python 3.7等软件,并配置环境变量。

· 快速建立Spark环境:利用本地模式,将下载的Spark安装包解压到本地,稍作配置即可完成单机模式的Spark运行环境。

· Hadoop集群搭建:由于生产环境下的大数据处理,往往都离不开Hadoop集群环境。因此掌握Hadoop集群环境的搭建至关重要。本章利用VMware Workstation软件创建3台虚拟机,用于搭建Hadoop集群。

· Spark集群搭建:在3台虚拟机上搭建一个Spark集群,用于大数据的分布式处理。

· Hive环境搭建:Hive是离线数据仓库体系中一个重要组件,由于Hive提供SQL编程接口,因此可以利用SQL语句对Hadoop中存储的数据进行分布式查询。

· 交互式Spark环境搭建:基于上述步骤搭建的Spark环境,可以用Jupyter Notebook搭建一个基于Web的交互式Spark环境。 BgeWn6/MKKIyx7qFfQri1eAALtqFrwVshzJL/m2zR/7S5/G9AMPGv1wmZydbhGIZ

点击中间区域
呼出菜单
上一章
目录
下一章
×

打开