购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第3章
Spark RDD弹性分布式数据集

本章内容

本章首先讲解Spark RDD的创建以及RDD算子的使用,然后讲解Spark RDD的分区、依赖关系、持久化以及检查点和共享变量的概念和使用;最后通过几个实际案例讲解使用Spark RDD编写计算任务的操作步骤。

本章目标

● 了解Spark RDD的概念

● 掌握Spark RDD的创建方式

● 掌握Spark RDD算子的使用

● 掌握Spark RDD的分区规则

● 掌握Spark RDD的依赖关系

● 掌握Spark RDD的持久化操作以及检查点的设置

● 掌握Spark RDD共享变量的使用

● 掌握使用Spark RDD编写计算任务 2p0yJ6RU5F7cf9BL3dIWjdxYRHSAD9QRUMo41LyxWP289PM8C54LR1XXocsCHw5h

点击中间区域
呼出菜单
上一章
目录
下一章
×