购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

前言

本书的写作初衷是作者在工作中发现很多的Spark开发人员在日常工作中经常因为不理解Spark内核原理而陷入Spark开发的泥沼。尤其在进行几十亿甚至百亿级别数据的Spark任务开发时,虽然对于许多任务,开发人员很快就能实现功能代码的开发,但是在线上经常遇到任务处理超时、数据倾斜、内存溢出、任务分配不均等问题,而很多开发人员在面对这些问题时,常常会在不断尝试设置调优参数的过程中浪费太多宝贵的时间,最终收效甚微。这些问题的出现归根到底是因为不理解Spark内核的原理造成的,市面上的Spark书籍在介绍Spark内核的原理时大多以源码为基础,大量的源码和专业名词让很多读者望而生畏,好像必须要花很大力气才能理解Spark内核。因此,作者萌生了以图解的方式形象地介绍Spark内核的原理的想法,旨在让读者阅读起来既轻松有趣,又能全面理解Spark内核的原理。

本书在写作过程中尽量使用图文结合的方式展开介绍。本书对于每个知识点都配有图解,可以说,读者只要理解了图中的内容,基本上也就理解了对应的文字介绍部分,因此阅读起来会更加轻松愉悦和快速。同时本书的编写更贴近实战,尤其是Spark各种数据源的对接。数据格式原理的介绍、Spark性能调优、Spark延迟数据处理等内容都是笔者每次解决线上问题后的经验总结,阅读本书对于读者在日常工作中解决问题大有裨益。

本书内容主要包括Spark概述及入门实战,Spark的作业调度和资源分配算法,Spark SQL、DataFrame、Dataset的原理和实战,深入理解Spark数据源,流式计算原理和实战,亿级数据处理平台Spark性能调优,Spark机器学习库,Spark 3.0的新特性和数据湖等。全书内容丰富、翔实、简单易懂,旨在以最简单的方式讲解Spark内核复杂的原理。

本书主要内容

本书共8章,主要内容如下。

第1章首先介绍Spark,然后讲述Spark的原理、特点和入门实战。

第2章主要介绍Spark的作业调度、Spark on YARN 资源调度、RDD概念、RDD 分区、RDD依赖关系、Stage、RDD 持久化、RDD检查点、RDD实战等。

第3章讲述Spark SQL、DataFrame、Dataset的原理和实战。

第4章讲述Spark数据源。

第5章讲述Spark流式计算的原理和实战,具体包括Spark Streaming的原理和实战、Spark Structured Streaming的原理和实战。

第6章讲述亿级数据处理平台Spark性能调优,具体包括内存调优、任务调优、数据本地性调优、算子调优、Spark SQL调优、Spark Shuffle调优、Spark Streaming调优、Spark数据倾斜问题处理。

第7章概述Spark机器学习、Spark机器学习常用统计方法、Spark分类模型、协同过滤和Spark聚类模型。

第8章讲述Spark 3.0的新特性和Spark未来的趋势——数据湖。

致谢

感谢人民邮电出版社的张涛编辑,他的鼓励和引导对本书的写作与出版有很大的帮助。

写技术书是很耗费精力的,我常常因为一句话或一张图能否准确表达含义而思考再三。出于工作的原因,我只能在晚上和周末写作,写作难度很大,整个写书过程持续一年之久,在收到写作邀请时本人还没有宝宝,现在宝宝王默白已经一岁有余,每次写书累的时候看一下宝贝王默白的笑容,所有的疲惫一下子都烟消云散了。真心祝愿王默白开心快乐地成长,同时也十分感谢妻子张艳娇女士,没有她的鼓励和支持,本书很难顺利出版。最后感谢父母和朋友在工作和生活中给予的关心和帮助。在这里衷心地祝愿大家身体健康,万事如意。

t/RgN5O1Sfo/QFuDKRSUQKkvszK2puhg0MLsZasLTSGrey6KT0IbEwCIQU3pTph6

点击中间区域
呼出菜单
上一章
目录
下一章
×