前言
Preface

随着数字经济在全球的加速推进，以及5G、人工智能、自动驾驶、物联网、社交媒体等相关技术的快速发展，数据已成为国家基础性战略资源，大数据正日益对全球生产、流通、分配、消费活动、经济运行机制、社会生活方式产生重要影响。2020年4月9日，中共中央、国务院印发《关于构建更加完善的要素市场化配置体制机制的意见》，将数据与土地、劳动力、资本、技术并称为5种要素。海量数据隐含的价值得以发掘的关键是大数据技术。大数据技术涉及的知识点非常多，本书从高校各专业对大数据技术需求的实际情况出发，详细阐述流行的Hadoop、Spark两种大数据处理框架。

全书共12章，主要内容如下。

第1章 Hadoop大数据开发环境。主要介绍Hadoop概述，在VirtualBox上安装虚拟机，在虚拟机上安装与配置Hadoop系统。

第2章 HDFS大数据分布式存储。主要介绍HDFS的基本特征，HDFS的存储架构及组件功能，HDFS的Shell操作，HDFS编程。

第3章 MapReduce分布式计算框架。主要介绍MapReduce概述，MapReduce体系架构，MapReduce工作原理，MapReduce编程。

第4章 HBase分布式数据库。主要介绍HBase系统架构和数据访问流程，HBase数据表，HBase安装与配置，HBase的Shell操作，HBase的Java API操作和HBase编程。

第5章 Scala基础编程。主要介绍Scala特性，Scala安装，Scala基础语法，Scala控制结构，Scala数组、列表、集合、元组和映射，Scala函数，Scala模式匹配，Scala面向对象编程和Scala读写文件。

第6章 Spark大数据处理框架。主要介绍Spark概述，Spark的运行机制，Spark的安装及配置，使用Spark Shell编写Scala代码和使用PySpark Shell编写Python代码。

第7章 Spark RDD编程。主要介绍RDD的创建方式，RDD的操作方法，RDD之间的依赖关系，RDD的持久化，Spark RDD实现词频统计的实战案例和Spark读写HBase数据。

第8章 Windows环境下Spark综合编程。主要介绍如何在Windows系统上搭建Spark、Hadoop和Maven的开发环境，以及Spark RDD学生考试成绩分析的实战案例。

第9章 Spark SQL结构化数据处理。主要介绍Spark SQL概述，创建DataFrame对象的方式，将DataFrame保存为不同格式的文件，DataFrame对象的常用操作，创建Dataset，以及瓜子二手车数据分析的实战案例。

第10章 Spark Streaming流计算。主要介绍流计算概述，Spark Streaming工作原理，Spark Streaming编程模型，创建DStream对象，DStream操作，以及实时统计文件流的词频的实战案例。

第11章 Spark GraphX图计算。主要介绍GraphX图计算概述，GraphX图计算模型，GraphX属性图的创建，属性图操作。

第12章项目实训：《平凡的世界》中部分人物关系图分析。主要基于《平凡的世界》中部分人物关系图，构建属性图，利用属性图的操作方法进行图的各种分析并进行图的可视化。

在本书的编写和出版过程中，得到了同济大学、郑州轻工业大学和人民邮电出版社的大力支持和帮助，在此表示感谢。在编写本书的过程中，编者参考了大量专业书籍和网络资料，在此向这些作者表示感谢。

由于编者水平有限，书中难免会有缺点和不足，热切期望得到专家和读者的批评指正，在此表示感谢。您如果遇到任何问题，或有宝贵意见，欢迎发送邮件至我的邮箱42675492@qq.com，期待收到您的反馈。

编者
2021年12月于同济大学

前言 Preface

前言
Preface