随着数字经济在全球的加速推进,以及5G、人工智能、自动驾驶、物联网、社交媒体等相关技术的快速发展,数据已成为国家基础性战略资源,大数据正日益对全球生产、流通、分配、消费活动、经济运行机制、社会生活方式产生重要影响。2020年4月9日,中共中央、国务院印发《关于构建更加完善的要素市场化配置体制机制的意见》,将数据与土地、劳动力、资本、技术并称为5种要素。海量数据隐含的价值得以发掘的关键是大数据技术。大数据技术涉及的知识点非常多,本书从高校各专业对大数据技术需求的实际情况出发,详细阐述流行的Hadoop、Spark两种大数据处理框架。
全书共12章,主要内容如下。
第1章 Hadoop大数据开发环境。主要介绍Hadoop概述,在VirtualBox上安装虚拟机,在虚拟机上安装与配置Hadoop系统。
第2章 HDFS大数据分布式存储。主要介绍HDFS的基本特征,HDFS的存储架构及组件功能,HDFS的Shell操作,HDFS编程。
第3章 MapReduce分布式计算框架。主要介绍MapReduce概述,MapReduce体系架构,MapReduce工作原理,MapReduce编程。
第4章 HBase分布式数据库。主要介绍HBase系统架构和数据访问流程,HBase数据表,HBase安装与配置,HBase的Shell操作,HBase的Java API操作和HBase编程。
第5章 Scala基础编程。主要介绍Scala特性,Scala安装,Scala基础语法,Scala控制结构,Scala数组、列表、集合、元组和映射,Scala函数,Scala模式匹配,Scala面向对象编程和Scala读写文件。
第6章 Spark大数据处理框架。主要介绍Spark概述,Spark的运行机制,Spark的安装及配置,使用Spark Shell编写Scala代码和使用PySpark Shell编写Python代码。
第7章 Spark RDD编程。主要介绍RDD的创建方式,RDD的操作方法,RDD之间的依赖关系,RDD的持久化,Spark RDD实现词频统计的实战案例和Spark读写HBase数据。
第8章 Windows环境下Spark综合编程。主要介绍如何在Windows系统上搭建Spark、Hadoop和Maven的开发环境,以及Spark RDD学生考试成绩分析的实战案例。
第9章 Spark SQL结构化数据处理。主要介绍Spark SQL概述,创建DataFrame对象的方式,将DataFrame保存为不同格式的文件,DataFrame对象的常用操作,创建Dataset,以及瓜子二手车数据分析的实战案例。
第10章 Spark Streaming流计算。主要介绍流计算概述,Spark Streaming工作原理,Spark Streaming编程模型,创建DStream对象,DStream操作,以及实时统计文件流的词频的实战案例。
第11章 Spark GraphX图计算。主要介绍GraphX图计算概述,GraphX图计算模型,GraphX属性图的创建,属性图操作。
第12章 项目实训:《平凡的世界》中部分人物关系图分析。主要基于《平凡的世界》中部分人物关系图,构建属性图,利用属性图的操作方法进行图的各种分析并进行图的可视化。
在本书的编写和出版过程中,得到了同济大学、郑州轻工业大学和人民邮电出版社的大力支持和帮助,在此表示感谢。在编写本书的过程中,编者参考了大量专业书籍和网络资料,在此向这些作者表示感谢。
由于编者水平有限,书中难免会有缺点和不足,热切期望得到专家和读者的批评指正,在此表示感谢。您如果遇到任何问题,或有宝贵意见,欢迎发送邮件至我的邮箱42675492@qq.com,期待收到您的反馈。
编者
2021年12月于同济大学