Hadoop与大数据挖掘（第2版）最新章节_王哲著

2.1　Hadoop技术概述

在大数据时代，针对大数据处理的新技术也在不断地开发和运用中，并逐渐成为数据处理挖掘行业广泛使用的主流技术。Hadoop作为处理大数据的分布式存储和计算框架，已在国内外大、中、小型企业中得到了广泛应用。学习Hadoop技术是从事大数据行业工作必不可少的一步。

2.1.1　Hadoop的发展历史

Hadoop是由Apache的Lucence项目创始人道格·卡廷创建的，Lucence是一个应用广泛的文本搜索系统库。Hadoop起源于开源的网络搜索引擎Nutch，Nutch本身也是Lucence项目的一部分。Hadoop的发展历史如图2-1所示。

图2-1　Hadoop的发展历史

2002年，道格·卡廷和迈克·卡法雷拉两位开发者开发了开源搜索引擎Nutch。

2003年，谷歌发表的论文 The Google File System 描述了谷歌产品的架构GFS。Nutch的开发者们发现GFS架构能够满足网页抓取和搜索过程中生成的超大文件存储需求，节省系统管理所使用的大量时间。于是在2004年，Nutch的开发者们借鉴谷歌新技术开发了Nutch分布式文件系统（NDFS）。

2004年，谷歌又发表了论文 MapReduce: Simplified Data Processing on Large Clusters ，向全世界介绍了MapReduce框架。Nutch的开发者们发现谷歌的MapReduce框架可以解决大规模数据的处理问题，因此Nutch的开发者们模仿了MapReduce框架的设计思路，使用Java设计并开发了一个可工作的MapReduce并行计算框架。

2006年，道格·卡廷加入雅虎公司，并将Nutch的NDFS和MapReduce框架移出了Nutch，命名为Hadoop。

2008年，Facebook团队发现对于大多数分析人员来说，编写MapReduce程序的难度较大，他们更熟悉SQL语句，因此FaceBook在Hadoop的基础上开发了一个数据仓库工具Hive，专门将SQL语句转换为Hadoop的MapReduce程序。

2011年，Yahoo将Hadoop项目独立并成立了一个子公司Hortonworks，专门提供Hadoop相关的服务。

2012年，Hortonworks推出了与原框架有很大不同的YARN框架的第1个版本，从此对Hadoop的研究又迈进一个新的层面。

2016年，Hadoop及其生态圈组件（如Hive、HBase、Spark等）在各行各业落地并且得到广泛的应用，YARN也在持续发展以支持更多的应用。

2017年12月，Hadoop发布3.0.0的稳定GA（General Availability，正式发布）版本（即GA版本），修复了6242个问题，Hadoop 3.x正式开始使用。目前，Hadoop版本还在不断地优化更新。2020年8月3日，3.x系列Hadoop发布了第2个稳定的版本Apache Hadoop 3.1.4，意味着Hadoop的API稳定性和质量均有了保障。本书所使用的也是Hadoop 3.1.4版本。

2.1.2　Hadoop的特点

Hadoop是一个能够让用户轻松搭建和使用的分布式计算平台，能够让用户轻松地在Hadoop上开发和运行处理海量数据的应用程序。Hadoop的主要特点如下。

1）高可靠性。Hadoop的数据存储有多个备份，集群部署在不同机器上，可以防止一个节点宕机造成集群损坏。当数据处理请求失败时，Hadoop将自动重新部署计算任务。

2）高扩展性。Hadoop是在可用的计算机集群间分配数据并完成计算任务的。为集群添加新的节点并不复杂，因此可以很容易地对集群进行节点的扩展。

3）高效性。Hadoop可以在节点之间动态地移动数据，在数据所在节点进行并行处理，并保证各个节点的动态平衡，因此处理速度非常快。

4）高容错性。Hadoop的分布式文件系统HDFS在存储文件时将在多台机器或多个节点上存储文件的备份副本，当读取该文件出错或某一台机器宕机时，系统会调用其他节点上的备份文件，保证程序顺利运行。

5）低成本。Hadoop是开源的，即不需要支付任何费用即可下载并安装使用，节省了购买软件的成本。

6）可构建在廉价机器上。Hadoop不要求机器的配置达到极高的标准，大部分普通商用服务器即可满足要求，通过提供多个副本和容错机制提高集群的可靠性。

7）Hadoop基本框架是基于Java语言编写的。Hadoop是一个基于Java语言开发的框架，因此运行在Linux系统上是非常理想的。Hadoop上的应用程序也可以使用其他语言编写，如C++和Python。

2.1.3　Hadoop存储框架——HDFS

HDFS是一种旨在普通硬件上运行的分布式文件系统，与现有的分布式文件系统有许多相似之处，但也存在明显的区别。HDFS具有非常好的容错能力，旨在部署在低成本硬件上。HDFS支持对应用程序数据进行高吞吐量访问，并且适用于具有海量数据集的读写。HDFS是Hadoop的核心组件之一，用于存储数据。

1. HDFS简介及架构

HDFS是以分布式进行存储的文件系统，主要负责集群数据的存储与读取。分布式系统可以划分成多个子系统或模块，各自运行在不同的机器上，子系统或模块之间通过网络通信进行协作，以实现最终的整体功能。利用多个节点共同协作完成一项或多项具体业务功能的系统即为分布式系统。

HDFS作为一个分布式文件系统，其分布式主要体现在如下3个方面。

1）HDFS并不是一个单机文件系统，而是分布在多个集群节点上的文件系统。节点之间通过网络通信进行协作，提供多个节点的文件信息，使每个用户均可以看到文件系统的文件，使多台机器上的多用户可以分享文件和存储空间。

2）当存储文件时，文件的数据将分布在多个节点上。数据存储不是按一个文件存储，而是将一个文件分成一个或多个数据块进行存储。数据块在存储时并不是都存储在一个节点上，而是被分别存储在各个节点中，并且数据块会在其他节点存储副本。

3）数据从多个节点读取。读取一个文件时，从多个节点中找到该文件的数据块，分别读取所有数据块，直至最后一个数据块读取完毕。

HDFS是一个主/从（Master/Slave）体系架构的分布式文件系统。HDFS支持传统的层次型文件组织结构，使得用户或应用程序可以创建目录，再将文件保存至目录中。文件系统命名空间的层次结构和大多数现有的文件系统类似，可以通过文件路径对文件执行创建、读取、更新和删除操作。HDFS的基本架构如图2-2所示。

图2-2　HDFS基本架构图

HDFS文件系统主要包含一个NameNode、一个Secondary NameNode和多个DataNode。

（1）NameNode

NameNode用于存储元数据以及处理客户端发出的请求。元数据不是具体的文件内容，它包含3类重要信息。第1类信息是文件和目录自身的属性信息，如文件名、目录名、父目录信息、文件大小、创建时间、修改时间等；第2类信息是记录文件内容存储的相关信息，如文件分块情况、副本个数、每个副本所在的DataNode信息等；第3类信息是用于记录HDFS中所有DataNode的信息，用于DataNode管理。

在NameNode中存放元信息的文件是fsimage文件。在系统运行期间，所有对元数据的操作均保存在内存中，并被持久化到另一个文件edits中。当NameNode启动时，fsimage文件将被加载至内存，再对内存里的数据执行edits文件所记录的操作，以确保内存所保留的数据处于最新的状态。

（2）Secondary NameNode

Secondary NameNode用于备份NameNode的数据，周期性地将edits文件合并到fsimage文件并在本地备份，然后将新的fsimage文件存储至NameNode，覆盖原有的fsimage文件，删除edits文件，并创建一个新的edits文件继续存储文件当前的修改状态。

（3）DataNode

DataNode是真正存储数据的地方。在DataNode中，文件以数据块的形式进行存储。Hadoop 3.x默认128 MB为一个数据块，如果存储一个大小为129 MB的文件，那么文件将被分为两个数据块进行存储。当文件上传至HDFS端时，HDFS会将文件按128MB的数据块大小进行切割，将每个数据块存储至不同的或相同的DataNode并备份副本，一般默认备份3个副本。NameNode负责记录文件的分块信息，以确保在读取该文件时可以找到并整合所有数据块。

2. HDFS的特点

随着数据量越来越多，传统的单机式文件存储系统已经不能满足日益增长的数据存储需求，分布式文件存储系统——HDFS应运而生。作为分布式文件系统，HDFS能够解决海量数据的存储问题，其优点列举如下。

1）高容错性。HDFS上传的数据会自动保存多个副本，通过增加副本的数量增加HDFS的容错性。如果某一个副本丢失，那么HDFS将复制其他节点上的副本。

2）适合大规模数据的处理。HDFS能够处理GB、TB甚至PB级别的数据，数量级规模可达百万，数量非常大。

3）流式数据访问。HDFS以流式数据访问模式存储超大文件，有着“一次写入，多次读取”的特点，且文件一旦写入，不能修改，只能增加，以保证数据的一致性。

当然HDFS也不是完美的，同样存在局限性，如不适合低延迟数据访问，无法高效存储大量小文件、不支持多用户写入及任意修改文件。

2.1.4　Hadoop计算引擎——MapReduce

MapReduce是一个分布式运算程序的编程框架，是基于Hadoop的数据分析应用的核心框架。MapReduce的核心功能是将用户编写的业务逻辑代码和自带的组件整合成一个完整的分布式运算程序，并行运行在Hadoop集群上。认识MapReduce分布式计算框架，并了解MapReduce的执行流程，有利于后续的MapReduce编程学习。

MapReduce是Hadoop的核心计算框架，是用于大规模数据集（大于1TB）并行运算的编程模型，主要包括Map（映射）和Reduce（规约）两个阶段。

1）当启动一个MapReduce任务时，Map端将会读取HDFS上的数据，将数据映射成所需要的键值对类型并传至Reduce端。

2）Reduce端接收Map端键值对类型的中间数据，并根据不同键进行分组，对每一组键相同的数据进行处理，得到新的键值对并输出至HDFS。

MapReduce作业执行流程如图2-3所示。

图2-3　MapReduce作业执行流程图

一个完整的MapReduce过程涉及数据的输入与分片、Map阶段数据处理、Shuffle&Sort阶段数据整合、Reduce阶段数据处理、数据输出等操作。

1）数据的输入与分片。MapReduce过程中的数据是从HDFS分布式文件系统中读取的。文件上传至HDFS时，一般按照128 MB分成若干个数据块，所以在运行MapReduce程序时，每个数据块均会对应一个Map任务。也可以通过重新设置文件分片大小调整Map的个数，在运行MapReduce程序时系统会根据所设置的分片大小对文件重新分片（Split）。

2）Map阶段数据处理。一个程序有一个或多个Map任务，具体由默认存储或分片个数决定。在Map阶段，数据将以键值对的形式被读入，键的值一般为每行首字符与文件最初始位置的偏移量，即中间所隔字符个数，值为该行的数据记录。根据具体的需求对键值对进行处理，映射成新的键值对并传输至Reduce端。

3）Shuffle&Sort阶段数据整合。此阶段是指从Map端输出开始，传输至Reduce端之前的过程。该过程会对同一个Map中输出的键相同的数据先进行整合，减少传输的数据量，并在整合后将数据按照键进行排序。

4）Reduce阶段数据处理。Reduce任务可以有一个或多个，具体由Map阶段设置的数据分区确定，一个分区数据将被一个Reduce处理。针对每一个Reduce任务，Reduce会接收到不同Map任务传来的数据，并且每个Map传来的数据都是有序的。一个Reduce任务中的每一次处理均是针对所有键相同的数据，对数据进行规约，形成新的键值对。

5）数据输出。Reduce阶段处理完数据后即可将数据文件输出至HDFS，输出的文件个数和Reduce的个数一致。如果只有一个Reduce，那么输出只有一个数据文件，默认命名为“part-r-00000”。

2.1.5　Hadoop资源管理器——YARN

YARN是Hadoop的资源管理器，可以提高资源在集群的利用率，加快执行速率。早期的Hadoop 1.0版本的任务执行效率低下，Hadoop 2.x版本开始引入了YARN框架。YARN框架为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。

Hadoop YARN提供了一个更加通用的资源管理和分布式应用框架。该框架使得用户可以根据自己的需求实现定制化的数据处理应用，既可以支持MapReduce计算，也可以很方便地管理如Hive、HBase、Pig、Spark/Shark等组件的应用程序。YARN的架构设计使得各类型的应用程序可以运行在Hadoop上，并通过YARN从系统层面进行统一管理。拥有了YARN框架，各种应用可以互不干扰地运行在同一个Hadoop系统中，以共享整个集群资源。

YARN框架总体上仍然是主/从结构，在整个资源管理框架中，ResourceManager为Master，NodeManager为Slave，ResourceManager负责对各个NodeManager上的资源进行统一管理和调度。用户提交一个应用程序时，需要提供一个用于跟踪和管理这个程序的ApplicationMaster，ApplicationMaster负责向ResourceManager申请资源，并要求NodeManger启动可以占用一定资源的任务。由于不同的ApplicationMaster被分布到不同的节点上，所以它们之间不会相互影响。

YARN的基本组成框架如图2-4所示。

图2-4　YARN的基本组成框架

YARN主要由ResourceManager、Node-Manager、ApplicationMaster和Client Application这4个部分构成，具体说明如下。

1）ResourceManager（RM）。一个全局的资源管理器，负责整个系统的资源管理和分配。ResourceManager主要由两个组件构成，即调度器（Scheduler）和应用程序管理器（Applications Manager，ASM）。

调度器负责将系统中的资源分配给各个正在运行的应用程序，不从事任何与具体应用程序相关的工作，如监控或跟踪应用的执行状态等，也不负责重新启动因应用执行失败或硬件故障而产生的失败任务。
应用程序管理器负责处理客户端提交的Job以及协商第一个Container（包装资源的对象）以供ApplicationMaster运行，并且在ApplicationMaster失败时将其重新启动。其中，Container是YARN中的资源抽象，它封装了某个节点上的多维度资源，如内存、CPU、磁盘、网络等。当ApplicationMaster向RM申请资源时，RM为ApplicationMaster返回的资源就是使用Container表示的。YARN会为每个任务分配一个Container，且该任务只能使用该Container中描述的资源。

2）NodeManager（NM）。每个节点上的资源和任务管理器。一方面，NM会定时地向RM汇报本节点上的资源使用情况和各个Container的运行状态；另一方面，NM会接收并处理来自ApplicationMaster的Container启动或停止等各种请求。

3）ApplicationMaster（AM）。在用户提交每个应用程序时，系统会生成一个ApplicationMaster并保存到提交的应用程序里。ApplicationMaster的主要功能如下。

与ResourceManager调度器协商以获取资源（用Container表示）。
对得到的任务进行进一步分配。
与NodeManager通信以启动或停止任务。
监控所有任务运行状态，在任务运行失败时重新为任务申请资源并重启任务。

4）Client Application。Client Application是客户端提交的应用程序。客户端会将应用程序提交到RM，然后RM将创建一个Application上下文件对象，再设置AM必需的资源请求信息，最后提交至RM。

2.1 Hadoop技术概述

2.1.1 Hadoop的发展历史

2.1.2 Hadoop的特点

2.1.3 Hadoop存储框架——HDFS