大数据基础与应用最新章节_赵国生著

2.3 Hadoop体系结构

Hadoop体系结构包括许多内容，最底层的是HDFS，它存储Hadoop集群中所有存储节点上的文件。HDFS的上一层是MapReduce引擎，由JobTrackers和TaskTrackers组成。除此之外，Hadoop体系结构还包括数据仓库Hive、数据流处理Pig、数据挖掘库Mahout和实时分布式数据库Hbase等，但最根本的、最重要的还是HDFS和MapReduce。Hadoop体系结构如图2-1所示。

图2-1 Hadoop体系结构

2.3.1 HDFS体系结构

HDFS对外部客户机而言，就像一个传统的分级文件系统，可以创建、删除、移动或重命名文件等。但是HDFS的架构是基于一组特定的节点构建的，这是由它自身的特点决定的。HDFS是一个主/从（Mater/Slave）体系结构，其中有两类节点，一类是元数据节点NameNode，另一类是数据节点DataNode。两类节点分别承担Master和Worker具体任务的执行节点。体系中只有一个NameNode，它在HDFS内部提供元数据服务；体系中有多个DataNode，它为HDFS提供存储块。由于分布式存储的性质，客户端联系NameNode以获取文件的元数据，而真正的文件I/O操作是直接和DataNode进行交互的。但由于NameNode只有一个，如果NameNode出现问题，则Hadoop无法正常使用，这是HDFS的一个缺点。

（1）NameNode（名称节点）——管理文件系统的命名空间

NameNode是一个通常在HDFS实例中的单独机器上运行的软件，它负责管理文件系统名称空间和控制外部客户机的访问。NameNode决定是否将文件映射到DataNode的复制块上。有三个常见复制块，其中第一个和第二个复制块存储在同一机架的不同节点上，最后一个复制块存储在不同机架的某个节点上。

要注意经过NameNode的不是实际具体的I/O事务，而是表示DataNode和块的文件映射的元数据。当外部客户机发送请求要求创建文件时，NameNode会以块标识和该块的第一个副本的DataNode IP地址作为响应。此NameNode还会通知其他将要接收该块副本的DataNode。

（2）DataNode（数据节点）——文件系统中真正存储数据的地方

DataNode也是一个通常在HDFS实例中的单独机器上运行的软件。DataNode通常以机架的形式组织，机架通过一个交换机将所有系统连接起来。Hadoop的一个假设是：机架内部节点之间的传输速度快于机架间节点的传输速度。

DataNode响应来自HDFS客户机的读写请求。它们还响应来自NameNode的创建、删除和复制块的命令。DataNode每3s向NameNode发送一个心跳（从节点的通信时间间隔）。每10次心跳后，向NameNode发送一条信息，每条消息都包含一个块报告，NameNode可以根据这个报告验证块映射和其他文件系统元数据，确保每个数据块有足够的副本。如果DataNode不能发送心跳消息，NameNode将采取修复措施，重新复制在该节点上丢失的块。过程如图2-2~图2-4所示。

图2-2 HDFS结构

图2-3 HDFS写入数据的流程

图2-4 HDFS读取数据的流程

存储在HDFS中的文件被分成块，然后将这些块复制到多个计算机中。这与传统的RAID架构大不相同。块的大小（通常为64MB）和复制的块数量在创建文件时由客户机决定。NameNode可以控制所有文件操作。HDFS内部的所有通信都基于标准的TCP/IP。

2.3.2 MapReduce体系结构

MapReduce主要包含4个组成部分，分别为Client、Job Tracker、Task Tracker和Task，下面详细介绍这4个组成部分。

（1）Client

每一个Job都会在用户端通过Client类将用户编写的MapReduce程序以及配置参数Configuration打包成JAR文件存储在HDFS，并把路径提交到Job Tracker的Master服务，然后由Master创建每一个Task（即MapTask和Reduce Task）将它们分发到各个Task Tracker服务中去执行。用户可通过Client提供一些接口查看作业的运行状态。

（2）Job Tracker

Job Tracke负责资源监控和作业调度。Job Tracker监控所有Task Tracker与Job的健康状况，一旦发现失败，就将相应的任务转移到其他节点；同时，Job Tracker会跟踪任务的执行进度、资源使用量等信息，并将这些信息告诉任务调度器（Task Scheduler），而调度器会在资源出现空闲时，选择合适的任务使用这些资源。在Hadoop中，任务调度器是一个可插拔的模块，用户可以根据自己的需要设计相应的调度器。

（3）Tas Tracker

Task Tracker会周期性地通过Heartbeat将本节点上资源的使用情况和任务的运行进度汇报给Job Tracker，同时接收Job Tracker发送过来的命令并执行相应的操作（如启动新任务、杀死任务等）。Task Tracker使用“slot”等量划分本节点上的资源量。slot代表计算资源（CPU、内存等）。一个Task获取到一个slot后才有机会运行，而Hadoop调度器的作用就是将各个Task Tracker上的空闲slot分配给Task使用。slot分为Map slot和Reduce slot两种，分别供Map Task和Reduce Task使用。Task Tracker通过slot数目限定Task的并发度。

（4）Task

Task分为Map Task和Reduce Task两种，均由Task Tracker启动。HDFS以固定大小的block为基本单位存储数据，而对于MapReduce而言，其处理单位是split。split是一个逻辑概念，它只包含一些元数据信息，比如数据起始位置、数据长度、数据所在节点等。它的划分方法完全由用户自己决定。需要注意的是，split的多少决定了Map Task的数目，因为每个split只会交给一个Map Task处理。Map Task执行过程如图2-5所示。

图2-5 Map Task执行过程

由图2-5可知，Map Task先将对应的split迭代解析成一个个key/value对，依次调用用户自定义的map()函数进行处理，最终将临时结果存放到本地磁盘上，其中临时数据被分成若干个partition，每个partition被一个Reduce Task处理。Reduce Task执行过程如图2-6所示。

图2-6 Reduce Task执行过程

上述过程分为三个阶段。Shuffle阶段：从远程节点上读取Map Task中间结果。Sort阶段：按照key对key/value对进行排序。Reduce阶段：依次读取< key，value list>，调用用户自定义的reduce()函数处理，并将最终结果存到HDFS上。