Hadoop大数据技术开发实战最新章节_张伟洋著

3.5　搭建Hadoop 2.x分布式集群

本例的搭建思路是，在节点centos01中安装Hadoop并修改配置文件，然后将配置好的Hadoop安装文件远程复制到集群中的其他节点。集群各节点的角色分配如表3-1所示。

表3-1　Hadoop集群角色分配

表3-1中的角色指的是Hadoop集群各节点所启动的守护进程，其中的NameNode、DataNode和SecondaryNameNode是HDFS集群所启动的进程（HDFS将在第4章进行详细讲解）；ResourceManager和NodeManager是YARN集群所启动的进程。

Hadoop集群搭建的操作步骤如下。

1. 上传Hadoop并解压

在centos01节点中，将Hadoop安装文件hadoop-2.8.2.tar.gz上传到/opt/softwares/目录，然后进入该目录，解压安装文件到/opt/modules/，命令如下：

2. 配置系统环境变量

为了可以方便地在任意目录下执行Hadoop命令，而不需要进入到Hadoop安装目录，需要配置Hadoop系统环境变量。此处只需要配置centos01节点即可。

执行以下命令，修改文件/etc/profile：

在文件末尾加入以下内容：

执行以下命令，刷新profile文件，使修改生效。

执行hadoop命令，若能成功输出以下返回信息，说明Hadoop系统变量配置成功：

3. 配置Hadoop环境变量

Hadoop所有的配置文件都存在于安装目录下的etc/hadoop中，进入该目录，修改以下配置文件：

三个文件分别加入JAVA_HOME环境变量，如下：

4. 配置HDFS

（1）修改配置文件core-site.xml，加入以下内容：

上述配置属性解析如下：

fs.defaultFS：HDFS的默认访问路径，也是NameNode的访问地址。
hadoop.tmp.dir：Hadoop数据文件的存放目录。该参数如果不配置，默认指向/tmp目录，而/tmp目录在系统重启后会自动被清空，从而导致Hadoop的文件系统数据丢失。

（2）修改配置文件hdfs-site.xml，加入以下内容：

上述配置属性解析如下：

dfs.replication：文件在HDFS系统中的副本数。
dfs.namenode.name.dir：NameNode节点数据在本地文件系统的存放位置。
dfs.datanode.data.dir：DataNode节点数据在本地文件系统的存放位置。

（3）修改slaves文件，配置DataNode节点。slaves文件原本无任何内容，需要将所有DataNode节点的主机名都添加进去，每个主机名占一整行（注意不要有空格）。本例中，DataNode为三个节点，配置信息如下：

5. 配置YARN

（1）重命名mapred-site.xml.template文件为mapred-site.xml，修改mapred-site.xml文件，添加以下内容，指定任务执行框架为YARN。

（2）修改yarn-site.xml文件，添加以下内容：

上述配置属性解析如下：

yarn.nodemanager.aux-services：NodeManager上运行的附属服务，需配置成mapreduce_shuffle才可运行MapReduce程序。YARN提供了该配置项用于在NodeManager上扩展自定义服务，MapReduce的Shuffle功能正是一种扩展服务。

也可以继续在yarn-site.xml文件中添加以下属性内容，指定ResourceManager所在的节点与访问端口（默认端口为8032），此处指定ResourceManager运行在centos01节点：

若不添加上述内容，ResourceManager将默认在执行YARN启动命令（start-yarn.sh）的节点上启动。

6. 复制Hadoop安装文件到其他主机

在centos01节点上，将配置好的整个Hadoop安装目录复制到其他节点（centos02和centos03），命令如下：

7. 格式化NameNode

启动Hadoop之前，需要先格式化NameNode。格式化NameNode可以初始化HDFS文件系统的一些目录和文件，在centos01节点上执行以下命令，进行格式化操作：

若能输出以下信息，说明格式化成功：

格式化成功后，会在当前节点的Hadoop安装目录中生成tmp/dfs/name/current目录，该目录中则生成了用于存储HDFS文件系统元数据信息的文件fsimage（关于元数据文件将在下一章进行详细讲解），如图3-8所示。

图3-8　格式化NameNode后生成的相关文件

需要注意的是，必须在NameNode所在节点上进行格式化操作。

8. 启动Hadoop

在centos01节点上执行以下命令，启动Hadoop集群：

也可以执行start-dfs.sh和start-yarn.sh分别启动HDFS集群和YARN集群。

Hadoop安装目录下的sbin目录中存放了很多启动脚本，若由于内存等原因使集群中的某个守护进程宕掉了，可以执行该目录中的脚本对相应的守护进程进行启动。常用的启动和停止脚本及说明如表3-2所示。

表3-2　Hadoop启动和停止脚本及说明

注意

①若不配置SecondaryNameNode所在的节点，将默认在执行HDFS启动命令（start-dfs.sh）的节点上启动；②若不配置ResourceManager所在的节点，将默认在执行YARN启动命令（start-yarn.sh）的节点上启动；若配置了ResourceManager所在的节点，则必须在所配置的节点启动YARN，否则在其他节点启动时将抛出异常；③NodeManager无须配置，会与DataNode在同一个节点上，以获取任务执行时的数据本地性优势，即有DataNode的节点就会有NodeManager。