主要内容:
❖ 安装独立运行的Hadoop。
❖ Hadoop伪分布式的安装与配置。
❖ HDFS的命令。
❖ Java操作HDFS。
Hadoop的运行方式可以分为三种:
· 独立运行的Hadoop,不提供HDFS存储服务,也不需要启动任何的后台守护进程,但可以直接在本地运行MapReduce程序,并将输出结果保存到本地磁盘上。
· 伪分布式运行的Hadoop,一般是指只有一台服务器的Hadoop运行环境,需要启动NameNode(主节点存储服务)、SecondaryNameNode(主节点日志数据备份服务)可提供HDFS存储服务。启动守护进程ResourceManager和NodeManager运行MapReduce程序并将结果输出到HDFS上。
· 集群运行的Hadoop。可用于生产环境的高可用集群。借助ZooKeeper实现宕机容灾和自动切换。
为了快速上手Hadoop,我们会运行一个独立的MapReduce。独立运行的MapReduce可读取本地文本文件,然后将输出的数据保存到本地磁盘上。
注意: 本书后面的环境,都将使用CentOS7、JDK 1.8_x64和Hadoop 3.2.2作为基础环境。