购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.1 安装独立运行的Hadoop

独立运行的Hadoop可以帮助我们快速运行一个MapReduce官方示例,以了解MapReduce的运行方式。后面的测试和基本命令将会运行在分布式环境下。有些应用,如HBase、Hive需要真实的集群环境。

步骤01 下载Hadoop。

Hadoop 3.2.2的下载地址为:https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.2.2/hadoop-3.2.2.tar.gz。

步骤02 解压并配置环境。

以hadoop用户登录,并在/home/hadoop的主目录下创建一个目录,用于安装Hadoop。

上传Hadoop压缩包,并解压到program目录下:

配置Java环境变量,修改Hadoop解压目录下的/etc/hadoop/hadoop-env.sh文件,找到${JAVA_HOME}并将其设置为本机JAVA_HOME的地址。

配置Hadoop环境变量:

注意: 由于这里是用hadoop用户登录的,只配置了hadoop用户的环境变量,这种情况下,这种配置只会让当前用户可用。读者可以根据自己的要求进行配置。比如:如果配置到/etc/profile文件中,则是整个系统都可以使用环境变量,这种情况下,就不要将Hadoop安装到某个用户的主目录下了。

让环境变量生效:

输入hadoop命令,查看Hadoop的版本:

步骤03 独立运行MapReduce。

Hadoop可以运行在一个非分布式的环境下,即可以运行为一个独立的Java进程。下面尝试运行一个WordCount的MapReduce示例。

创建一个任意的文本文件,并输入一行英文单词:

执行WordCount测试:

命令执行成功后,会显示以下信息,注意输出的日志会比较多,请仔细查找。

命令说明:

· hadoop jar用于执行一个MapReduce示例。在Linux中,如果命令有多行,可以通过输入“\”(斜线)换行。注意“\”前面必须有空格。

· hadoop-mapreduce-examples-3.2.2.jar为官方提供的示例程序包,WordCount是执行的任务,~/a.txt是输入的目录或文件,~/out是程序执行成功以后的输出目录。

程序执行成功以后,进入out输出目录,查看输出目录中的数据文件,其中part-r-0000为数据文件。_SUCCESS为标识成功的文件,里面没有数据。

通过cat查看part-r-00000文件中的数据,可以看到已经对a.txt中单词进行了数量统计,且默认排序为字母的顺序,字母后面跟的是此单词出现的次数。

可见,已经对<input>目录中文件中的数据进行统计。至此,独立运行模式的Hadoop系统已经安装完成。

Hadoop独立运行方式只是一个练习环境,在正式生产环境中,不会使用这种方式。这里只是让读者了解一下MapReduce的运行。而且在此模式下,Hadoop的HDFS不会运行,也不会存储数据。 VS9GUTLGuKy3W3nXDMABfol2m5i7VlUsAWKn7Nj2AnIYyQh/sCiyGvOZs/cp1I4l

点击中间区域
呼出菜单
上一章
目录
下一章
×