Hadoop大数据分析技术最新章节_迟殿委著_掌阅小说网

下载掌阅APP，畅读海量书库

立即打开

畅读海量书库

扫码下载掌阅APP

2.1 安装独立运行的Hadoop

独立运行的Hadoop可以帮助我们快速运行一个MapReduce官方示例，以了解MapReduce的运行方式。后面的测试和基本命令将会运行在分布式环境下。有些应用，如HBase、Hive需要真实的集群环境。

步骤01 下载Hadoop。

Hadoop 3.2.2的下载地址为：https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.2.2/hadoop-3.2.2.tar.gz。

步骤02 解压并配置环境。

以hadoop用户登录，并在/home/hadoop的主目录下创建一个目录，用于安装Hadoop。

上传Hadoop压缩包，并解压到program目录下：

配置Java环境变量，修改Hadoop解压目录下的/etc/hadoop/hadoop-env.sh文件，找到${JAVA_HOME}并将其设置为本机JAVA_HOME的地址。

配置Hadoop环境变量：

注意： 由于这里是用hadoop用户登录的，只配置了hadoop用户的环境变量，这种情况下，这种配置只会让当前用户可用。读者可以根据自己的要求进行配置。比如：如果配置到/etc/profile文件中，则是整个系统都可以使用环境变量，这种情况下，就不要将Hadoop安装到某个用户的主目录下了。

让环境变量生效：

输入hadoop命令，查看Hadoop的版本：

步骤03 独立运行MapReduce。

Hadoop可以运行在一个非分布式的环境下，即可以运行为一个独立的Java进程。下面尝试运行一个WordCount的MapReduce示例。

创建一个任意的文本文件，并输入一行英文单词：

执行WordCount测试：

命令执行成功后，会显示以下信息，注意输出的日志会比较多，请仔细查找。

命令说明：

· hadoop jar用于执行一个MapReduce示例。在Linux中，如果命令有多行，可以通过输入“\”（斜线）换行。注意“\”前面必须有空格。

· hadoop-mapreduce-examples-3.2.2.jar为官方提供的示例程序包，WordCount是执行的任务，～/a.txt是输入的目录或文件，～/out是程序执行成功以后的输出目录。

程序执行成功以后，进入out输出目录，查看输出目录中的数据文件，其中part-r-0000为数据文件。_SUCCESS为标识成功的文件，里面没有数据。

通过cat查看part-r-00000文件中的数据，可以看到已经对a.txt中单词进行了数量统计，且默认排序为字母的顺序，字母后面跟的是此单词出现的次数。

可见，已经对<input>目录中文件中的数据进行统计。至此，独立运行模式的Hadoop系统已经安装完成。

Hadoop独立运行方式只是一个练习环境，在正式生产环境中，不会使用这种方式。这里只是让读者了解一下MapReduce的运行。而且在此模式下，Hadoop的HDFS不会运行，也不会存储数据。

点击中间区域
呼出菜单

购买书籍时，会优先扣除您的代金券，再扣除阅饼；当您的余额不足时，可使用微信或支付宝支付，补足差价；
连载书籍勾选自动购买下一章后，会自动扣费，已购章节不会重复扣费；
书籍购买记录请至我的—购书记录中查询

上一章

目录

下一章

×