大数据Spark企业级实战最新章节_Spark亚太研究院著_掌阅小说网

下载掌阅APP，畅读海量书库

立即打开

畅读海量书库

扫码下载掌阅APP

4.4 Spark API综合实战

1.动手实战和调试Spark文件操作

我们以指定executor-memory参数的方式启动spark-shell：

在命令行中我们指定了spark-shell运行时暂用的每个机器上executor的内存为1 GB大小，启动成功后查看Web页面，如图4-15所示。

图4-15 查看Web页面

从HDFS上读取文件：

我们读取的是HDFS上README.md文件，这是在前面的章节中上传上去的文件，如图4-16所示。

图4-16 读取HDFS上README.md文件

在命令行中返回的是MappedRDD，使用toDebugString可以查看其lineage的关系：

可以看出MappedRDD是从HadoopRDD转换而来的，下面是textFile的源代码：

hadoopFile这个方法返回的是一个HadoopRDD，源码如下所示。

而map方法产生的是一个MappedRDD：

下面进行一个简单的wordcount操作：

再次使用toDebugString查看一下其依赖关系：

2.动手实战操作搜狗日志文件

本节中所用到的内容来自搜狗实验室，网址为：

http://www.sogou.com/labs/dl/q.html。

用户可以根据自己的Spark机器实际的内存配置等情况选择下载不同的数据版本，为了让所有的学习者都可以成功操作日志，我们使用迷你版本的tar.gz格式的文件，其大小为87 KB，下载后如图4-17所示。

图4-17 SogouQ2012.mini.tar.gz

打开该文件，其内容如图4-18所示。

图4-18 文件内容

该文件的格式如下所示。

访问时间\t用户ID\t查询词\t该URL在返回结果中的排名\t用户点击的顺序号\t用户点击的URL

把文件解压：

把解压后的文件上传到HDFS的data目录下：

从Web控制台上查看一下上传的文件，如图4-19所示。

图4-19 查看上传的文件

单击打开该文件，如图4-20所示。

图4-20 文件内的信息

成功上传了该文件。

接下来，我们使用Spark获得搜索结果排名第一同时点击结果排名也是第一的数据量，也就是第四列值为1同时第五列的值也为1的总共记录的个数。

先读取SogouQ.mini文件：

可以看到其中一共是2000条数据。

首先过滤出有效的数据：

可以发现该文件中的数据都是有效数据。

下面使用Spark获得搜索结果排名第一同时点击结果排名也是第一的数据量：

可以发现搜索结果排名第一同时点击结果排名也是第一的数据量为794条。

使用toDebugString查看一下其lineage：

3.搜狗日志文件深入实战

下面看session查询次数排行榜：

把结果保存在HDFS上：

到Web控制台上查看结果，如图4-21所示。

图4-21 查看结果

查看数据，如图4-22所示。

图4-22 查看数据

我们通过Hadoop命令把上述两个文件的内容合并起来：

查看一下合并后的本地文件：

使用head命令查看其具体内容：

可以看出按照我们的要求查询出来session排名。

点击中间区域
呼出菜单

购买书籍时，会优先扣除您的代金券，再扣除阅饼；当您的余额不足时，可使用微信或支付宝支付，补足差价；
连载书籍勾选自动购买下一章后，会自动扣费，已购章节不会重复扣费；
书籍购买记录请至我的—购书记录中查询

上一章

目录

下一章

×