购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

4.4 Spark API综合实战

1.动手实战和调试Spark文件操作

我们以指定executor-memory参数的方式启动spark-shell:

在命令行中我们指定了spark-shell运行时暂用的每个机器上executor的内存为1 GB大小,启动成功后查看Web页面,如图4-15所示。

图4-15 查看Web页面

从HDFS上读取文件:

我们读取的是HDFS上README.md文件,这是在前面的章节中上传上去的文件,如图4-16所示。

图4-16 读取HDFS上README.md文件

在命令行中返回的是MappedRDD,使用toDebugString可以查看其lineage的关系:

可以看出MappedRDD是从HadoopRDD转换而来的,下面是textFile的源代码:

hadoopFile这个方法返回的是一个HadoopRDD,源码如下所示。

而map方法产生的是一个MappedRDD:

下面进行一个简单的wordcount操作:

再次使用toDebugString查看一下其依赖关系:

2.动手实战操作搜狗日志文件

本节中所用到的内容来自搜狗实验室,网址为:

http://www.sogou.com/labs/dl/q.html。

用户可以根据自己的Spark机器实际的内存配置等情况选择下载不同的数据版本,为了让所有的学习者都可以成功操作日志,我们使用迷你版本的tar.gz格式的文件,其大小为87 KB,下载后如图4-17所示。

图4-17 SogouQ2012.mini.tar.gz

打开该文件,其内容如图4-18所示。

图4-18 文件内容

该文件的格式如下所示。

访问时间\t用户ID\t查询词\t该URL在返回结果中的排名\t用户点击的顺序号\t用户点击的URL

把文件解压:

把解压后的文件上传到HDFS的data目录下:

从Web控制台上查看一下上传的文件,如图4-19所示。

图4-19 查看上传的文件

单击打开该文件,如图4-20所示。

图4-20 文件内的信息

成功上传了该文件。

接下来,我们使用Spark获得搜索结果排名第一同时点击结果排名也是第一的数据量,也就是第四列值为1同时第五列的值也为1的总共记录的个数。

先读取SogouQ.mini文件:

可以看到其中一共是2000条数据。

首先过滤出有效的数据:

可以发现该文件中的数据都是有效数据。

下面使用Spark获得搜索结果排名第一同时点击结果排名也是第一的数据量:

可以发现搜索结果排名第一同时点击结果排名也是第一的数据量为794条。

使用toDebugString查看一下其lineage:

3.搜狗日志文件深入实战

下面看session查询次数排行榜:

把结果保存在HDFS上:

到Web控制台上查看结果,如图4-21所示。

图4-21 查看结果

查看数据,如图4-22所示。

图4-22 查看数据

我们通过Hadoop命令把上述两个文件的内容合并起来:

查看一下合并后的本地文件:

使用head命令查看其具体内容:

可以看出按照我们的要求查询出来session排名。 RFOk+oKYRa5miMHBwSQ9w4tJZxYaxKYETCA0fXr5HCPhmp7a6GcXMdLw1doJbedc

点击中间区域
呼出菜单
上一章
目录
下一章
×