1.动手实战和调试Spark文件操作
我们以指定executor-memory参数的方式启动spark-shell:
在命令行中我们指定了spark-shell运行时暂用的每个机器上executor的内存为1 GB大小,启动成功后查看Web页面,如图4-15所示。
图4-15 查看Web页面
从HDFS上读取文件:
我们读取的是HDFS上README.md文件,这是在前面的章节中上传上去的文件,如图4-16所示。
图4-16 读取HDFS上README.md文件
在命令行中返回的是MappedRDD,使用toDebugString可以查看其lineage的关系:
可以看出MappedRDD是从HadoopRDD转换而来的,下面是textFile的源代码:
hadoopFile这个方法返回的是一个HadoopRDD,源码如下所示。
而map方法产生的是一个MappedRDD:
下面进行一个简单的wordcount操作:
再次使用toDebugString查看一下其依赖关系:
2.动手实战操作搜狗日志文件
本节中所用到的内容来自搜狗实验室,网址为:
http://www.sogou.com/labs/dl/q.html。
用户可以根据自己的Spark机器实际的内存配置等情况选择下载不同的数据版本,为了让所有的学习者都可以成功操作日志,我们使用迷你版本的tar.gz格式的文件,其大小为87 KB,下载后如图4-17所示。
图4-17 SogouQ2012.mini.tar.gz
打开该文件,其内容如图4-18所示。
图4-18 文件内容
该文件的格式如下所示。
访问时间\t用户ID\t查询词\t该URL在返回结果中的排名\t用户点击的顺序号\t用户点击的URL
把文件解压:
把解压后的文件上传到HDFS的data目录下:
从Web控制台上查看一下上传的文件,如图4-19所示。
图4-19 查看上传的文件
单击打开该文件,如图4-20所示。
图4-20 文件内的信息
成功上传了该文件。
接下来,我们使用Spark获得搜索结果排名第一同时点击结果排名也是第一的数据量,也就是第四列值为1同时第五列的值也为1的总共记录的个数。
先读取SogouQ.mini文件:
可以看到其中一共是2000条数据。
首先过滤出有效的数据:
可以发现该文件中的数据都是有效数据。
下面使用Spark获得搜索结果排名第一同时点击结果排名也是第一的数据量:
可以发现搜索结果排名第一同时点击结果排名也是第一的数据量为794条。
使用toDebugString查看一下其lineage:
3.搜狗日志文件深入实战
下面看session查询次数排行榜:
把结果保存在HDFS上:
到Web控制台上查看结果,如图4-21所示。
图4-21 查看结果
查看数据,如图4-22所示。
图4-22 查看数据
我们通过Hadoop命令把上述两个文件的内容合并起来:
查看一下合并后的本地文件:
使用head命令查看其具体内容:
可以看出按照我们的要求查询出来session排名。