1.动手实战reduce、lookup
reduce本身在RDD操作中属于一个action类型的操作,会导致Job的提交和执行:
下面看一下lookup的使用:
2.动手实战take、saveAsTextFile
进行Join操作时,我们在HDFS中上传两个文件,并将其放在/data/join/文件夹下,如图4-10所示。
图4-10 将文件放在/data/join/文件夹下
打开第一个文件,第一列是日期,第二列是UUID,如图4-11所示。
打开第二个文件,第一列是日期,第二列是UUID,如图4-12所示。
图4-11 第一个文件夹的内容
图4-12 第二个文件夹的内容
首先在命令行中设置日期格式:
然后声明两个case class:
首先读取第一个文件并进行操作:
该操作首先读取文件的内容,然后以Tab键进行分词,接着以第二列为key,每一行的所有内容为Value构建起的Register作为Value的值。
对第二个文件进行类似的操作:
下面对文件执行join操作:
取出join操作的结果:
或者把执行结果保存起来:
到Web控制台上查看执行结果,如图4-13所示。
图4-13 在Web控制台上查看执行结果
查看一下其执行结果,如图4-14所示。
图4-14 执行结果