Hadoop大数据技术开发实战最新章节_张伟洋著

5.5　案例分析：求平均分

本例通过对输入文件中的学生三科成绩进行计算，得出每个学生的平均成绩。输入文件中的每行内容均为一个学生的姓名和其相应的成绩，每门学科为一个文件。要求输出结果中每行有两个数据，其中第一个代表学生的姓名，第二个代表其平均成绩。

输入的三个文件内容如下：

math.txt：

chinese.txt：

english.txt：

期望输出结果如下：

1. 设计思路

根据MapReduce的工作原理可知，Map任务最终处理的结果对<key,value>会送到Reduce任务进行合并，具有相同key的<key,value>对则会送到同一个 Reduce任务中进行处理，即Reduce任务处理的数据是key和这个key对应的所有value的一个集合（value-list）。

MapReduce经典的WordCount（单词计数）例子是将接收到的每一个value-list进行求和，进而得到所需的结果。而本例中，我们将Reduce任务接收到的value-list进行求平均分后，作为输出的value值即可，输出的key值仍然为接收到的key。

整个求平均分的流程如图5-9所示。