第3章
用户行为数据采集模块开发

一般情况下，用户行为数据会以日志文件的方式存放于服务器中，而且对于大型网站来说，多台服务器中每天都会写入大量的用户行为日志数据。如何对这些大量的数据进行计算分析？首先就是对多台服务器上的数据进行采集，并将采集到的数据统一存放在大数据平台中（普通平台无法进行大数据分析），例如HDFS。实时分析则需要将采集到的数据存放于消息中转系统（例如Kafka）中，以减轻数据传输的压力。

本章通过实操讲解“用户搜索行为分析系统”的数据采集模块的开发，重点讲解Flume的安装与测试、Flume多节点的数据采集，并整合Kafka与HBase，将采集的数据写入Kafka和HBase中完成数据的流转与输出。关于系统数据的流转，在1.2节已经详细讲过。

本章目标：

掌握Flume的安装与测试

掌握Flume多节点数据采集的配置

掌握ZooKeeper集群的搭建

掌握Kafka集群的搭建

掌握Flume与Kafka的集成

掌握Flume数据实时写入Kafka的操作

掌握HBase集群的搭建

掌握HBase表的基本操作

掌握Flume与HBase的集成

掌握Flume数据实时写入HBase的操作

第3章 用户行为数据采集模块开发

第3章
用户行为数据采集模块开发