一般情况下,用户行为数据会以日志文件的方式存放于服务器中,而且对于大型网站来说,多台服务器中每天都会写入大量的用户行为日志数据。如何对这些大量的数据进行计算分析?首先就是对多台服务器上的数据进行采集,并将采集到的数据统一存放在大数据平台中(普通平台无法进行大数据分析),例如HDFS。实时分析则需要将采集到的数据存放于消息中转系统(例如Kafka)中,以减轻数据传输的压力。
本章通过实操讲解“用户搜索行为分析系统”的数据采集模块的开发,重点讲解Flume的安装与测试、Flume多节点的数据采集,并整合Kafka与HBase,将采集的数据写入Kafka和HBase中完成数据的流转与输出。关于系统数据的流转,在1.2节已经详细讲过。
本章目标:
掌握Flume的安装与测试
掌握Flume多节点数据采集的配置
掌握ZooKeeper集群的搭建
掌握Kafka集群的搭建
掌握Flume与Kafka的集成
掌握Flume数据实时写入Kafka的操作
掌握HBase集群的搭建
掌握HBase表的基本操作
掌握Flume与HBase的集成
掌握Flume数据实时写入HBase的操作