购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第3章
用户行为数据采集模块开发

一般情况下,用户行为数据会以日志文件的方式存放于服务器中,而且对于大型网站来说,多台服务器中每天都会写入大量的用户行为日志数据。如何对这些大量的数据进行计算分析?首先就是对多台服务器上的数据进行采集,并将采集到的数据统一存放在大数据平台中(普通平台无法进行大数据分析),例如HDFS。实时分析则需要将采集到的数据存放于消息中转系统(例如Kafka)中,以减轻数据传输的压力。

本章通过实操讲解“用户搜索行为分析系统”的数据采集模块的开发,重点讲解Flume的安装与测试、Flume多节点的数据采集,并整合Kafka与HBase,将采集的数据写入Kafka和HBase中完成数据的流转与输出。关于系统数据的流转,在1.2节已经详细讲过。

本章目标:

掌握Flume的安装与测试

掌握Flume多节点数据采集的配置

掌握ZooKeeper集群的搭建

掌握Kafka集群的搭建

掌握Flume与Kafka的集成

掌握Flume数据实时写入Kafka的操作

掌握HBase集群的搭建

掌握HBase表的基本操作

掌握Flume与HBase的集成

掌握Flume数据实时写入HBase的操作 I45MdZEL0RUuqfo7dO7h43GqO4QYn+mlUSCU/e9pdnu4htx0NAwHS2fJf5ZbpFLD

点击中间区域
呼出菜单
上一章
目录
下一章
×