根据第2章中对数据采集模块的整体分析,用户行为数据的主要表现就是用户行为日志,所以本章主要采集的数据就是用户行为日志。在介绍如何采集用户行为日志之前,首先将讲解用户行为日志是如何生成的,生成的日志数据又是什么格式的,本项目在不对接真实在线教育项目的前提下又是如何获取海量日志数据的。对于采集部分,将围绕两个重要框架展开——Kafka和Flume。如何发挥好Kafka的消息中间件的作用,以及如何根据需求选定合适的Flume组件,将是我们要重点解决的问题。 9F+mWtoIbss5kTBYW0KiQ7yePAd53MHZC7pA/ov7w7Qh4B+NiULdYRBvsAPN9F3O