购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.2.3 系统流程图

数据仓库系统主要流程如图2-2所示。

图2-2 数据仓库系统主要流程

前端埋点用户行为数据被日志服务器落盘到本地文件夹,在每一台日志服务器启动一个Flume进程监控用户行为日志文件夹的变动,并将日志数据进行初步分类,发送给Kafka集群,再配置消费层Flume对Kafka中的数据进行消费,落盘到HDFS文件系统中。

业务交互数据则需要根据表格的性质,制定出适合的数据同步方案,选用适当的数据同步工具,将数据采集至HDFS文件系统中。

数据到达HDFS之后,需要进行多种转换操作,最重要的是需要对数据进行初步清洗、统一格式、提取必要信息、脱敏等操作。为了数据的计算更加高效、数据的复用性更高,我们还需要对数据进行分层。最终将得到的结果数据导出到MySQL中,方便进行可视化展示。 d0zLVe72qLLQ3grRtoLWZOvWFoEqM9xoI558Y0MS3Di/mZkxL3vqHLlLOXFfnjMu

点击中间区域
呼出菜单
上一章
目录
下一章
×