企业级大数据项目实战：用户搜索行为分析系统从0到1最新章节_张伟洋著

1.2　项目数据流设计

为了实现项目需求，我们需要搭建大数据分析系统，对海量数据进行分析与计算。项目需求涉及离线计算和实时计算，由于Spark是一个基于内存计算的快速通用计算系统，既拥有离线计算组件又拥有实时计算组件，因此以Spark为核心进行数据分析会更加容易，且易于维护。整个系统数据流架构的设计如图1-2所示。

从图1-2可以看出，本系统整体上共分为三个模块：数据采集模块、数据分析模块、数据可视化模块。数据分析模块又分为离线分析模块和实时分析模块，这两个模块在本书中都会进行讲解，并且重点讲解实时分析模块。因此，本书的讲解思路及顺序如下：

（1）数据采集模块

（2）数据离线分析模块

（3）数据实时分析模块

（4）数据可视化模块

图1-2　日志分析系统数据流架构设计

读者可按照上述顺序并参考本书的章节逐步进行项目的开发，直到完成并成功运行整个项目。

图1-2所示的日志数据流转步骤如下：

01 在产生日志的每台服务器上安装Flume进行日志采集，然后把各自采集到的日志数据发送给同一个Flume服务器进行日志的合并。

02 将合并后的日志数据以副本的方式分成两路（两路数据相同）：一路进行实时计算，另一路进行离线计算。将需要实时计算的数据发送到实时消息系统Kafka进行中转，将需要离线计算的数据存储到HBase分布式数据库中。

03 使用Spark Streaming作为Kafka的消费者，按批次从Kafka中获取数据进行实时计算，并将计算结果存储于MySQL关系数据库中。

04 使用Spark SQL（或Hive）查询HBase中的日志数据进行离线计算，并将计算结果存储于MySQL关系数据库中。通常的做法是使用两个关系数据库分别存储实时和离线的计算结果。

05 使用WebSocket实时获取MySQL中的数据，然后通过可视化组件（ECharts等）进行实时展示。

06 当用户在前端页面单击以获取离线计算结果时，使用Java Web获取MySQL中的结果数据，然后通过可视化组件（ECharts等）进行展示。