购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.3 项目业务概述

2.3.1 数据采集模块业务描述

本项目的数据采集模块主要对业务数据进行采集,如图2-3所示为数据采集模块数据流程图。

图2-3 数据采集模块数据流程图

业务数据就是各企业在处理业务的过程中产生的数据,如用户在电商网站中注册、下单、支付等过程中产生的数据。业务数据通常存储在MySQL、Oracle、SQL Server等关系数据库中,并且此类数据是结构化的。那么,为什么不能直接对业务数据库中的数据进行操作,而要将其采集到数据仓库中呢?实际上,在数据仓库技术出现之前,对业务数据的分析采用的就是简单的“直接访问”方式,但是这种访问方式产生了很多问题,例如,某些业务数据出于安全性考虑不能被直接访问、误用业务数据对系统造成影响、分析工作对业务系统的性能产生影响。

在采集业务数据时需要注意以下几点。首先,需要根据现有需求和未来的业务需求,明确抽取的数据表,以及必须抽取的字段。其次,确定抽取方式,包括从源系统联机抽取或间接从一个脱机结构抽取数据。最后,根据数据表性质的不同制订不同的数据抽取策略(全量抽取或增量抽取)。在本数据仓库项目中,全量抽取的业务数据表使用DataX采集,直接落盘至HDFS。增量抽取的数据表采用Maxwell监控数据变化并及时采集发送至Kafka,再通过Flume将Kafka中的数据落盘至HDFS。

2.3.2 数据仓库需求业务描述

1.数据仓库分层建模

数据仓库被分为四层,其结构如图2-4所示,详细描述如下。

● 原始数据层(Operation Data Store,ODS):用来存放原始数据,直接装载原始数据,数据保持原貌不做处理。

● 公共维度层(Dimension,DIM):基于维度建模理论进行构建,用来存放维度模型中的维度表,保存一致性维度信息。

● 明细数据层(Data Warehouse Detail,DWD):基于维度建模理论进行构建,用来存放维度模型中的事实表,保存各业务过程最细粒度的操作记录。

● 数据应用层(Application Data Service,ADS):也有人将这层称为App层、DAL层、DM层等。其面向实际的数据需求,以DWD层、DWS层的数据为基础,组成各种统计报表,统计结果最终被同步到关系数据库(如MySQL)中,以供BI应用系统查询使用。

图2-4 数据仓库分层结构

2.需求实现

本数据仓库项目要实现的主要需求如下。

(1)待审/在审项目主题。

● 截至当日各业务方向/各部门/各业务经办/各信审经办/各行业处于新建状态项目数。

● 截至当日各业务方向/各部门/各业务经办/各信审经办/各行业处于新建状态项目申请金额。

● 截至当日各业务方向/各部门/各业务经办/各信审经办/各行业处于未达风控状态项目数。

● 截至当日各业务方向/各部门/各业务经办/各信审经办/各行业处于未达风控状态项目申请金额。

● 截至当日各业务方向/各部门/各业务经办/各信审经办/各行业处于信审经办审核通过状态项目数。

● 截至当日各业务方向/各部门/各业务经办/各信审经办/各行业处于信审经办审核通过状态项目申请金额。

● 截至当日各业务方向/各部门/各业务经办/各信审经办/各行业处于已提交业务反馈状态项目数。

● 截至当日各业务方向/各部门/各业务经办/各信审经办/各行业处于已提交业务反馈状态项目申请金额。

● 截至当日各业务方向/各部门/各业务经办/各信审经办/各行业处于一级评审通过状态项目数。

● 截至当日各业务方向/各部门/各业务经办/各信审经办/各行业处于一级评审通过状态项目申请金额。

● 截至当日各业务方向/各部门/各业务经办/各信审经办/各行业处于二级评审通过状态项目数。

● 截至当日各业务方向/各部门/各业务经办/各信审经办/各行业处于二级评审通过状态项目申请金额。

● 截至当日各业务方向/各部门/各业务经办/各信审经办/各行业处于项目评审会审核通过状态项目数。

● 截至当日各业务方向/各部门/各业务经办/各信审经办/各行业处于项目评审会审核通过状态项目申请金额。

● 截至当日各业务方向/各部门/各业务经办/各信审经办/各行业处于总经理/分管总审核通过状态项目数。

● 截至当日各业务方向/各部门/各业务经办/各信审经办/各行业处于总经理/分管总审核通过状态项目申请金额。

● 截至当日各业务方向/各部门/各业务经办/各信审经办/各行业处于已出具批复状态项目数。

● 截至当日各业务方向/各部门/各业务经办/各信审经办/各行业处于已出具批复状态项目申请金额。

● 截至当日各业务方向/各部门/各业务经办/各信审经办/各行业处于已出具批复状态项目批复金额。

(2)已审项目主题。

● 截至当日各业务方向/各部门/各业务经办/各信审经办/各行业审批通过项目数。

● 截至当日各业务方向/各部门/各业务经办/各信审经办/各行业审批通过项目申请金额。

● 截至当日各业务方向/各部门/各业务经办/各信审经办/各行业审批通过项目批复金额。

● 截至当日各业务方向/各部门/各业务经办/各信审经办/各行业取消项目数。

● 截至当日各业务方向/各部门/各业务经办/各信审经办/各行业取消项目申请金额。

● 截至当日各业务方向/各部门/各业务经办/各信审经办/各行业拒绝项目数。

● 截至当日各业务方向/各部门/各业务经办/各信审经办/各行业拒绝项目申请金额。

(3)已审项目转化主题。

● 截至当日审批结束项目数。

● 截至当日审批结束项目申请金额。

● 截至当日审批通过项目数。

● 截至当日审批通过项目申请金额。

● 截至当日审批通过项目批复金额。

● 截至当日新增授信项目数。

● 截至当日新增授信项目申请金额。

● 截至当日新增授信项目批复金额。

● 截至当日新增授信项目授信金额。

● 截至当日完成授信占用项目数。

● 截至当日完成授信占用项目申请金额。

● 截至当日完成授信占用项目批复金额。

● 截至当日完成授信占用项目授信金额。

● 截至当日完成合同制作项目数。

● 截至当日完成合同制作项目申请金额。

● 截至当日完成合同制作项目批复金额。

● 截至当日完成合同制作项目授信金额。

● 截至当日签约项目数。

● 截至当日签约项目申请金额。

● 截至当日签约项目批复金额。

● 截至当日签约项目授信金额。

● 截至当日起租项目数。

● 截至当日起租项目申请金额。

● 截至当日起租项目批复金额。

● 截至当日起租项目授信金额。

现要求将全部需求实现的结果数据存储在 ADS 层,并且编写可用于工作调度的脚本,实现任务自动调度。

2.3.3 数据可视化业务描述

数据可视化是指将数据或信息转换为页面中的可见对象,如点、线、图形等,其目的是将信息更加清晰、有效地传递给用户,是数据分析的关键技术之一。通过使用数据可视化,企业可以更加快速地找到数据中隐藏的有价值的信息,最大限度地提高信息变现效率,让数据的价值实现最大化。

数据仓库项目中的数据可视化业务通常指的是需求实现后得到的结果数据的最终展示,目前常用的数据可视化工具有Superset、DataV、FineBI、ECharts等,它们都需要对接关系数据库,因此我们需要将需求计算的结果数据导出到关系数据库中。

在MySQL中,根据ADS层的结果数据创建对应的表,使用DataX工具定时将结果数据导出到MySQL中,并使用数据可视化工具对数据进行展示,如图2-5所示。

图2-5 数据可视化 rD0uTZEXuGKPKpxYP3uYkUPSf6qFVxoa7H8KtGpWpR+7nciqNHsf0hwxE14S2qyt

点击中间区域
呼出菜单
上一章
目录
下一章
×