购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.3.2 数据仓库需求业务描述

1.数据分层建模

数据仓库被分为5层,详细描述如下。

·ODS层:原始数据层,存放原始数据,直接加载原始日志、数据,数据保持原貌不做处理。

·DIM层:维度数据层,基于维度建模理论进行构建,存放维度模型中的维度表,保存一致性维度信息。

·DWD层:明细数据层,基于维度建模理论进行构建,存放维度模型中的事实表,保存各业务过程最小粒度的操作记录。

·DWS层:汇总数据层,基于上层的指标需求,以分析的主题对象作为建模驱动,构建公共统计粒度的汇总表。

·ADS层:数据应用层,也有人把这层称为App层、DAL层、DM层等。面向实际的数据需求,以DWD层、DWS层的数据为基础,组成各种统计报表,统计结果最终同步到关系型数据库,如MySQL,以供BI或应用系统查询使用。

2.需求实现

在线教育业务发展日益成熟,但是如果缺少精细化运营的意识和数据驱动的经验,那么发展将会陷入瓶颈。作为数据分析的重要工具——数据仓库的作用就是为运营人员和决策团队提供关键指标的分析数据。本数据仓库项目的数据分析工作主要关注7大主题的关键数据指标:流量主题、用户主题、课程主题、交易主题、考试主题、播放主题和完课主题。本项目中要求实现的主要需求如下。

(1)流量主题。

·最近1/7/30日各来源访客数、会话平均停留时长、会话平均浏览页面数、总会话数。

·最近1/7/30日各来源跳出率。

·最近1/7/30日页面浏览路径分析。

·最近1/7/30日各来源下单统计。

(2)用户主题。

·流失用户数。

·回流用户数。

·用户留存率。

·新增用户数。

·活跃用户数。

·用户行为漏斗分析。

·新增交易人数。

·各年龄段的下单用户数。

(3)课程主题

·最近1/7/30日各分类的下单数、下单人数、下单金额。

·最近1/7/30日各学科的下单数、下单人数、下单金额。

·最近1/7/30日各课程的下单数、下单人数、下单金额。

·最近1/7/30日各课程的用户平均评分、评价用户数、用户好评率。

·最近1至7日各分类的试听人数、试听留存率。

·最近1至7日各学科的试听人数、试听留存率。

·最近1至7日各课程的试听人数、试听留存率。

(4)交易主题

·最近1/7/30日下单总额、下单数、下单人数。

·最近1/7/30日各来源的下单数、下单人数、下单金额。

(5)考试主题

·最近1/7/30日各试卷的平均分、平均答题时长、答题用户数。

·最近1/7/30日各课程的平均分、平均答题时长、答题用户数。

·最近1/7/30日各试卷在各个分数区间的用户数。

·最近1/7/30日各题目的正确率。

(6)播放主题

·最近1/7/30日各章节视频播放次数、人均观看时长、观看人数。

·最近1/7/30日各课程视频播放次数、观看人数。

(7)完课主题

·最近1/7/30日各课程的完课人数统计。

·最近1/7/30日总完课人数统计。

·最近1/7/30日总完课人次统计。

要求将全部需求实现的结果数据存储在ADS层,并且完成可用于工作调度的脚本,实现任务的自动调度。 SkctXo2CXEh4xHMFiXJJ+tFHvdoKQBA0h5F0HyJKZv2iLYLfM9gyy8F4lfWcfoxX

点击中间区域
呼出菜单
上一章
目录
下一章
×