本书将带领读者完成一个完整的数据仓库搭建及需求实现项目,大致可以划分为:数据仓库概论、项目需求和框架讲解,项目框架搭建,以及项目需求实现。
在项目需求和框架讲解部分,本书对数据仓库的架构知识进行了重点讲解,并着重分析了数据仓库应该满足的重要功能需求,读者可以全面地了解一个数据仓库项目的具体需求,以及根据需求如何完成框架选型的过程。
在项目框架搭建部分,读者将跟随本书从操作系统开始,一步步搭建自己的虚拟机系统,了解各框架的基本知识,完成各框架的基本配置,最终形成一个可以正常运行的大数据虚拟机系统。完成本部分学习,需要读者掌握必要的Linux系统操作常识,经过这部分学习之后,相信读者也能增进对Linux系统的理解。
在项目需求实现部分,本书将从用户行为数据采集模块、业务数据采集模块、数据仓库搭建模块、全流程自动调度模块、可视化展示模块5个方面对需求进行实现。读者通过本部分的学习,将会了解在线教育行业的数据仓库系统是如何一步步从源数据到结果数据的,同时还能有针对性地了解数据仓库的关键理论知识,掌握DataX、Flume、Maxwell等大数据工具的实战应用技巧,全景式了解数据仓库。本部分还对在线教育数据仓库的常见实战指标,以及难点实战指标进行了透彻讲解,如每日活跃用户、回流用户、流式用户、完课人数、完课率、考试统计等。
通过对数据仓库系统的学习,读者能够对数据仓库项目建立起清晰、明确的概念,系统、全面地掌握各项数据仓库项目技术,轻松应对各种数据仓库的难题。