随着我国互联网普及率的极速增长,在线教育行业也走上了发展的快速轨道,用户量和交易额年年增长。得益于技术的快速发展,庞大的用户群体产生了海量的用户数据,这些数据无序地堆积在企业的服务器中,看起来毫无价值。但是,数据即价值,通过合理地搭建数据仓库,可以帮助企业深度挖掘这些数据的深层价值。数据仓库搭建的目的,就是让用户更方便地访问海量数据,从数据中提取隐藏价值,要做到这一点,数据仓库需要具有时效性、准确性、可访问性和安全性。
1.时效性
基于在线教育企业对数据仓库系统的基本诉求,我们认为数据仓库首先需要做到可以高效地采集不同系统产生的数据。在线教育系统每天产生大量的数据,数据基本分为两类:一类是日志数据,包括用户行为生成的日志数据和系统产生的日志数据;另一类是业务数据。对这两类数据都需要做到快速及时的采集,并且能对采集的数据进行合理分类。另外需要做到的是能为决策者提供数据分析的快速通道,做到这一点需要依靠的是对数据仓库的合理分层及数据建模,以合理的形式对数据仓库进行分割和分析计算,可以使用户和数据仓库的开发人员在较短的时间内得到需要的查询结果。
2.准确性
想要数据仓库实施成功,用户必须信任数据仓库中的数据。数据仓库的搭建过程必须是可靠的,而用户对于数据从哪里来,如何抽取、转换、加载也必须清楚。作为数据仓库的开发人员,需要对数据仓库中的数据质量进行必要把控。
3.可访问性
数据仓库还需要做到的一点是对数据进行合理且及时的展现。数据仓库的最终目的还是为用户提供数据服务,数据仓库最终面向的用户是业务人员、管理人员或者数据分析人员,他们对组织内的相关业务非常熟悉,对数据的理解也很充分,但是他们对数据仓库的使用和搭建往往不是很熟悉。这就要求我们在提供数据接口时,尽量设计得友好和简单,可以让他们轻易获取需要的数据。
4.安全性
数据仓库中的数据有时候包含机密和敏感信息,为了能够使用这些数据,必须建立适当的权限管理机制,只有授权用户才能访问这些数据。增加权限管理机制、提升数据仓库的安全性会影响数据仓库的整体性能。因此,在设计之初就应该提前考虑数据仓库的安全需求,主要进行的安全性考虑有:数据仓库中的数据对于最终用户是只读的、提前划分数据的安全等级、制定权限控制方案、设计权限的授予、回收和变更方法。
本数据仓库项目主要设计源数据采集、数据分层搭建、任务定时调度和数据可视化等重点功能模块。通过以上模块,本数据仓库项目可以满足以上基本业务需求,做到对数据的及时高效采集,对数据仓库合理分层,快速实现需求,同时实现对数据仓库任务的全流程定时调度和自动报警,对外提供数据可视化服务。以上模块实现的是数据仓库项目的基本需求,若用户想进一步完善项目,提升数据的安全性、可用性,可以设置权限管理模块、数据质量监控模块、元数据管理模块等,此部分内容可以阅读《剑指大数据——企业级数据仓库项目实战(电商版)》。