企业不同部门的数据分散、入口不一,跨部门、跨平台的数据整合阻碍了数据的使用效率,更不利于数据的提取和转换,BI平台可以有效地解决这类问题。本节阐述了解决方案的细节,包括BI平台的特性及平台的整体架构。
BI平台的功能设计如图2-8所示。数据仓库将企业的各种数据作为统一的数据源,提供了即席查询、数据提取、数据推送等功能,在抽取数据时,会出现错误报告。元数据管理主要实现了对企业数据知识的管理,并具备了字典管理、指标管理、元数据更新等功能。报表平台在外部提供报表服务等,为各个业务部门提供数据支持。
图2-8 BI平台功能设计
从目前的技术体系结构出发,综合考虑企业的数据状况,把BI平台基本上划分为数据仓库、元数据管理系统、报表平台三大部分。整个BI平台以数据仓库为基础,基于大数据处理技术的Hive作为核心,通过数据抽取过程对数据进行综合分析、构建报表、临时查询、元数据管理等数据应用,将元数据管理贯穿每一步。
BI平台将系统各部分进行分割,以降低系统复杂性,达到内部高度聚集性,集中精力处理自己的事务,并减小耦合,这将有助于系统的进一步扩充,并方便未来维护。BI平台的总体架构如图2-9所示。
(1)数据源:主要包括企业财务、经营、销售和各产品的操作数据库、客户上载的埋点日志数据、各种人工输入的渠道上报数据等。
图2-9 BI平台总体架构
(2)数据提取缓冲区:主要负责数据源层对数据进行抽取、转换等方式处理,然后发布到数据仓库和报表所用的操作数据库中。
(3)数据仓库:整个平台的核心部分,在Hive实现的基础上,整合多个数据源的相同数据,建立一致的数据和业务结构。
(4)数据应用:主要利用数据库提供的数据来提供报表、即席查询、数据分析等多种服务,并建立了与用户交互的接口。
(5)元数据管理系统:该系统通过对各个数据源的元数据信息进行解析,经人工补充后,可以提供字典管理、指标管理、元数据更新等服务。