购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.6 小结

(1)数据仓库是一个面向主题的、集成的、随时间变化的、非易失的数据集合,用于支持管理者的决策过程。

(2)数据仓库中的粒度是指数据的细节或汇总程度,细节程度越高,粒度级别越低。

(3)数据仓库的数据来自各个业务应用系统。

(4)很多因素导致直接访问业务系统无法进行全局数据分析的工作,这也是需要一个数据仓库的原因所在。

(5)操作型系统是一类专门用于管理面向事务的应用信息系统,而分析型系统是一种快速回答多维分析查询的实现方式,两者在很多方面存在差异。

(6)ETL是建立数据仓库最重要的处理过程,也是最体现工作量的环节。

(7)构成数据仓库系统的主要组成部分有数据源、ODS、中心数据仓库、分析查询引擎、ETL、元数据管理和自动化调度。

(8)主要的数据仓库架构有独立数据集市、从属数据集市、Inmon企业信息工厂、Kimball多维数据仓库、混合型数据仓库。

(9)构建实时数据仓库的基础是流式处理与实时计算,Lambda和Kappa是两个实时计算架构。Lambda是早期架构,在传统离线批处理上增加了一条实时数据处理链路。Kappa架构是Lambda架构的简化版,只保留了Lambda中的实时处理部分。

(10)实时数据仓库也引入了类似于离线数据仓库的分层理念,但更注重时效性,分层越少越好,减少分层也是为了减少中间流程出错的可能。 jqpbZ6YKxKdE2pQcie8x1EAqQIpws3mpqr8YfKCuopzvXo0X4JX4eGMvCM9C2dtY

点击中间区域
呼出菜单
上一章
目录
下一章
×