(1)数据仓库是一个面向主题的、集成的、随时间变化的、非易失的数据集合,用于支持管理者的决策过程。
(2)数据仓库中的粒度是指数据的细节或汇总程度,细节程度越高,粒度级别越低。
(3)数据仓库的数据来自各个业务应用系统。
(4)很多因素导致直接访问业务系统无法进行全局数据分析的工作,这也是需要一个数据仓库的原因所在。
(5)操作型系统是一类专门用于管理面向事务的应用信息系统,而分析型系统是一种快速回答多维分析查询的实现方式,两者在很多方面存在差异。
(6)ETL是建立数据仓库最重要的处理过程,也是最体现工作量的环节。
(7)构成数据仓库系统的主要组成部分有数据源、ODS、中心数据仓库、分析查询引擎、ETL、元数据管理和自动化调度。
(8)主要的数据仓库架构有独立数据集市、从属数据集市、Inmon企业信息工厂、Kimball多维数据仓库、混合型数据仓库。
(9)构建实时数据仓库的基础是流式处理与实时计算,Lambda和Kappa是两个实时计算架构。Lambda是早期架构,在传统离线批处理上增加了一条实时数据处理链路。Kappa架构是Lambda架构的简化版,只保留了Lambda中的实时处理部分。
(10)实时数据仓库也引入了类似于离线数据仓库的分层理念,但更注重时效性,分层越少越好,减少分层也是为了减少中间流程出错的可能。