购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

数据仓库

【导读】 数据仓库就是存放数据的仓库,但它不是为存储而生的仓库(为存储而生的是数据库),而是面向分析的存储系统,为支持决策分析而生。

什么是数据仓库

进入数据仓库(data warehouse)里的数据有一定讲究,需要经过抽取、转换和加载(extraction transformation loading,ETL)。准确来说, 数据仓库 是一个面向主题的(指所要分析的具体方面),集成的(指从不同的数据源采集数据到同一个数据源的过程,其间会有一些ETL操作),随时间变化,但信息本身又相对稳定的数据集合,用于支持管理决策的过程。

接下来,将围绕给小美举办生日宴会的故事,告诉你什么是数据仓库。

再过几天,就是小美的生日了,你准备为小美举办一个像样的生日宴会。

首先,你在某宝上下单买了一些场景布置道具,有生日头箍、气球摆件、浪漫星星灯,你又在超市APP上下单买了乐翻天气泡酒、生日礼服、生日卡片,定制了生日蛋糕,还购买了苹果、猕猴桃、桃子、西瓜等水果,以及雪饼、坚果类小零食。

叮咚,门铃响了,原来是快递。顿时N个快递包裹大大小小地在客厅里堆成了小山。

这些快递包裹堆积成的小山,就相当于“数据湖”。 数据湖 是一个以原始格式存储数据的存储库或系统,它按原样存储数据,无须事先对数据进行结构化处理。

你用裁纸刀快速地打开一个个包裹,首先扔掉了各种隔层纸片、防震泡沫垫、包装纸袋等,把商品一个个整理出来。哦,My God!居然有两个桃子烂了,于是你把烂桃子扔在了一边。

接着,你又把拆包出来的商品分门别类,并且把这些经过你整理后的不同类别的商品分别放在不同的地方,把气泡酒、水果和生日蛋糕放进冰箱的不同分层里,把小零食放在客厅的干货柜,把生日道具放进玩具箱,把生日礼服挂在衣柜。

刚刚你“拆快递包裹并拿出烂桃子→将商品整理分类→放入不同储存区”的过程,其实就相当于数据仓库技术ETL,ETL在数据仓库中经常用到。

而刚刚提及的冰箱、干货柜、玩具箱、衣柜,这些就相当于一个又一个的“数据库”。数据库,就是存储电子文件的处所,你可以根据自己的需要,对文件中的数据进行新增、截取、更新、删除等操作。值得注意的是,数据库之间彼此是相互独立的,各有各的系统,它们之间互不兼容。比如冰箱和衣柜,它们是没法合并在一起的。

生日这天终于到了!你开心地分别从冰箱、干货柜、玩具箱、衣柜里取出提前准备好的物品,为小美办了一个温馨的生日宴会。

这里,你分别从冰箱、干货柜、玩具箱、衣柜里取出之前准备好的生日宴会物品(这些物品就相当于经过ETL之后的数据),并放在生日宴会现场的过程(相当于从不同的数据源采集数据到同一个数据源的过程,被称作“集成化”),相当于因为小美的生日宴会这件事(这就是一个“主题”),横向打通了一个又一个的数据库(冰箱、干货柜、玩具箱、衣柜),让不同数据库里的数据彼此共享起来,这就是数据仓库。

总而言之,数据仓库就是一个面向主题的,集成的,随时间变化,但信息本身又相对稳定的数据集合,用于支持管理决策的过程。

【扩展概念】

联机事务处理过程(OLTP): 也称为面向交易的处理过程。基本特征是前台接收的用户数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果,是对用户操作快速响应的方式之一,具有结构复杂、实时性要求高等特点。主要面向操作人员和初级管理人员。

联机分析处理(OLAP): 是一种软件技术,主要面向决策人员和高级管理人员。基本特征是分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。特点是直接仿照用户的多角度思考模式,预先为用户组建多维的数据模型。 wpyKTf5OWuZpgHLmCIlO/Tc81eh/tpMWpQQWXcSIwGZV1+SLGuvtLL37MIClTvrt

点击中间区域
呼出菜单
上一章
目录
下一章
×