1970年,IBM的E. F. Codd在论文“A Relational Model of Data for Large Shared Data Banks”中提出关系数据库的概念。计算机科学家称之为“革命性的想法”。随着关系模型的成功,一大批数据库产品纷纷涌现,如Oracle、DB2等。这些数据库产品很好地满足了数据存储、计算需要。如今,关系数据库的易用性和灵活性使它成为财务数据、物流数据、人员数据等记录的主要选择。
随着企业的发展,需要处理的数据越来越多,需要分析的维度也越来越多。1988年,IBM公司的研究员提出了新的术语——数据仓库来描述该场景。1992年,“数据仓库之父”Bill Inmon出版图书 Building the Data Warehouse ,这为数据仓库大规模推广打下了基础。他定义数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,可用于支持决策制定。
Pentaho的CTO James Dixon在2011年提出了数据湖概念。数据湖与数据仓库的最大区别在于:数据仓库中的数据是事先归类的,以便于未来分析,这在OLAP时代很常见,但是对于离线分析作用不大。如今,存储的成本越来越低,可以维持大量原始数据的存储是“湖”概念产生的基础。
大数据体系旨在处理对于传统数据库来说太大或过于复杂的数据的引入、处理和分析。数据可以批处理、流处理。大数据解决方案可处理大量非关系数据,例如键值数据、JSON文档数据、时序数据。通常,传统关系数据库并不适合用于存储此类数据。NoSQL数据库可用于存储非关系数据。
如今的机器学习系统依赖于以上提到的数据存储架构。