美国学者詹姆斯·马丁在其《信息工程》和《总体数据规划方法论》中,将数据环境分为4种类型,阐述了数据管理即数据库的发展过程。
(1)数据文件
在数据库管理系统出现之前,程序员根据应用的需要,用程序语言分散地设计应用所需要的各种数据文件。数据组织技术相对简单,但是随着应用程序的增加,数据文件的数量也在不断增加,最终会导致很高的维护成本。数据文件阶段,会为每一个应用程序建立各自的数据文件,数据是分离的、孤立的,并且随着应用的增加,数据被不断地重复,数据不能被应用程序所共享。
(2)应用数据库
意识到数据文件带来的各种各样的问题,于是就有了数据库管理系统。但是各个应用系统的建立依然是“各自为政”,每个应用系统建立自己的数据库文件。随着应用系统的建立,孤立的数据库文件也在增加,“数据孤岛”产生,数据仍然在被不断地重复,数据不能共享,并且导致了数据的不一致和不准确。
(3)主题数据库
主题数据库是面向业务主题的数据组织存储方式,即按照业务主题重组有关数据,而不是按照原来的各种登记表和统计报表来建立数据库。它强调信息共享(不是信息私有或部门所有)。主题数据库是对各个应用系统“自建自用”数据库的彻底否定,强调各个应用系统“共建共用”的共享数据库;所有源数据一次、一处输入系统(不是多次、多处输入系统)。同一数据必须一次、一处进入系统,保证其准确性、及时性和完整性,经由网络-计算机-数据库系统,可以多次、多处使用;主题数据库由基础表组成,基础表具有如下特性:原子性(表中的数据项是数据元素)、演绎性(可由表中的数据生成全部输出数据)和规范性(表中数据结构满足三范式要求)。
(4)数据仓库
数据仓库是将从多个数据源收集的信息进行存储,存放在一个一致的模式下。数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新来构造。建立数据仓库的目的是进行数据挖掘。
数据挖掘是从海量数据中提取出知识。数据挖掘是以数据仓库中的数据为对象,以数据挖掘算法为手段,最终以获得的模式或规则为结果,并通过展示环节表示出来。