信息科学领域面临着一个巨大挑战——数据爆炸。IDC Global DataSphere指出,2021年全球数据总量达84.5 ZB,预计到2026年,全球结构化与非结构化数据总量将达221.2 ZB。然而,人类分析数据的能力已经远远落后于获取数据的能力,这个挑战不仅体现在数据量越来越大、维度越来越高,而且体现在数据获取的动态性、数据内容的噪声和互相矛盾,以及数据关系的异构与异质性等。
在信息管理、信息系统和知识管理学科中,“数据、信息、知识、智慧(Data、Information、Knowledge、Wisdom,DIKW)”层次模型是最基本的模型,具体如图1-4所示。DIKW模型以数据为基层架构,按照信息流顺序依次完成数据到智慧的转换。四者之间的结构和功能方面的关系构成了信息科学的基础理论。在数据科学中,这种模型也作为一种数据处理流程,完成原始数据的转化。
图1-4 DIKW模型
从信号获取的角度看,数据是对目标观察和记录的结果,是关于现实世界中的时间、地点、事件、其他对象或概念的描述。在表达为有用的形式之前,数据本身没有用途。关于数据,不同的学者给出了不同的定义,主要分为以下几类。
数据即事实:数据是未经组织和处理的、离散的、客观的观察结果。由于缺乏上下文的联系和解释,因此数据本身并没有含义和价值。如果将事实定义为真实的、正确的观察,那么不是所有的数据都是事实,错误的、无意义的和非感知的数据不属于事实。
数据即信号:从获取的角度理解,数据是基于感知的信号刺激或信号输入,包括视觉、听觉、嗅觉、味觉和触觉。每种感官对应某个信号通道,因此数据也被定义为某个器官能接收到的一种或多种能量波或能量粒子(光、热、声、力和电磁等)。
数据即符号:无论数据是否有意义,都可以被定义为表达感官刺激或感知的符号集合,即某个对象、事件或所处环境的属性。代表性符号如单词、数字、图表和图像视频等,这些都是人类社会用于沟通的基本手段。因此,数据就是记录或保存的事件或情境的符号。