传统意义上的“数据”,是指“有根据的数字”。数字之所以产生,是因为人类在实践中发现,仅仅用语言、文字和图形来描述这个世界是不精确的,也是远远不够的。例如,有人问“姚明有多高”,如果回答说“很高”“非常高”“最高”,别人听了,只能得到一个抽象的印象,因为每个人对“很”有不同的理解,“非常”和“最”也是相对的;但如果回答说“2.26米”,就一清二楚。除了描述世界,数据还是我们改造世界的重要工具。人类的一切生产、交换活动,可以说都是以数据为基础展开的,例如度量衡、货币的背后都是数据,它们的发明或出现,都极大地推动了人类文明的进步。
如图1.1所示,数据的来源分为测量、记录和计算。数据最早来源于测量,所谓“有根据的数字”,是指数据是对客观世界测量结果的记录,而不是随意产生的。测量是从古至今科学研究最主要的手段。可以说,没有测量,就没有科学;也可以说,一切科学的本质都是测量。就此而言,数据之于科学的重要性,就像语言之于文学、音符之于音乐、形色之于美术一样,离开数据,就没有科学可言。
图1.1 数据的来源
除了测量和显而易见的记录,新数据还可以由老数据经计算衍生而来。测量和计算都是人为的,也就是说,世上本没有数,一切数据都是人为的产物。我们说的“原始数据”,并不是“原始森林”这个意义上的“原始”。原始森林是指天然就存在的森林,而原始数据仅仅是指第一手、没有经过人为修改的数据。
如图1.2所示,传统意义上的数据,和信息、知识也是完全不同的概念:数据是信息的载体,信息是有背景的数据,而知识是经过人类的归纳和整理,最终呈现规律的信息。
图1.2 数据、信息、知识的区别和联系
20世纪60年代,软件科学取得了巨大进步,数据库被发明。此后,数字、文本、图片都不加区分地保存在计算机的数据库中,以“比特”为单位进行存储,“数据”二字的内涵开始扩大。“数据”不仅指代那些作为“量”而存在的数据——也就是“量数”,还逐渐成为“数字、文本、图片、音频、视频”等的统称,即“信息”的代名词,由于这些信息作为一种证据、根据而存在,因此可以称为“据数”。
在此基础上,关于大数据的定义,笔者主张用下面这样一个式子来较为简洁、精确地表示。
大数据=传统的量数+现代的据数
(量数源于测量,如气温28℃;据数源于记录,如一张照片)
虽然量数比据数更接近“数”,但从历史上看,据数的出现要早于量数。人类早期对自身活动的记录,即“史”,就是早期的据数,也可以说,据数是历史的影子。量数则是在记录的实践中慢慢产生的,其核心要义是精确。量数是否充沛,直接决定了科学是否发达。从这个角度出发,数据的来源就不再只是对世界的测量,而是对世界的一种记录。所以信息时代的数据又多了一个来源——记录。
进入信息时代之后,数据成为信息的代名词,两者可以交替使用。一封邮件虽然包含很多条信息,但从技术的角度出发,可能还是“一个数据”。就此而言,现代意义上的数据的范畴,其实比信息还大,如图1.3所示。
图1.3 现代数据的范畴
除了内涵的扩大,数据库问世之后,还出现了另外一个重要现象,那就是数据的总量在不断增加,而且增加的速度在不断加快。
20世纪80年代,美国就有人提出了“大数据”的概念。这个时候,其实还没有进入数据大爆炸的时代,但有人预见到,随着信息技术的进步,软件的重要性将下降,数据的重要性将上升,因此提出“大数据”的概念。那时候的“大”,如“大人物”和“大转折”之“大”,主要指价值上的重要性。到了21世纪,尤其是2004年社交媒体产生之后,数据开始呈爆炸式增长,国际数据公司(IDC)的数据显示,2011—2018年,全球的数据量增长了18倍,大数据的提法又重新进入大众的视野并获得了更大的关注。这个时候的“大”,含义也更加丰富了:一是指容量大,二是指价值大。
到底多大才算大呢?针对这一问题,十多年来争议颇多。这首先涉及衡量数据大小的单位。2000年的时候,一般认为“太字节(TB)”级别的数据就是大数据了,当时拥有“太”级别数据的企业并不多,但自此之后,互联网企业开始崛起,这些企业拥有各种各样的数据,其中大部分都是文本、图片和视频,其数据量之大,传统企业根本无法望其项背。
一首标准音质的歌曲≈4兆字节(MB)
一部标准画质的电影≈1吉字节(GB,1吉字节=1024兆字节,相当于250首标准音质歌曲的大小)
一个普通图书馆的藏书≈1太字节(TB,1太字节=1024吉字节,相当于1024部标准画质电影的大小)
其实不仅仅是互联网行业,各行各业的数据都在爆炸,只是规模不同。如果仅仅把大数据的标准限定在互联网企业,认为只有互联网企业才拥有大数据,那就严重狭隘化了大数据的意义。毕竟容量只是表象,价值才是本质,而且大容量并不一定代表大价值。大数据的真正意义还在于大价值,价值主要通过数据的整合、分析和开放而获得。从这个方面来看,大数据的真正意义是,人类拥有了前所未有的能力来使用海量的数据,在其中发现新知识、创造新价值,从而为社会带来“大知识”“大科技”“大效益”和“大智能”等发展机遇。
以上论述是从概念上分析“数据”和“大数据”的区别,而掌握一个概念最好的方法,还是得从动态上了解其成因。大数据的形成,不仅是因为人类信息技术的进步,还是信息技术领域不同时期多个进步交互作用的结果,其中最重要的原因,当数摩尔定律的持续有效。