不管是定义也好,描述也罢,对大数据的理解,根本在于对数据的认识,因此,想要真正了解大数据,始终离不开对数据的追本溯源,更无法回避人类几千年来有关数据发展的基础。
记录赋予数据意义
《周易·系辞下》有言:“上古结绳而治,后世圣人易之以书契”,这讲的是结绳记事,也可能是最早的有关数据的记载。为什么这么说呢?因为结绳记事符合数据的两点定义,结绳既是一种信息的表现形式,又具有载体的属性。由此可见,数据一定是一种具有一定形式的能反映信息的东西,这便是人们常说的,记录赋予了数据意义,而正是通过对信息的记录产生了数据。
另外,结绳记事不仅出现在国内的经史子集中,也出现在很多国外的文献资料上,其中,古秘鲁印第安人的结绳方法更是发展得极其完善。它以主绳为载体,系着表示各种事项的小绳子,其事项的表示是通过颜色来区分,如红色代表战争、黄色代表金子、白色代表银子与和平。在此基础上,通过打结表示数字,在他们的结绳规则中,单结表示10,两个单结表示20,一个双结表示100。更令人惊奇的是,古秘鲁印第安人在每个市镇都设置了结绳官,以此来保证结绳方法的统一,这些结绳官会教授并帮助民众结绳与解绳。这给了我们另一个启示,即数据是人类发展到一定阶段的一种必然选择。确实,随着人类社会生产力的不断提升,交往逐渐增多,需要处理的事务也日渐繁杂,单靠简单的交流和记忆已经不足以应付日常生活所需,这也是数据诞生的重要原因。
不过,作为初级的数据,结绳记事的缺陷显而易见,结绳能够表述的意义相当有限,当生产活动更为丰富时,便不再能够满足多样化的需求。出于对多样化的需求,人们对事物表象更加形象的描述相继出现,在岩石、树干、龟甲上开始刻画各式各样的图案。再后来,文字的诞生又演化出更规范的数据形式。但不管数据发展到何种阶段,以何种形式存在,其记录的意义贯穿始终。
数字是最重要的数据形式
在数据发展的历史进程中,先后出现了结绳、图片、文字等多种形式,但最重要的当属数字,以至于今日人类所有的数据形式几乎都可以用数字,或者更简单地讲,用1和0来表示 。我们无法追溯数字的意识是何时在祖先的头脑中形成的,但可以肯定的是,原始人在狩猎时应该本能地认识到,一只兔子是“少”,五只兔子是“多”;一颗野果是“少”,一捧野果是“多”。渐渐地,当“多少”的概念发展得更为精确时,当一只兔子、一颗野果与一个人可以用一个共同的特征联系在一起的时候,数的概念就形成了。
在人类的历史长河中,生活在尼罗河流域的古埃及人创造了十进制象形文数字;生活在两河流域的苏美尔人和巴比伦人创造了六十进制的巴比伦数字;生活在中美洲的玛雅人创造了玛雅数字;生活在黄河流域的中华民族创造了以商代的甲骨文数字和西周的钟鼎数字为代表的中国数字,到唐代前后已形成汉字数字等。而由印度人创造,后来传到阿拉伯和欧洲的符号数字作为后起之秀,凭着其简便、易懂等特点,逐步被全球各民族所采用,成为世界各国的通用数字。
数字的出现为测量和比较事物提供了一种便捷的工具,同时也让更多事物可以采取一种更为简洁的方式来表达。除此之外,数字的出现为与数字相关的事物提供了一个天然序列,为数学的发展奠定了基础。中国古文字学家于省吾先生在《释一至十之纪数字》中认为,“人类之进化,由结绳记事演进为数字之记事,至今蛮夷犹有上古结绳之遗制。然则初有文字,当以纪数字为发轫,纪数字可谓初文中之原始字”。他认为,数字是文字的最初形式,文字和数字的出现,使人类文明真正打破了时间的限制,让信息可以在历史的长河中永久保存。
数据归一
数字的意义不仅在于起承转合,更在于它为数据统一提供了可能,数据世界也因数字经历了从分到合的过程。从结绳记事到图画、文字,再到现代各式各样的记录仪器,数据的形式越来越多,数据不仅包含可以用数字测度的事物,还包括一切我们可以看到和感知到的现象。不过,随着计算机的出现,人类又开始寻找更为简单的记录方法,记录的需求产生了多样的数据形式,而存储和处理的需求又让人类开始思考如何让数据具有同一基底,为此,人类选择了数字,而随着各式各样的数据通过数字的方式被保存,这个过程也有了生动的名称——数字化。
现代科学的发展给人类信息带来更多记录可能的同时,也让数据走向了统一,至此,让我们再次回到数据的定义。英语中“data”(数据)一词来源于拉丁语,有寄予的含义,随着可记录的数据范围越来越大,可存储的数据越来越多,数据逐渐变得立体和具象起来,自然而然地也就成了人类存在的寄予。当记录拥有价值,当记录成为习惯,当数字化让人类可以更加生动地记录我们眼之所观和耳之所闻时,潜在的数据也就蕴含了人类发展的规律,相应的存储技术、数据挖掘和处理技术因而得到了迅猛发展。可以说,一部数据发展史就是一部信息技术的应用史,也是一部发现自然、探秘自然的经验史。