从数据发展到大数据,量的积累并不是一切的关键,真正将“巨量”数据变为大数据的还是不断发展的科学技术。马克思曾说过,“哲学家们只是用不同的方式解释世界,而问题在于改变世界” 。大数据的发展正是这样一个从解释到改造的过程。
数的思考
早在遥远的古代,人类就已经开始了对数的运用,古埃及、古罗马、古中国等文明古国在进行各自的贸易往来、统计计数时,对传统数的运用已然得心应手。古希腊则更进一步,开始了对数的思考。
作为西方文明的起源地,古希腊在很早的时候就已经开始了对世界本原的探索,在这场关于哲学的探讨中,泰勒斯 看到了水,阿那克西美尼 看到了气,而毕达哥拉斯 则看到了数,以“数本原说”为核心的毕达哥拉斯学派也应运而生,并在之后对数的理论、性质、计算等方面都做出了卓越贡献。
毕达哥拉斯学派对数的推崇是人类对数据的最初探索,在之后数千年的时间里,人们对数的探索与理解从未停止,而正是在对数的探索基础上,产生了与大数据相关的技术。
大数据技术
前面我们提及,仅把大数据看作是一种具有一定规模的数据集是缺乏实际意义的,我们还提到了一个关于大数据的广义定义,此处,我们还要为大数据做一个更一般化的说明:大数据就是数据和相关技术的集合,数据是大数据应用的基础,而技术是大数据应用的手段,二者共同构成了大数据,密不可分,相辅相成。技术的发展推动了数据的生产、采集和储存,数据的爆发也推动着应用技术的不断进步。接下来,我们将从技术的角度来看大数据的发展。大数据的基础技术可以分为:感知采集、处理存储、分析和可视化,其涉及的技术领域包括:传感器、计算网络、数据存储、集群式计算系统、云计算设施、人工智能和数据可视化等。
首先,数据感知和采集。之所以称之为“大数据”,其主要原因是当下人类有了数据感知和采集技术,这些技术使数据来源得到了极大的拓展,使得巨量的数据可以被发现和采集。人们熟悉的互联网和物联网便是这样的技术。近几年,各类传感器和移动终端相继成为大数据感知和采集的来源。中国工程院院士李德毅认为,大数据的主要来源有三个方面:自然界的大数据、生命和生物的大数据以及社交大数据。特别是在当前,作为大数据分析和研究的重点领域,社交数据的来源越来越广泛,社交网络和社交工具的发展加速了数据的生产,也让数据的采集更为方便,通过对社交数据的分析,我们能够更加了解自己,不管是对社会科学的发展,还是对实际行业的应用都具有重要的作用。另外,自然数据和设备生产数据凭借着各式各样的传感器和物联网技术,也成为大数据家族的主要成员,此类数据为更好地指导人类的生产和生活带来了巨大的作用,后文关于农业和工业等方面的分析,多数便是基于自然数据。
其次,数据处理和存储。其实,数据存储的重要性可能远超数据采集,数据采集是发现的过程,提供了使用数据的可能,而数据的存储却是使用的基础。毫不夸张地讲,21世纪以来,大数据之所以发展迅猛,最重要的原因便是海量的数据能够存储起来以供使用。当然,数据的存储涉及存储能力与存储方法,前者是基于硬件的发展,后者是基于对数据整理的认识,也正是基于这个原因,存储和处理更容易被纳入一个整体。数据的处理和存储在大数据应用过程中扮演了起承转合的角色,因而成为当前最基础和应用最为广泛的大数据技术,最著名的当属Apache Hadoop系列开源平台,它主要包括:HadoopCommon,HDFS,MapReduce,Zookeeper,Avro,Chukwa,HBase,Hive,Pig等子项目。
再次,数据分析。这一部分是最有意思也是最接近价值的部分。说它最有意思,是由于分析不似处理和存储那般机械化。分析的过程是发现的过程,通过对现存数据的分析,可以揭示不为人知的有价值的规律和结果,辅助人们进行更为科学和智能化的决策。数据分析分为几个步骤,第一步是数据挖掘。简单来讲,数据挖掘就是从已有的大量数据中,提取出有潜在价值的数据的过程。因为初始的数据往往是有噪声的,精确度不高,在实际应用中,类似数据缺失、极端值以及数据生产过程中出现的一些错误,会在很大程度上干扰后续的分析,这也是人们进行数据挖掘时应当注意的问题。目前,数据挖掘已成为多学科联动的技术,它通过在数据库管理系统中综合运用统计和计算机科学的方法,从大数据集中提取出需要的数据。第二步是大数据分析,最为人熟知的是人工智能,包括统计分析、机器学习、自然语言处理、知识与推理等。
最后,数据可视化。这是直接关乎价值的阶段。如果你是一个大数据需求者,摆在你面前的是可视化的数据,你可能并不知道在这之前技术人员经历了怎样的“痛苦”,但你能知道的是,眼前的数据可轻易地了解、感知和满足你的需求。这些数据已不再是密密麻麻的数字,取而代之的是易于理解的图表和图形。数据可视化就是这样一个过程,其目的是将数据的分析结果以可视化的形式表达出来,以便于人们认知和理解,方便用户了解数据中隐含的信息和规律。当然,文件上的东西看似简单,但它其实是一门横跨计算机图形学、人机交互、统计学和心理学的综合学科,如何形象化地展现知识也是一门高深的学问。
技术的属性
前面提到,大数据技术是掌握大数据、利用大数据的一种技术手段,亦是如今我们提到大数据时所表达的真实意义。因为,无论是数的理论还是数据的激增终究只是一种应用前提,并不对大数据进行技术处理,数据不过是储存在介质中的单调符号,技术的支撑是实现数据价值的前提之所在。接下来,我们还需要对技术进行一些更为深层次的探讨。
“大数据之父”维克托·迈尔-舍恩伯格曾提出,“技术的属性是对技术本质的反映,是技术表现出的特殊规定性,技术是由人所创造、人所控制的人类活动的方法与手段,人本身具有自然属性和社会属性,那么技术也同样具有自然属性和社会属性。”
作为一种技术,大数据技术同样也展现出了自然和社会的双重属性。
首先来看大数据技术的自然属性。大数据技术作为人类认识自然、改造自然的一种技术工具,其自身发展必然要受到内部各要素之间的制约,即大数据技术的应用需要遵循一定的规律,这便是为什么大数据技术分为数据搜集、数据传输、数据存储和数据处理,并且按照顺序进行,循规蹈矩,缺一不可。需要提醒读者的是,不要认为技术的自然属性无关紧要,技术的发展也必须遵循其内在的逻辑,因此,自然属性的存在为大数据技术未来的发展指明了道路。
再来看大数据技术的社会属性。一方面,大数据技术由人类开发,受人类支配,在人类社会发展的历程中扮演着不可替代的重要角色;另一方面,大数据的发展与社会生产力的发展相匹配,因此大数据技术也受到社会生产力发展水平的制约,随着生产力的发展而发展。另外,大数据技术还受到了诸如区域、法律、政治等因素的限制。
社会属性的存在使得大数据技术在发展过程中,遇到了数据安全和隐私保护等诸多问题。数据采集设备的发展让人类的生活发生了翻天覆地的大变化,同时也让人们活在各式各样的监管之下。大数据时代,越来越精确的用户信息让传统的加密技术也无能为力,我们对隐私的掌控开始变得不再有力。特别是在技术日新月异的当下,信息安全和隐私保护的法律框架也面临着极大的挑战。在这种情况下,大数据技术的发展不能仅注重利用数据,同时还要考虑如何保护数据,事实上,保护数据便是保护我们自己。
大数据技术的基本属性是其自然属性和社会属性的辩证统一,在自然法则与社会法则的双重作用下,大数据技术在制约中发展,在发展中跨越。一个令人沮丧的结论是,发展的问题可能更多地要交给发展自身去解决。人类近代以来的科学发展给予我们的启示是,在技术发展的初期,我们不能过于畏首畏尾,应对其应用前景多加关注,而对其所产生的问题给予适度的宽容。