清晨,当你独自走入小区花园散步,手机GPS已经将你的位置信息报告给了运营商;当你打开电脑开始工作,你的所有操作信息已经即时传输给了客户端;当你拿起手机,给朋友打个电话,或者是发一条微博,这些信息已经立刻被终端抓取存储;即使你只是在走廊徘徊了两步,你的身影也早已经被监控记录。
无声无息地,我们迈入了这个充满奇妙又令人畏惧的大数据时代。奇妙之处在于,即使足不出户我们就可以掌控天下大势,不费吹灰之力就可以得到来自世界的信息;而令人生畏的是,个人所有的言论、行为甚至是思考都赤裸裸地暴露在他人面前。我们可以随时在网站查看、购买心仪的商品,但有些时候或许仅仅多搜索了几个关键词(比如雷管、炸药、菜刀),就会突然地遭到“查水表”。在这个时代里,一切都被记录,一切都被量化,一切都被搜索和窥探。
从330年君士坦丁堡建立到15世纪的1200多年间,欧洲所有的手抄本书籍约800册;1439年古登堡发明了印刷机,1453—1503年的50年间,欧洲印刷的书籍就已经超过了这个数目;也就是说,50年记录下的信息等价于过去1200年。而到今天,大约每3年,世界的信息存储量就翻一番。到2013年,世界上存储的数据超过了1.2 ZB ,其中非数字数据的占比不到2%。把这些数据全部记载到书中,可以覆盖美国52次;如果存储在光盘上,高度可以达到地球和月球之间距离的5倍。曾经,亚历山大图书馆号称可以代表世界所有的知识;而在今天,每个地球人即时可获取的信息就超过了它的320倍 。
毫无疑问,我们迈入了大数据时代!
根据维基百科的定义,大数据(Big Data)又称为巨量数据或海量数据,是指涉及的数据量规模巨大到无法通过人工或者目前主流软件工具,在合理时间内达到截取、管理、处理并可以被人类解读的信息。网络上的每一次搜索、购物网站上的每一笔交易、资金的每一次流动,都被纳入到一个数据集合中,通过计算机的筛选、整理、分析,能够从这些数据中得到可信的规律和结论,用于帮助政府管理、企业决策及个人行为判断。
大数据是数量巨大、结构复杂、类型各异的数据集合,也是可以通过数据分享、交叉复用的知识与智力资源,更是现代社会的一种核心资产。大数据的基本特征可以用“4V”来概括:Volume(量级巨大)、Velocity(获取及处理速度极快)、Variety(数据多样性)、Veracity(真实性) 。
海量的数据量是大数据最基本的特征,据IDC的定义,大数据的标准是其数量级要超过100TB,也就是100 000GB。我们知道,一本普通电子书刊的大小只有几个MB,即使高清的电子图书也只有几十MB,大数据的最低要求是其数量相当于上亿本图书,相当于3个中国国家图书馆的藏书量。在过去,如此量级的数据是难以想象和获取的,但是,随着信息技术和网络技术的发展,这一切成为可能。微型计算机、移动终端设备技术的进步提供了大量的源数据,使得人类的一切商业或非商业的活动得以被记录下来;存储介质的革命、单位芯片晶体管的几何级增加又使得超级数据的保存成为可能;超级计算机、云计算技术又给数据的转换、分析提供了便捷。古时候,我们只能依赖于竹简上的书写传承知识;造纸术和印刷术发明后,可以较为便捷地通过印刷书籍传播文化;到了近现代,能通过图片、视频、音频等进行记录。然而,数据的保存和传播仍然处于单片状态,并不能很好地进行黏合和被计算机处理。近年来,由于二维、三维技术的成熟,才使得图像、声音乃至动作被计算机完整地刻画和记录,并且能够进行数字搜索、分析和运用(比如3D打印技术)。
大数据“大”的特性还有另一个层面的含义,那就是追求样本的“全”。在过去,由于知识与技术的局限,我们只能通过抽样的方法获取数据并运用于分析预测,进而运用于全样本性质的统计推断;但是在技术高度成熟的信息社会,获取数据的成本瓶颈得以解决,我们已经拥有了获得全样本的便捷条件。采用全样本进行分析,显然比抽样更具说服力。
在过去,人类获取和传播数据的速度是极其缓慢的,许多新的知识和发明都停留在局部或者湮没在历史中。牛顿发明了微积分,但莱布尼兹并不知晓;欧洲人优雅地进入了文艺复兴时代,而美洲新大陆上的人们还过着茹毛饮血的生活。然而,在这样一个信息时代、大数据时代,世界变平了,美国股票的涨跌、利比亚战局的状况、乌克兰的局势可以在一秒钟之内传达到我们的电脑屏幕上。大数据时代,数据的获取是随时随地进行的;正如篇首所言,我们的一言一行、购物网页上的任何停留都已经立刻被记录在数据库中。与此同时,数据的处理也是飞速的;当我们刚刚浏览完购物网站,打开微博,就会有广告给你推荐之前在购物网站浏览的类型相似的商品。数据处理的及时与迅速,当然和技术进步紧密相连,但更是现实需求所导致的,也是大数据区别于传统海量数据处理的重要特征之一。在这样一个日新月异的时代,只有即时地分析处理数据信息,企业才能获得消费者此刻的偏好,也才能立刻做出生产和销售决策。在大数据时代,“时间就是金钱”,一点不为过。
在目前所有数据中,98%以上都是数字数据,而只有不到2%是书本等非数字数据。即使数字数据本身,也存在结构化数据和非结构化数据的区别。结构化数据是指存储在数据库中,可以通过二维表结构实现逻辑表达的数据,简而言之,就是可以用相同或相似的表结构进行表达的数据;而非结构化数据则很难用二维逻辑表来表达。早期的非结构化数据主要指的是文本信息,比如邮件、医疗档案、写作文档等;随着互联网和物联网的发展,网页搜索记录、社交媒体状态、图片、视频等也纳入其中。数据的多样性,也同样体现在数据来源及数据应用过程中。例如一个人的信用记录就不仅仅来源于银行,而是来源于银行、保险公司、公安系统、就业单位等所有与生活和工作相关的地方;同样,运用个人信用记录的地方也并不单一,现实数据总是多样化存在的。
大数据的真实性也被称为价值密度低。数据价值密度低是非结构化大数据中的重要属性;大数据的出现,开启了全新的全数据时代。在过去,我们要获得春节联欢晚会的收视率和好评度,只能采用电话随机采访的抽样调查;而现在,基于互联网等技术,我们可以直接从智能电视和电脑终端获取全部的收视数据。在抽样时代,数据量小,每个数据都显得很重要,存在随机抽样带来的偏态风险;而在大数据时代,“样本=总体”,数据的价值密度变低了,但每一个数据都是对真实世界的无偏刻画。
没有计算机与互联网技术的发展,就没有如今轰轰烈烈的大数据时代。随着移动互连、云计算、物联网的不断创新,大数据也将更加显现其在现代商业社会的统治力。
第三次科技革命以信息技术发展为核心标志。人类社会的发展从没有像今天这样日新月异、推陈出新,这一切都来源于信息技术的推动,更准确地说,是来自计算机技术的快速发展和互联网应用的成熟。从1946年2月第一台计算机在宾夕法尼亚大学诞生开始,计算机技术革新的脚步就不曾停驻。根据摩尔定律,集成电路芯片上的电路数目每18个月就会翻一番;直观地说,微处理器的性能每18个月就能提高1倍;而随着光纤系统的应用,数据传输更加快速,数据存储更加廉价,20世纪60年代存储1MB数据的价格为1万美元,而现在存储1GB数据只需1美分 。20世纪八九十年代,随着苹果公司、微软公司的发展和成熟,微型计算机走入人们的视野,这时的计算机易于携带、运行稳定、价格便宜,计算机真正地走进了人们的生活。到今天,质量超级轻、体型超级小、速度超级快成为计算机的显著标志,移动计算机成为人们工作生活中的必需品。现在,最快的计算机——天河二号的运行速度已经达到了每秒5.49亿亿次,相当于13亿人同时使用计算器计算1000年;即使普通手机的计算速度,也已经是最初的计算机的数千万倍。总之,计算机技术飞跃性地发展,改变了人们传统的数据收集和数据处理模式,人们获取数据、处理数据的能力得到极大提高。
1969年,美国国防部为了应对战争开发出最原始的局域网;1983年,TCP/IP协议的研发成功和推广,则形成了Internet的雏形;1991年,美国的三家公司宣布将CERFnet、PSINet及AlterNet网络组成了“商用Internet协会”(CIEA),向客户提供Internet联网商业服务,则开启了互联网时代。Internet商业化服务提供商的出现,极大地促进了商业服务的发展,Internet在通信、资料检索、客户服务等方面的巨大优势,使得它被世界广泛接受。自此,世界步入了互联网时代。2008年起,云计算(Cloud Computing)的概念逐渐流行起来,并被大众所接受。云计算被大家叫作“革命性的计算模型”,有了云计算,加上互联网的嫁接功能,超级计算能力便能够像商品一样自由流通。企业与个人即使不投入成本购买昂贵的硬件,只通过互联网购买相应服务,便能获取超级计算能力。云计算让用户脱离技术上的复杂性而获得应用,摆脱了硬件、软件的约束。云计算成为大数据(或称为云数据)的基础架构和IT基础,人们可以随需自助服务,随时随地运用任何网络设备访问、共享数据。基于Web服务、以互联网为中心、实现全球资源共享的云计算,将人们推进到真正的移动信息时代,成为信息时代又一个强劲的增长点。
互联网的快速发展已经成为当今世界不可阻挡的洪流,它不仅改变了传统的信息、数据传播方式,更深刻地改变了人们的生活传统。互联网的普及和发展所引发的不仅仅是一场突飞猛进的信息革命,更是一场前所未有的深刻社会变革。从此,人们获取信息变得更加容易,足不出户便可以了解世界的新闻;人们的沟通更加便捷,邮件、Facebook、微博,这些网络工具将人们时刻联系在一起;人们的消费与购物方式也摆脱了物理形态,坐在电脑前或者仅仅利用手机上网,便可以从上万种商品中快速筛选出喜好的产品,通过网络支付,只需几秒钟就能实现商品交易。
大数据与计算机、互联网发展相辅相成。计算机与互联网的快速发展使得大体量数据传播和存储得以实现,数据的来源得到极大的丰富,形成了源源不断的信息流;而大数据的信息流又通过社会生活和商业模式变革反向牵引着资金流和物流的发展,推动计算机与互联网技术的进一步跨越。大数据与计算机、互联网紧密地联系在一起,缺一不可。
社会变革是科技创新的产物,蒸汽机的发明和电力的广泛应用将人们带进了工业社会,计算机和互联网的成熟则使人们进入了信息社会。而现在,基于Web 2.0的移动互连、物联网、云计算,则将开拓全新的大数据时代。大数据业已改变我们传统的认识和对待事物的方式,无论在医疗、商业、金融,还是教育、气象、军事等领域,大数据对于现代社会基因的改变是全方位的。正如维克托所言,“大数据已经撼动了世界的方方面面”。
2009年,结合了禽流感和猪流感特性的H1N1型流感病毒出现,并在几周之内在美国各地传播,引起了社会极大的恐慌。公共卫生部门的当务之急是找到病毒的爆发地点并采取相应的对策。预测病毒爆发地的传统方法是依据各医院医生提供给疾病控制预防中心的病例报告,但这存在严重的时滞,因为人们只有在身体已经出现明显症状后才会到医院就诊,并且疾控中心的数据汇总频率也非常低。这样传统的方法效率极低,使得公共卫生部门在能够控制病毒爆发的关键时期有心无力。但是谷歌公司却在H1N1爆发前几周,就准确预测了流感的爆发,他们不仅成功预测了病毒在美国爆发的时间,甚至将精度精确到特定的时点和地区。这一结果令社会公众和公共卫生部门震惊。这正是运用大数据的结果。谷歌每天都会收到超过30亿条搜索记录,这些数据都被完整地保存下来。谷歌数据分析师将特定时间段的数据进行处理,尝试了约4.5亿个模型,检测了特定检索词条与流感传播的相关关系,发现最好的预测模型与疾控中心公布的数据吻合率达到了97%。因而,谷歌可以依据自己的模型,按照实时收集的搜索数据,对流感的爆发地、爆发时间、严重程度作出非常精确的估计。谷歌的成功,完全是大数据的功劳。
大数据不仅改变了公共卫生领域,更彻底颠覆了商业、金融等领域。商业机构可以获取人们在网上的搜索记录、购物记录,从而得到人们的购物倾向;金融机构可以依托人们的购物消费记录、借贷记录,从而准确地对个人的信用状况进行评估;股票分析师甚至可以从人们社交网站上的文字提取出个人情绪,进而预测股市的涨跌;政府也可以从人们的网上言论即时分析社会稳定状况,甚至通过大数据的概率预测,判断某个人接下来将要做什么。
大数据给我们的社会带来了实实在在的改变。
大数据对社会的变革是显性的,推动这种变革的动力来自于大数据对人们隐性的思维变革。从重要性来看,思维的变革甚至比社会的变革更加重要,因为思维的转变是社会变化的源泉。思维的变革体现在以下几个方面。
记录信息的能力是原始社会和现代社会的分界线之一。早期文明最古老的工具是基础的计算和长度、重量的计量。几千年来,数据的二维记载方式一直延续下来,但并没有太大改变。在如今大数据的时代,可量化的不仅仅是陈旧的统计数据,一切文字、声音、影像、方位、情绪乃至思考都变得可以量化。谷歌数字图书馆将图书进行扫描,并运用光学字符软件设别系统,使得每一个字符都变得可搜索。前者使得图书数字化,可以供人阅读;而后者则真正实现了文字的数据化,使得文字可以被搜索、被分析。从此人们不用再面对浩如烟海的文献不知所措,仅仅单击鼠标就可以看到所需的文献。同样,人们的声音、影像乃至思考等都被解码成为一定的数据进行存储,数据化使得分析变得更加容易,人工智能得以实现。用声音控制手机开关、刷脸进门早已不是新闻,而让电子设备跟随人的思考进行运转,不久也定会成为现实。在大数据时代,世间万物都“活”过来了,成为随时可供我们运用的大数据。
也许很多人并不知道,统计学兴起不过三百余年,在John Graunt 发明统计学之前,诸如人口普查等统计工作都是按照全样本进行的。统计学发明之后,因为极大地降低了获取样本的数量和成本,简化了数据分析过程,所以得以广泛使用至今。但是,采用样本推断总体难免出现偏差,抽样的随机性很难保证,单个异常值也对总体推断造成很大的偏误。如今,在这个大数据时代,获取全样本已经变得可行,互联网使得获取信息的成本非常低廉,而计算机的发展也使得处理大规模数据不再是难事。
如前文所言,数据的丰富使得单个数据的价值密度变低,也使得数据变得混杂不精确;然而,这是大数据时代必须接受的现实。抽样时代,数据的精确性是第一位的,因为任何极端值的出现都会对结果造成很大的影响,所以我们会利用各种方法保证抽样的随机性;然而,在大数据时代,我们运用“概率”说话,少数极端值并不会对分析结果有明显的影响,为了获取足够多的数据,我们只能放松对于精确性的要求。
科学探究是为了发现真理,也就是寻求因果关系,利用大数据分析事物的因果变化显然也是大有裨益。但在更多的时候,人们运用大数据可能仅仅知道“是什么”就足够了,而不必计较“为什么”。尤其在商业领域,企业只要能够从大数据分析中知道消费者喜欢哪类商品就足够了,而没有必要也没有时间去研究消费者偏好背后有什么特殊原因——虽然有的时候了解这种原因也可能会带来额外的商业利益。零售巨头沃尔玛通过分析大量的历史销售记录,发现季节性飓风来临之前,不仅手电筒销售量增加,而且POP-Tarts蛋挞销售量也相应增加,因而每当季节性飓风来临时,沃尔玛就把蛋挞放到飓风物品相关的位置。这给它带来了很大的商业利润。你很难运用因果关系去解释这种现象,人们担心飓风破坏电力设施增加手电筒购买,这是可能的因果关系;然而,人们为什么单单大规模采购蛋挞而不是其他食品,显然难以用因果关系去分析。沃尔玛也并不关心这种因果关系,这种分析一来耗费大量的时间和金钱,二来对销售无益;它只需要知道,在飓风来临之前,人们需要蛋挞,这就已经足够了。
数据分析的核心作用在于对未来作出预测,预测对于时效性的要求显然十分苛刻。尤其在商业领域,时间就是金钱,效率就是生命。数据分析滞后,那么预测将没有任何意义,就像之前流感病毒的例子,如果等到流感病毒已经全面爆发,那么预测就一文不值了。所以,在大数据时代,对于计算能力的要求非常高。