2009年,在美国甲型H1N1流感暴发前夕,谷歌公司的工程师们在国际著名学术期刊《Nature》(《自然》)上发表了一篇关于流感的文章《利用搜索引擎查询数据检测禽流感流行趋势》,这篇文章的背后就是著名的流感预测系统——GFT。
其实,GFT预测甲型H1N1流感的原理非常简单。如果在某一个区域某一个时间段有大量的有关流感的搜索指令,那么,这个地区便可能是流感高发地区。确实,如果一个地区的流感并不严重,那么民众就不会对流感过度关心,也就不会有大量的搜索指令了。事实也证明,谷歌的流感预测准确度与美国疾病控制与预防中心(Center for Disease Control and Prevention, CDC)的结果非常接近。
让人惊讶的是,GFT监测并预测流感趋势的过程非常短,有时对相关数据的分析只需要花几个小时的时间。相比之下,CDC则按照严格的流程进行流感预测,通常需要近两周的时间。
或许,这一切在现在来看并无新奇之处,但你之所以有这种观念,是因为大数据已在你身上刻下了印记!
大数据发展概览
近年来,随着物联网等信息化技术的快速发展,数据规模呈现出爆炸式增长的态势。2011年,国际数据公司(Interna-tional Data Corporation,IDC)发布分析报告称,当年全球数据总量为1.8ZB,此后全球数据总量每过两年就会增长一倍。对于这个数字,你可能没什么感觉,如果我们换一种说法,最近两年产生的数据量相当于之前产生的所有数据量之和,你是不是感到很震惊?
今天,数据增长的步伐没有停止,并且以更快的速度增长,IDC的报告预测,到2020年,全球共将拥有35ZB的数据量 [1] 。直观一点说,将1ZB的文件往1TB的硬盘里装,大概需要10亿个这样的硬盘,连起来足够围绕地球两圈半,总重量大概是50万吨。
事态的发展证明,IDC当年的预测还是过于保守了,它在2018年发布报告称,全球数据总量预计2020年将达到44ZB,在35ZB的基础上足足上调了约26%。由此产生的“大数据问题”(big data problem)成为学术界和相关产业界的热门话题,人工智能和机器学习也因大数据焕发出新的生机,围绕着大数据及相关技术的研究,开始吸引着越来越多的科学家和企业家。
其实,关于大数据的讨论可以追溯到更早一些时候,2008 年9月,《Nature》杂志推出了“Big Data”专刊,开始对持续增长的数据给予关注。当然,另一著名学术期刊《Science》(《科学》)不甘落后,于2011年2月也推出了自己的大数据板块“Dealing with data”,学者、工程师可以在此交流讨论大数据时代的机遇与挑战。4个月后,麦肯锡公司在其发布的大数据报告中直接指出“大数据时代已经到来”,这份报告对大数据当时的技术发展和应用领域进行了分析,同时也详细评估了大数据的影响。此后,大数据在全球范围内受到越来越多的关注,比较有代表性的是2012年的达沃斯世界经济论坛专门发布了大数据报告《大数据,大影响:国际发展新的可能性》,指出数据已经成为一种新的经济资产类别,就像货币或黄金一样。
美国于2012年1月率先将大数据研究和发展作为国家的发展战略,其标志是奥巴马政府推出的“大数据研究和发展倡议”(Big Data research and development initiative)。同年5月,联合国启动“全球脉动”(Global Pulse)计划,并发布报告《大数据开发:机遇与挑战》( Big Data f or Development : Chal-lenges&Opportunities ),阐述了各国特别是发展中国家在运用大数据促进社会发展方面所面临的历史机遇和挑战,对如何正确运用大数据提出了策略建议。
大数据的定义
尽管麦肯锡公司在很早就宣称人类已经进入了大数据时代,但人们在如何定义或者说是理解这个新生事物上还是存在诸多的问题。维基百科指出,大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间限制的数据集,显然这个解释看上去并不那么吸引人;麦肯锡公司给出的定义是,大数据是数据规模超出传统数据库管理软件的获取、存储、管理以及分析能力的数据集;高德纳咨询公司(Gartner)则认为,大数据是需要新的处理模式才能增强决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
上述定义均在强调数据量上的变化,但随着人们对大数据理解的逐步加深,大数据更合理的定义应是包括数据集和数据运用的一个广义的概念。毕竟,如果仅从表面上理解,认为大数据就是与传统数据集相比规模更大的数据集,并不能体现大数据的真正价值。正是由于这个原因,现在的人们更关心的是如何去理解大数据而非如何定义,6V 是对大数据特性的各种描述中被广为接受的一种,即Volume(规模性,指数据量大)、Velocity(高速性,指数据分析和处理速度快)、Variety(多样性,指数据类型多样)、Value(价值稀疏性,指数据知识密度低)、Veracity(真实性,指数据反映客观事实)以及Variabili-ty(易变性,指数据具有多层结构)。
当然,人们对后3V也有不同的理解,但6V从数据量和价值两个角度对大数据进行了描述,显得更为精准一些。
[1] 1EB=1 024PB=1 048 576TB=1 152 921 504 606 846 976Bytes;
1ZB=1 024EB=1 180 591 620 717 411 303 424Bytes;
1YB=1 024ZB=1 208 925 819 614 629 174 706 176Bytes;
1NB=1 024YB=1 237 940 039 285 380 274 899 124 224Bytes;
1DB=1 024NB=1 267 650 600 228 229 401 496 703 205 376Bytes.