早在2012年,大数据(Big Data)一词就被人们提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。正如《纽约时报》2012年2月的一篇专栏中所称,“大数据”时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而做出,而非基于经验和直觉。
最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用预示着新一波生产率增长和消费者盈余浪潮的到来。“大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通信等行业的存在已有时日,却因为近年来互联网和信息行业的发展而引起广泛关注。
大数据的应用和技术起源于互联网,雅虎最早在实际环境中搭建了大规模的Hadoop集群,这是Hadoop在互联网公司使用的最早案例,后来Hadoop生态的技术又渗透到了电信、金融等更多的行业。
从大数据概念被提出至今,人们已经广泛使用了很多年的“大数据”叫法,那么“大数据”的具体概念应该是什么?
目前还没有任何官方机构明确地说明什么是大数据,因为在不同的时代人们对大数据的定义也是不同的。高德纳咨询公司(Gartner)认为大数据是“需要新处理模式才能具有更强决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产”;国际电信联盟(ITU)在首个大数据标准ITU Y.3600中对大数据的解释是“对具有异构性的超常规数据集进行实时收集、存储、管理、分析和展示的模式”;国际标准化组织(ISO)在ISO/IEC 20546中对大数据的理解是“在数量之大、种类之多、流速之快和变化之易等特性上超常规,且为此需要可伸缩架构来进行有效存储、操作和分析的数据集”。
这三个不同的组织都突出了大数据的特点,而这些特点需要数据处理方式上的变革,其中包括多元数据采集(结构化和非结构化)、异构数据存储、超大规模秒级查询以及对数据的分析及计算能力。因此可以说,大数据其实是以技术驱动的变革,先从概念变成一个产业,再将产业做成一个生态,道路是曲折的。
1.大数据的特征
早在2001年,Gartner分析员道格·莱尼就在一份与其当年研究成果相关的演讲中指出,数据增长有三个方向的挑战和机遇,分别是:体量(Volume),即数据多少;速度(Velocity),即资料输入、输出的速度;变量(Variety),即多样性。
在莱尼理论的基础上,IBM提出大数据的4V特征,得到了业界的广泛认可。
(1)数量(Volume),即数据巨大,从TB级别跃升到PB级别
大数据到底有多大?一组名为“互联网上的一天”的数据告诉我们,一天之中,互联网产生的全部内容可以刻满1.68亿张DVD;发出的邮件有2940亿封之多(相当于美国两年的纸质信件数量);发出的社区帖子达200万个(相当于《时代》杂志770年的文字量);卖出的手机为37.8万台,高于全球每天出生的婴儿数量(37.1万)。
当前,全球数据量仍在飞速增长的阶段。根据国际机构Statista的统计和预测,2020年全球数据产生量预计达到47ZB,而到2035年,这一数字将达到2142ZB,全球数据量即将迎来更大规模的爆发。换言之,大数据时代已真正降临,其体量非常庞大。
(2)速度(Velocity),即处理速度快
大数据的飞速增长为数据的存储、传输和处理速度带来了新的挑战。同时,大数据对实时性的要求也非常高。相对于小数据,大数据的产生更具有连续性的特点,和大数据相关的速度有数据产生的频率及大数据处理、记录和发布的频率等。
随着物联网和5G的广泛应用,大数据的速度特点体现为数据感知能力强、传输及处理速度快和时效性要求高。
(3)多样性(Variety),即数据类型繁多
数据从结构化向半结构化和非结构化的转变,不断挑战着传统的数据处理工具和技术。大数据的多样性主要体现在数据来源多、数据类型多和数据之间关联性强这三个方面。
例如,国内某信息安全厂商在收集和处理安全行业中的大数据时,发现数据不仅包括来自互联网的视频、图片、地理位置等信息,还包括网络安全领域中的网络流量日志、主机日志、告警日志等。
(4)真实性(Veracity),即数据的质量
数据可以产生巨大的价值,但在挖掘出价值之前,数据的真实性和可靠性也同样重要。大数据不仅是在体量上大,而且必须是真实可靠的,这样才能保证经过分析之后得到应有的价值。不同来源的数据质量差别可能很大,大多数情况下大数据中有价值的数据所占比例很小。大数据真正的价值体现在如何通过强大的机器学习算法,迅速从大量不相关的、各种类型的数据中挖掘出能够预测未来趋势的有价值的数据。
2.大数据的价值
要使大数据的价值达到可用的程度,就必须有足够规模的数据积累和有效的价值提取方法。
20世纪70年代初,某发达国家曾提出高价收购白云鄂博的铁矿渣。当地政府报告国务院后,周恩来总理指示有关科研单位调查其中的原因,并拒绝了对方的购买要求,先将矿渣铺成了路基。后来发现,矿渣里有稀土磁铁,而当时我国还没掌握相关的冶炼技术。进入21世纪,我国对矿渣做进一步研究后发现,其中还含有放射性元素钍,但是到目前为止我国仍然无法将其有效回收利用。如图1-1所示,在不同技术发展水平下,从矿渣中能提取到的成分不同,其产生的价值也相差很大。
·图1-1 大数据价值类比
同样,大数据的价值潜藏在数据里面,而数据价值密度相对较低,如果采用传统的技术手段单纯利用统计指标来做分析,有些时候就不能充分利用其中的信息,这时就需要通过大数据技术去挖掘数据价值,也就是本书所要探讨的核心问题。
本书在介绍大数据技术时侧重于介绍大数据分析技术。人们一般将大数据分析定义为一组能够高效存储和处理海量数据,并有效达成多种分析目标的工具及技术的集合。