购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.2 大数据的定义

“大数据”概念于20世纪90年代提出,最初只是对一些在一定时间内无法用传统方法进行抓取、管理和处理的数据的统称。“大数据”这个术语最早期的引用可追溯到apache.org的开源项目Nutch。当时,大数据用来描述更新网络搜索索引需要同时进行批量处理或分析的大量数据集。

目前,业界对大数据缺乏统一的定义,常见的大数据定义如下。

“大数据是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合。”——麦肯锡

“大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集。”——维基百科

“大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。”——Gartner

“大数据是大交易数据、大交互数据和大数据处理的总称。”——Informatica

虽然大数据的定义很模糊,但其具备的Volume、Velocity、Variety和Value 4个特征,却是业界公认的。

(1)Volume:表示大数据的数据体量巨大。数据集合的规模不断扩大,已从GB到TB再到PB级,甚至开始以EB和ZB来计数。比如一个中型城市的视频监控摄像头每天就能产生几十TB的数据。据IDC的研究报告称,未来10年全球大数据将增加50倍,管理数据仓库的服务器数量将增加10倍。

(2)Velocity:数据产生、处理和分析的速度在持续加快,数据流量大。加速的原因是数据创建的实时性,以及需要将流数据结合到业务流程和决策过程中的要求。数据处理速度快,处理能力从批处理转向流处理。业界对大数据的处理能力有一个称谓——“1秒定律”,也就充分说明了大数据需要具备快速处理的能力,体现出它与传统的数据挖掘技术有着本质的区别。

(3)Variety:表示大数据的类型复杂。以往我们产生或处理的数据类型较为单一,大部分是结构化数据。而如今,社交网络、物联网、移动计算、在线广告等新的渠道和技术不断涌现,产生了大量半结构化或非结构化数据,如XML、邮件、博客、即时消息等,导致了新数据类型的剧增。企业需要整合并分析来自复杂的传统和非传统信息源的数据,包括企业内部和外部的数据。而且,随着传感器、智能设备和社会协同应用的爆炸性增长,数据的类型将无以计数,包括文本、微博、传感器数据、音频、视频、点击流、日志文件等。

(4)Value:大数据由于体量不断加大,单位数据的价值密度在不断降低,然而数据的整体价值在提高。大数据甚至被等同于黄金和石油,体现出大数据当中蕴含了无限的商业价值。根据IDC调研报告预测,大数据技术与服务市场将从2010年的32亿美元攀升至2015年的169亿美元,实现年增长率达40%,并且将会是整个IT与通信产业增长率的7倍。通过对大数据进行处理,找出其中潜在的商业价值,将会产生巨大的商业利润。

从4V角度可以很好地看到传统数据与大数据的区别,如表1-1所示。

表1-1 传统数据与大数据的区别 saa4EcQNzzxU/UjIEm0B9Q4bY/cHvLbhh+EZy3yi50O6TJwf0nwRJewxgb9g/3ZO

点击中间区域
呼出菜单
上一章
目录
下一章
×