购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

大数据:内容为王

大数据一词源于英文的“Big Data”一词,如果要追溯大数据作为专业术语最初出处的话,就得从Apache的开源搜索引擎Nutch说起。当时大数据的意思是更新网络搜索索引,同时还需批量处理和分析大量的数据集。谷歌Map Reduce(映射化简)和GFS(Google File System,谷歌档案系统)发布之后,除了涵盖大量数据集之外,大数据的定义还包括数据处理的速度。

Gartner(高德纳咨询公司)曾经围绕3个“V”,给大数据下过这样一个定义:一种基于新的数据处理方式而产生的具有强大的决策力、洞察力以及流程优化能力的高容量(Volume)、高度复杂(Variety)且高速变化(Velocity)的信息资产。

麦肯锡全球研究所发布的《大数据:创新、竞争和生产力的下一个前沿》(James,2011)报告,认为大数据指的是大小规格超越传统数据库软件工具抓取、存储、管理和分析能力的数据群。

IBM概括大数据的特征有3个“V”,也就是大量化(Volume)、多样化(Variety)和快速化(Velocity)。此外,还潜藏着另一个V——高价值(Value)。

大数据的首要特征是数据的量大(Volume)。电脑的数据运算和储存单位都是字节B(byte),1KB(Kilobyte,千字节)等于1024B。除此之外还有更高单位MB(Megabyte,兆字节)、GB(Gigabyte,吉字节)、TB(Terabyte,太字节)、PB(Petabyte,拍字节)、EB(Exabyte,艾字节)、ZB(Zettabyte,泽字节)、YB(Yottabyte,尧字节)和BB(Brontobyte,千亿亿亿字节)。每一级之间的换算关系是1024=2^10(2的10次方)。2015年,全球数据存储量已达10ZB。据国际数据公司(IDC)预测,2020年全球数据量将突破44ZB,是2015年的4倍多。因为硬件技术的发展速度远远赶不上数据容量的增长速度,所以产生了数据存储和处理的危机。

海量数据存储危机的产生不仅是由于数据量爆炸性的增长,还有数据类型的改变而带来的多样化。在以前,数据库用二维表结构存储方式就可以储存大量数据,譬如常见的Excel软件中处理的数据,这类数据称为结构化数据。但是随着互联网多媒体应用的出现,声音、图片和视频等非结构化的数据所占比重日益增多。有统计表明,全世界非结构化数据的增长率是63%,相对而言,结构化数据增长率只有32%。

快速化描述的是数据被创建和移动的速度。在高速网络时代,通过基于实现软件性能优化的高速电脑处理器和服务器,创建实时数据流已成为流行趋势。企业不仅需要了解如何快速创建数据,还必须知道如何快速处理、分析并返回给用户,以满足他们的实时需求。基于IMS Research关于数据创建速度的调查,据预测,到2020年全球将拥有220亿部互联网连接设备。

高价值,是指大数据中饱含大量的不相关信息,浪里淘沙却又弥足珍贵。如果对用户没有太大的商业、技术或社会价值,这些数据集就没有什么意义。

斯坦福大学还提出另外两个V,时效性(Volatility,数据集在多长时间内有效)和变化率(Variability,不可预测的数据流及其变化程度)。

以上特征经过扩展后形成6个“V”,共同刻画出大数据的突出特征(见图1-1)。

图1-1 大数据的6个“V” iJh7ts4e6I3ekB2sjUxtFnsmFyH3/gbK5JyrbbUYFWQwHqa2yL4559jH/NjD06eb

点击中间区域
呼出菜单
上一章
目录
下一章
×