购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

3.2 大数据的概念与特征

3.2.1 大数据的概念

目前的大数据定义是:表示数据集的一个术语,它代表的数据集在其运行时超过了传统软件的收集、管理和数据处理能力。大数据的主要特征是丰富的数据类型、大量的数据和广泛的数据源。这也与现有的数据形式有所不同,当然在大数据领域也不仅仅只是大规模的数据和云计算的简单运用,更是一种从种类繁多的海量数据中快速获取有价值和有预见性信息的能力。根据互联网数据中心(Internet Data Center,IDC)提出的定义,大数据的“4V”特征为:海量(Volume)、多样性(Variety)、速度(Velocity)和价值(Value),如图3-1所示。

图3-1 大数据的“4V”特征

3.2.2 海量

当前人类社会正在经历“数据大爆炸”的时代,数据产生的速度和数量已经大大超出了人类可控的范围,因而,“数据爆炸”也就被称之为大数据时代最鲜明的特征。从著名机构IDC的预测中可以得知,人类社会的数据量以每年在前一年的基础上增加一半数据量的速度增长,也就是说,每两年人类社会产生的数据都会增加一倍,也称之为“大数据摩尔定律”。

3.2.3 多样性

多样性指的是数据类型多样,这里既包含传统的结构化数据,同时也包含了大量的非结构化及半结构化数据。而且,相较于传统企业中的结构化数据,在大数据环境下有约20%的结构化数据存储在数据库中,剩余的数据量则属于互联网上的数据,如用户数据、物联网传输数据及社交数据等非结构化和动态变化的数据。

(1)结构化数据,如企业内部生成的数据等,主要包括在线交易数据和在线分析数据。这些数据通常是结构化的静态历史数据,可以通过关系数据进行管理和访问。数据仓库通常用于处理此数据。

(2)非结构化数据包括所有格式的文档、文本、图片、XML、HTML、各类报表、图像和音频信息等。

(3)半结构化数据介于前两者数据类型之间,具有自描述性,数据结构和内容混在一起。

3.2.4 速度

庞大的数据量需要相匹配的计算分析速度,目前已经有许多的机构和公司设计了相应的计算分析系统,应用最为广泛的是集群处理和独特的内部设计方法。以Google公司的Dremel为例,这是一个可拓展和可实时交互的大数据查询系统,可以用于分析嵌套数据,在结合多级树状图执行过程及列式数据结构的基础上,它可以在几秒内将万亿张表进行聚合查询,同时可以在大规模的CPU上进行扩展,以满足用户操作PB级(1PB=1024TB)数据的需求。

3.2.5 价值

价值也是衡量数据的一个标准。就价值密度而言,大数据的价值密度是比较低的。原因在于大数据时代,有价值的信息是夹杂在海量的数据库中的。然而要从海量的数据库中获取相应有价值的信息需要对所有的数据进行分析处理,这就需要耗费大量的社会资源,如就监控系统而言有用的信息可能只存在于其中的几帧,但却需要监控系统不间断运作才可以记录到这几帧。因而,尽管大数据看上去前景很好,但是其价值密度却远低于传统关系型的数据库。 jRlazKCF1RYACLcwygNuewbs0+XQPhc9pzqk6frmyeHN9eXut8xUAcuXuHeRb7sc

点击中间区域
呼出菜单
上一章
目录
下一章
×