购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

二、信息时代大数据的特点

大数据指的是无法使用传统流程或工具处理或分析的大量数据的集合。大数据既是数据量的一个激增,同时也是数据复杂性的提升。大数据与过去的海量数据有所区别,其基本特征可以用3个“V”开头的英文关键词来描述,即体量(volume)大、类型(variety)多、速度(velocity)快。

大数据的第一特征是数据体量巨大。大数据的数据存储量的计量单位从太字节(TB)量级跃升到拍字节(PB)量级。当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近艾字节(EB)量级。1E字节=1152921504606846976字节,约相当于一般个人计算机硬盘容量的100万倍。如今,传感器是生成数据的主要来源,2010年生成了1250亿千兆字节的数据,超过了宇宙中所有星星的数量。

大数据的第二特征是数据类型繁多,包括结构化的数据表和半结构化的网页以及非结构化的文本、图像、视频、地理位置等。物联网、云计算、移动互联网、车联网、手机、平板电脑以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。这些多类型多来源的数据对数据处理能力提出了更高的要求。

大数据的第三个特征是数据增长与处理速度快。数据源增加、数据通信的吞吐量提高、数据生成设备的计算能力提高,使得数据产生和更新的速度非常快。传统数据仓库、商务智能应用都采用的是批处理方式,但对于大数据,必须进行实时数据流处理。

产业界对大数据特征的定义普遍采用上述“3V”特征来描述,不过也有人认为除了“3V”特征,还应该增加1个“V”,即价值(value),它是大数据处理与分析的最终意义,即获得洞察力和价值。日本野村综合研究所认为“所谓大数据,是一个综合型概念,它包括因具3V(volume/variety/velocity)特征而难以进行管理的数据,对这些数据进行存储、处理、分析的技术,以及能够通过分析这些数据获得实用意义和观点的人才和组织”。这实际是在广义层面上为大数据给出了一个定义,如图1-1所示。

所谓“存储、处理、分析的技术”,指的是用于大规模数据分布式处理的框架Hadoop,具备良好扩展性的NoSQL数据库,以及机器学习和统计分析等。所谓“能够通过分析这些数据获得实用意义和观点的人才和组织”,指的是目前在世界各地十分紧俏的“数据科学家”,各行各业能与“数据科学家”对接的多学科人才,以及能够对大数据进行有效运用的组织。

图1-1 大数据的范畴

维克托·迈尔·舍恩伯格认为大数据有三个主要的特点,分别是全体性、混杂性和相关性。第一,是全体性,即收集和分析有关研究问题更多、更全面的数据,数据量的绝对数字并不重要,重要的是有多少数据和研究的现象相关,通过与研究问题有关的更多、更全面的数据可以看到很多细节,这些细节在以前通过随机抽样方式获取少量样本数据的条件下是得不到的。第二,是混杂性,即接受混杂的数据,在小数据时代人们总试图收集一些非常干净的、高质量的数据,花费很多金钱和精力来确定这些数据是好数据、高质量的数据,可是在大数据时代,就不再去追求特别的精确性。当微观上失去了精确性,宏观上却能获得准确性。第三,是相关性,因为大数据的混杂性特点,要求人们从小数据时代寻求因果关系转向大数据时代发现相关关系。 PKIvpP6PJltH9V5iL56YVwhSSGnmEryid3trrcR8D62nsg+NyqIsV9k1AWTFuZ8h

点击中间区域
呼出菜单
上一章
目录
下一章
×