大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中,大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。同时IBM还给出了大数据的5V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。
X才于大数据,研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
麦肯锡全球研究所对大数据定义:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
最小的基本单位是bit,可以按顺序给出所有单位:bit(Binary Digit)、B(Byte)、KB(Kilobyte)、MB(Megabyte)、GB(Gigabyte)、TB(Terabyte)、PB(Petabyte)、EB(Exabyte)、ZB(Zettabyte)、YB(Yottabyte)、BB(Brontobyte)、NB(NonaByte)、DB(DoggaByte)。
它们按照进率1024(2的十次方)来计算:
1B=8bit
1KB=1024B=8192bit
1MB=1024KB=1048576B
1GB=1024MB=1048576KB
1TB=1024GB=1048576MB
1PB=1024TB=1048576GB
1EB=1024PB=1048576TB
1ZB=1024EB=1048576PB
1YB=1024ZB=1048576EB
1BB=1024YB=1048576ZB
1NB=1024BB=1048576YB
1DB=1024NB=1048576BB
容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息;
种类(Variety):数据类型的多样性;
速度(Velocity):指获得数据的速度;
可变性(Variability):妨碍了处理和有效地管理数据的过程;
真实性(Veracity):数据的质量;
复杂性(Complexity):数据量巨大,来源多渠道;
价值(Value):合理运用大数据,以低成本创造高价值。
大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要部分。据IDC的调查报告显示:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。大数据就是互联网发展到现今阶段的一种表象或特征而已,没有必要神话它或对它保持敬畏之心,在以云计算为代表的技术创新大幕的衬托下,这些原本看起来很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。另外,想要系统地认知大数据,必须要全面而细致地分解它,着手从三个层面来展开:
第一层面是理论,理论是认知的必经途径,也是被广泛认同和传播的基线。在这里从大数据的特征定义理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深人解析大数据的珍贵所在;洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。
第二层面是技术,技术是大数据价值体现的手段和前进的基石。在这里分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。
第三层面是实践,实践是大数据的最终价值体现。在这里分别从互联网的大数据、政府的大数据、企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图。