随着维克托·迈尔·舍恩伯格维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》面世,大数据成为热点进入普通人的视角。大数据是指以数据生产、采集、存储、加工、分析、服务为主的相关经济活动,包括数据资源建设、大数据软硬件产品的开发、销售和租赁活动,以及相关信息技术服务。其定义在学界尚未得到一致认可,国家统计局在参考了联合国欧洲经济委员会的分类标准后,将大数据定义为“通过非传统调查渠道、从第三方获取的数据,包括政府部门的行政记录数据、商业记录数据、互联网数据、基于电子设备生成的数据和其他数据等5大类”。
大数据的特征很多,学者和业界并未给出一致的意见,从一开始的“3V”到“8V”,每一个说法都给出了合理的解释。其中流传最广、接受度最高的是5V特征:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。
大量包含大数据产业链的方方面面,例如采集、存储、计算和维护,数据的起始计量单位是PB(1PB=1024TB,1TB=1024GB)。正常的单台计算机处理1GB的数据需要一分钟,处理1PB的数据需要四个多月,在没有分布式技术的前提下处理这些数据无疑是不可想象的。
大数据产业不仅高速产生数据,也对数据处理、分析、实时共享提出了高速的要求,例如精准营销算法要求在用户浏览新闻的几分钟之内完成用户个性化分析和产品推荐。
智能穿戴设备和相应的应用软件在物联网进程中极大地拓宽了数据来源的多样性,例如智能手机、智能眼镜、智能汽车、智能手表等新智能用品层出不穷,数据类型也从传统的结构化数据拓展成了结构化、半结构化和非结构化数据,不断刷新着人类对数据的理解范围。
信息感知多样性带来海量细而杂的数据,量大的同时带来的是价值密度低的难题,对数据挖掘和算法分析提出了更高要求。
大数据的真实性指的是数据的准确度和可信赖性。大数据的价值需要建立在数据真实性上面才有意义。
大数据的真实性风险实质上就是指大数据的质量究竟是高还是低。大数据在现实中面临着三种风险,即数据出处来源的可靠性风险、数据传递过程的失真性风险、数据分析结果的可信度风险。
第一,数据出处来源的可靠性风险。数据出处来源的真实可靠是对大数据进行科学分析、挖掘和研究的前提条件,如果数据的出处来源环节就出了问题,待分析的数据本身就不具有可信度,那么得出的结论、做出的决策不仅毫无价值,往往还会产生不小的危害,甚至带来方向性的误导。在进行数据的初始收集和整理的时候,应该对所收集整理数据的真实性和可信度进行严格的监测和细致的过滤,通过严格鉴别数据的出处和来源,正确识别并剔除掉虚假的数据信息甚至恶意的数据信息,真正收集整理出真实有用的数据信息。
第二,数据传递过程的失真性风险。大数据信息在网络传播的过程中有可能失真,失真的原因大致包括三个方面及人为选择性失真、人为操作性失真、非人为性失真。一是人为选择性失真,即人为干预了数据的采集、收集、存储过程,有选择性地、有指向性地、有侧重地选取数据,或是采集、收集、存储了大量无用的或不科学、不真实的数据信息。二是人为操作性失真。无论是普通的数据上传者,还是经验丰富的数据管理人员,都有可能因操作不当导致数据出现误差与失真的情况。例如,误改、误删等操作。三是非人为性失真,主要是指由于数据版本的变更而导致数据出现误差和失真。任何数据的形成都不是一劳永逸的,随着时空的转换、政策的调整、技术的革新、人力和物力的投入,数据总会在原始版的基础上出现各种升级版,出现数据的1.0版、2.0版、3.0版、4.0版……选择什么样的数据版本,就意味着失真的可能性将会有多大,版本的级别越高,失真的可能性就会越小,数据的真实性和可信度就会越强。
第三,数据分析结果的可信度风险。在大数据时代背景下,我们是否可以认为我们收集到的数据是全数据,并将数据处理思路从传统统计学中的通过样本推断总体向大数据时代的全数据研究转变。全数据这一概念本身就没有定量性的规定,全数据到底包括多少数据量是全数据概念界定与鉴定中需要注意、需要考虑的重要问题。实际上,尽管有大数据分析技术的支撑,研究者所接触和所获得的数据也很难包括全部数据,只有数据分析者自身本着求真求实的态度以及对数据分析技术、方法和手段的精准掌握与运用才能避免虚假信息和结论的泛滥,增强数据分析结果的可信度。