根据百度百科显示,最早提出大数据时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”
大数据(Big Data),是一个IT行业术语,是指无法在一定时间范围内用单机软件工具进行捕捉、管理和处理的数据集合,它需要使用分布式模式才能处理,其数据具有数量大、来源广、价值密度低等特征。
至于什么数据量算得上大数据,这个也没有一定的标准,一般来说,单机难以处理的数据量,就可以称得上大数据。
大数据和人工智能往往关系密切,人工智能算法必须依据数据才能构建合适的模型,以便用于预测和智能决策。当前,大数据技术已经在医药、电信、金融、安全监管、环保等领域广泛使用。
大数据时代,分布式的数据存储和查询模式可以对全量数据进行处理。举例来说,以前DNA和指纹数据库的建立,由于信息技术水平的限制,只能重点采集并存储部分人口的DNA和指纹数据,这种限制对于很多案件的侦破是非常不利的。
而当我们步入大数据时代后,从理论上来讲,采集并存储全球人口的DNA和指纹信息是可行的。因此,建立全量的DNA和指纹数据库,这对DNA和指纹数据的比对工作来说,具有非常大的价值。
以前我们研究问题,主要研究几个要素之间的因果关系,例如通过经验、观察实验和数学等理论推导出一些公式,用于指导生产和生活。而在大数据时代,更多的是对几个要素之间相关性进行分析。例如,通过对电商平台上的购买行为进行分析,可以对用户进行画像,并根据用户的历史购买记录,来智能推荐他可能感兴趣的商品,这种分析对提升成单率来说至关重要。
基于大数据的推荐系统,可能比你自己都要了解你自己。这也是在大数据时代人类越来越关心个人隐私信息的安全问题的原因。
相关性分析是寻找因果关系的利器。可以说,相关分析和因果分析是互相促进的。如果多个因素之间有明显的相关性,那么就可以进一步研究其因果关系。
大数据的价值就在于从海量数据中,通过机器学习算法自动搜寻多个因素之间的相关性,这些相关性可以大大减少人工搜寻的时间。换句话说,人工从海量数据中往往很难发现多个因素之间的相关性,而这恰恰是机器学习比较擅长的领域。
一般来说,大数据具有如下几个特点。
大数据场景下,对数据的采集、计算和存储所涉及的数量是非常庞大的,数据量往往多到单台计算机无法处理和存储,必须借助多台计算机构建的集群来分布式处理和存储。
分布式存储要保证数据存储的安全性。如果某一个节点上的数据损坏,那么必须从其他节点上对损坏节点上的数据进行自动修复,这个过程中就需要数据的副本,同一份数据会复制多份,并分布式存储到不同的节点上。
如果不借助大数据工具,自己实现一个分布式文件系统,那么其工作量非常大。因此,对于大数据的处理和存储来说,更好的方案就是选择一款开源的分布式文件系统。
以前由于数据采集手段落后、数据存储空间横向扩展困难,不能存储海量的数据,因此只会采集一些重要的数据,如财务数据、生产数据等。这就导致了高层管理人员在决策时,缺乏完整、统一的宏观数据作为数据支撑。
在大数据时代,由于数据采集手段多样、数据可以分布式存储,因此当前很多企业都会尽可能地存储数据,其中不少企业中都有传感器或者视频探头,它们会产生大量的数据,形成一个数据流,这些数据流的产生都是非常迅速的,因此分析这些数据的软件系统必须做到高效地采集、处理和存储这些高速生成的数据。
一般来说,大数据系统可以借助分布式集群构建的强大计算力,对海量数据进行快速处理。若处理数据的响应时间能到秒级,甚至毫秒级,那么其价值将非常大。实时大数据的处理,这也是目前众多大数据工具追求的一个重要能力。
生物具有多样性,动物有哺乳动物、鸟类和冷血动物等,植物有苔藓植物、蕨类植物和种子植物等。多样的生物只有和谐相处,才是可持续发展之道。
同样地,数据的载体也是多种多样,一般来说,可以分为结构化数据、非结构化数据和半结构化数据。其中很多业务数据都属于结构化数据,而是视频、音频和图像等都可划分为非结构化数据。在大数据时代下,非结构化数据从数量上来说占了大部分。因此,对视频、音频、图像和自然语言等非结构化数据的处理,也是当前大数据工具要攻克的重点。
大数据首先是数据量庞大,一般来说,都是PB级别的。但在特定场景下,真正有用的数据可能较少,即数据价值密度相对较低。从大数据中挖掘出有用的价值,如大海捞针一般。
举例来说,交通部门为了更好地对道路交通安全进行监管,在重点的路口都设有违法抓拍系统,会对每辆车进行拍照,这个数据量非常巨大,其中有交通违法行为的车辆照片并不多,可以说是万里挑一。因此这个价值密度相对低,但是存储这些数据非常重要,其中某一些图片资料对于协助破案来说会起到至关重要的作用。
大数据场景下,由于数据来源的多样性,互相可以验证,因此数据的真实性往往比较高。这里说的真实性,是指数据的准确性和及时性。数据的真实性也是大数据可以形成数据资产的一个重要前提,只有真实、可信的数据才能挖掘出有用的价值。
大数据由于具有如上的特点,这就对大数据的信息化软件提出了非常高的要求。一般的软件系统是无法很好的处理大数据的。从技术上看,大数据与云计算密不可分。大数据无法用单台计算机进行存储和处理,而必须采用分布式架构,即必须依托云计算提供的分布式存储和计算能力。
大数据目前有如下几点发展趋势。
目前人类已经步入数字经济时代,大数据是非常重要的一种生产资料,与土地、石油等资源作为重要的生产资料类似,数字经济时代以大数据作为最基础也是最重要的生产资料。
在大数据时代,信息的载体是数据。对于数据的分析与挖掘来说,其实质是生产各类信息产品,这些信息产品可以看作是一种数字商品,是可以产生实际价值的资产。若将大数据比作土地,那么基于大数据分析和挖掘出的信息产品,就好比在土地上种植出来的各种农产品。
大数据的基础是数据,而产生数据的源头更多是来自物联网和5G。物联网、移动互联网和5G等新兴技术,将进一步助力大数据的发展,让大数据为企业管理决策和政府决策提供更大的价值。特别是5G技术的推广,将进一步提升大数据的应用。
随着5G的发展,大数据很可能爆发新一轮的技术革命。人类处理信息往往借助视频、图像和声音(语言),因此大数据技术目前正在与机器学习、人工智能等相关技术进行深度结合,在视频、图像和语音的处理上,必须在理论上继续突破,才可能实现科学技术上的突破。视频中的行为检测、图像物体识别和语音识别等应用会产生极大的经济效益和社会效益。
数据作为一种重要的资产,只有流动起来才能更好地发挥价值。就像河里的水一样,只有流到田间地头对庄家进行灌溉,才能生产出农产品。数据在流转的过程中,数据的标准化非常重要,这样才能打破信息孤岛,从而更好地让数据产生价值。
大数据中涉及各类数据,其中难免有敏感的数据,数据在流转过程中,如何对敏感数据进行加密和脱敏,这将至关重要。因此,大数据应用必须充分考虑数据安全的问题。