习近平总书记在论述当代重大科技进步时特别举了大数据的例子。他说,研究表明,工业化时期数据量大约每十年翻一番,现在数据量每两年就翻一番。浩瀚的数据海洋就如同工业社会的石油资源,蕴涵着巨大的生产力和商机,谁掌握了大数据技术,谁就掌握了发展的资源和主动权。
人与自然的各种活动可以产生大量的数据,而数据是进行决策的依据。大数据时代的到来,得到了很多国家的响应,各国纷纷将大数据政策上升为国家战略。2012年3月,美国发布《大数据研究与发展倡议》,启动“大数据研究与开发计划”。2013年6月,日本公布《创建最尖端IT国家宣言》,以促进大数据的广泛应用。2013年8月,澳大利亚出台大数据相关政策,推出了大数据分析的实践指南。此外,英、法、韩等国也纷纷启动了大数据中心战略。我国于2015年也相继出台了《关于运用大数据加强对市场主体服务和监管的若干意见》和《促进大数据发展行动纲要》,对大数据产业的发展进行了系统部署。
在传统小数据时代,由于存储成本较高,数据无法得到有效的捕捉和存储。即使部分小数据能够通过抽样保存下来,也无法通过网络及时连接起来,数据躺在一个个孤岛上,其价值很难得到。在大数据时代,这两个方面都发生了变化。一方面,软硬件技术的进步降低了数据捕捉和存储的成本。例如,美国公司Space Know存储了2亿张中国各工业基地跨越14年的卫星照片,用来分析中国PMI指数的走势。另一方面,互联网技术的进步将各种不同种类的数据连接起来。例如,美国加州大学伯克利分校和德意志电信合作开发了一款App,利用智能手机内置的陀螺仪感知地震。开发者可以实时在线收集大量震动数据,通过在线大数据为人们提供地震预警服务。随着各种大体量的数据逐渐连接到了一起,数据利用的方式产生了根本性的变化,其经济价值也越来越大。
传统小数据时代中,非常有限的数据主要用于解释过去发生了什么,对未来的预测能力较弱。例如,传统电视节目收视率的调查一般用来证明该节目在过去是否取得了成功,很难做到提前预测。而大数据的核心就是预测,将海量数据应用到各种复杂的预测模型中,通过高速计算来预测各种事情发生的可能性。在越来越多的领域,大数据的预测能力已得到业界的认可。例如,Google公司通过对搜索关键词进行分析,比政府检测部门提早两周预测到禽流感分布,及时地提供了预警服务。而该公司提前一个月对电影票房预测的准确率高达94%。当然,大数据并不一定能准确预测所有的事物,对于完全随机的事物(如双色球彩票等)而言,大数据的预测能力和随机抛硬币并没有什么本质的区别。
大数据的“大”,意味着在现有技术条件下捕捉到尽可能多的数据,与之前的随机抽样相比,更加接近全部数据,预测的能力也相应提升。随着技术的进步,大数据的体量越来越接近全部样本,处理速度和预测能力也不断提升。
与传统小数据相比,大数据之所以预测能力强,除了数据规模大之外,还依赖于其他三个主要特征。
一是客观性强。首先,大数据一般通过计算机程序自动完成捕捉和存储,不会受到人为主观情绪的影响。其次,从微观数据到宏观数据汇总的过程中不再需要人工介入,不存在人为粉饰数据的可能性。最后,由于样本比较接近全体样本,可以有效避免小样本抽样时存在的主观选择问题。
二是全面描述。大数据种类繁多,相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、图片、视频等。虽然这些非文本类型的数据拉低了数据整体的价值密度,但是它们不仅能够更加全面地描述事物,而且对传统结构化的数据可以做到交叉验证,提高数据质量。例如,对于用户所在地,可以用IP地址、身份证户籍地址、手机地理位置等多个信息进行交叉确认,较容易识别出虚假信息,在授信等很多场景下具有较高的价值。
三是实时分析。在线数据的分析能够实时完成,也是大数据区别于传统小数据的重要特征。当大量数据实时联网时,分散在不同地理位置的数据突破了空间上的限制,依托强大的分析能力,进行7暳24小时的实时计算分析,及时对各种事物进行预测和预警。
大数据预测的理论基础来自计算机学科的机器学习和经济学科的计量经济学。
机器学习是计算机利用已有的数据进行训练,得出某种模型,并利用此模型预测未来的一种方法。机器学习就是把人类思考归纳经验的过程转化为计算机对数据处理得出模型的过程。计算机学习得出的模型能解决很多灵活复杂的问题。除了传统的结构化的文本数据,机器学习还非常擅长处理图片、音频、视频等非结构化的数据。然而,机器学习的处理过程不是基于因果逻辑,而是通过归纳思想得出的相关性结论。因此,机器学习只关注数据本身,它存在两个方面的问题:其一,可能出现过度拟合问题,即机器学习模型对训练的数据能够完美拟合,但是在进行实际预测时又可能不太准确。其二,大数据并非全部样本,而是在现有条件下获取到的尽可能多的样本,可能存在“幸存者偏差”现象,而机器学习模型无法识别出这种情况。
与机器学习只关注数据本身不同,计量经济学更加关注数据背后的理论,即事物之间的因果逻辑。计量经济学模型都是经济学家根据理论设定而非机器自动设定的。一方面,建立计量经济学模型需要借助大数据背后所涉及的各种科学的理论来建立模型,然后通过大数据来验证模型的正确性,最后将建立好的模型用于预测。另一方面,计量经济学可以发现大数据背后隐藏的各学科理论,从而加速科学的探索活动,促进社会科技的进步。与机器学习相比,计量经济学对数据规范性要求更高,目前它只能处理结构化的数据,而图像、视频、音频等数据必须转换为结构化数据后才可以进行计量分析。因此,机器学习和计量经济学需要相互结合、相互渗透,通过发挥各自的长处,来提高大数据预测的准确率。
大数据产业链的参与者主要包括基础设施提供商、数据提供商、分析技术提供商和业务应用提供商等四类。前两类在大数据时代初期有着重要的地位,而后两类则是大数据发展中后期的重点。
基础设施提供商是大数据产业软件设施的提供者,处于大数据产业链最上游的位置。主要有两类商家:一类是高性能数据存储软件(如提供分布式数据存储软件服务)。这类市场除了一些新兴的公司(如Cloudera等)之外,还有一些互联网巨头公司,他们牵头打造开源软件,通过开源协议向用户免费提供使用(如Hadoop等)。另一类是提供云基础架构服务的大数据提供商,一般由一些互联网巨头公司参与,如美国的亚马逊和中国的阿里云。通过云计算提供大数据基础设施的好处在于,用低廉的月租成本替代高额的固定投资,并且能够更快速部署应用,实现全球覆盖。
数据提供商则是手中握有海量数据的参与者,处于大数据产业链中最核心的位置。主要有两类商家:一类是利用自身先进的软硬件平台整合各类公开和私有大数据并不断更新,通过设计友好的调取界面,将大数据租赁出去。这类商家通常由传统的数据库服务商发展而来,在金融领域比较常见,如国内的通联数据、万德数据等。另一类则是搜索、社交、零售、金融或电信巨头通过本身的业务发展而来,在互联网行业比较常见。他们通过业务接触到海量用户,通过在和用户业务互动的过程中记录海量用户的偏好、点击、交易等各种信息,可以对社会的供给、需求、生产、交换等经济活动提供强有力的预测。如阿里巴巴的采购指数和供货指数能对社会各类商品的供给和需求进行较为精确的预测。此外,政府手中有交通、医疗、教育等公共资源的相关大数据,也可以通过开放和市场化的原则成为这个环节的参与者。
分析技术提供商主要集中在分析工具领域,处于大数据产业较下游的位置。这类企业一般将大数据科学研究产业化,将研究人员设计的最新算法、最新的可视化方案进行应用。该领域也存在两类商家:一类公司由传统的统计软件提供商转型而来,如Matlab,SAS等,其定位是为企业提供更好用的大数据分析工具,为一些有大数据研究能力的企业提供服务。另一类则是通过提供搜索技术和内容管理技术来帮助企业分析处理视频、图像等难以处理的非结构化大数据。如国外的Splunk和国内的TRS等,为政府和企业用户提供服务。
业务应用提供商在行业应用、广告优化、市场营销和金融行业较为活跃,是大数据产业链中最有活力的领域。如美国广告服务商Double Click利用其专有的动态广告报告与目标定位技术,可让企业通过他们的云平台管理各自广告投放的统计报告。而Google公司也通过AdSense大数据平台做到企业广告的精准投放,将广告投放到真正有兴趣的客户手中,避免了广播式投放的低效率。此外,Lenddo等公司收集人们在社交媒体上的表现,为银行等金融机构提供个人的信用评级报告。总体来说,这类业务处于大数据产业链的最下游,能让最广大的中小企业和非IT企业也享受到大数据时代的红利,具有较大的发展空间。
当前大数据发展还存在一些障碍需要突破,主要是:栙隐私问题。大数据收集个人信息并使用,将造成一系列的侵犯隐私问题,如身份识别的攻击、不公平地使用敏感信息、影响公众的个人行为等。随着个人信息数据量与复杂度的增加,监管与保护问题将变得愈加具有挑战性。在大数据发展的同时,应当大力发展对大数据使用的监管技术以及大数据自身对个人隐私的保护能力。当然,企业本身是逐利的,任何隐私保护技术都无法替代法律,只有在法律上对企业加以约束才有可能解决问题。栚大数据产权的保护问题。目前大数据的产权归属并不十分清晰。例如,Google公司强调其平台上的信息为信息提供者(即每个用户)所有,而其他绝大部分平台属性的大数据公司都没有对这个问题进行表态,而且这个问题在法律上也处于空白地带。栛大数据人才缺口。麦肯锡研究报告指出,仅仅在美国市场,2018年大数据人才缺口将高达170万。而根据艾瑞咨询发布的报告,2016年中国大数据相关人才的缺口已经超过100万。大数据不仅仅需要相关IT技术人才,更需要大量的能够提出正确问题,运用大数据分析结果,并且熟悉业务的人才。教育部门需要加强大数据人才培养的力度,以适应大数据时代对人才的需求。