2012年是中国的“大数据元年”,是大数据概念广为人知、引人瞩目的一年,而2013年通过媒体和行业的共同推动,大数据已经成为一种社会现象。它既是一种具体解决数据瓶颈问题的技术路径,也成为对数据应用及价值挖掘的高度抽象和概括。数据容量的爆炸性增长给数据的采集、存储、分析带来了具有实际意义的现象和挑战,同时,随着数据爆炸导致的可使用数据的激增,人们需要对数据更精准地处理、整合和分析,以从中发现新知识、创造新价值,带来社会、科学、商业方面的大发展。因此,大数据被赋予技术之外的更深层次的意义。
过去,管理及应用海量信息的大投入、数据运营的高成本让中小型企业用户对大数据望而却步,而大数据时代开源技术的发展,将极大地降低数据使用成本,这也极大地推动和加速了大数据的进一步发展。未来,开源软件的低成本、高灵活性、高扩展性的特点,将使其在整个大数据产业链中扮演的角色越来越重要。在性能方面,随着开源技术对数据掌控的能力不断加强,开源技术将在稳定性、安全性上得到不断完善和有效提升;在创新方面,围绕开源技术的模式创新和服务创新将得以形成,以更快地适应大数据时代的业务变革和转型升级。
正因为技术和市场的共同推动,大数据价值被更多的企业发现并利用,数据在国家、企业和社会层面渐渐成为重要的战略资源。对数据的掌控决定了对市场的支配和巨大的经济回报,这个趋势在互联网、电子商务、金融、电信等行业已经是现实,并逐步向政务、科技、医疗、交通、商业、能源、智慧城市等方面渗透。在大数据产业链中,天然具备海量数据的公司是数据拥有方,能提供大数据环境下数据处理能力及解决方案的公司是技术提供方,能有效整合数据资源、提供面向行业分析服务的公司是数据服务方,能有效挖掘数据、利用数据并形成新的商业模式和商业服务的公司是数据应用方,四者共同构成了大数据的产业生态链。
生态链第一类通常是政府机构、电网、石油公司这样拥有大量数据,并可以不断收集到更多的数据,却难以从数据中提取价值或利用数据催生创新思想的机构。目前国外类似机构已与数据服务机构形成了有效合作,这些机构利用专业大数据公司的服务能力,提升数据处理能力,挖掘潜在数据价值,为客户提供更优质的服务。
生态链的第二类公司通常是咨询公司、技术供应商,其中包括传统的IBM、EMC、Teradata等技术服务公司,同时我们也欣喜地看到越来越多的类似Cloudera、DataStax、MapR等基于开源技术的公司也加入到技术服务商的行列。随着开源技术的快速发展,有大数据应用需求的企业拥有了更低成本、可扩展的和优质的大数据解决方案。
位于生态链第三类的数据分析服务机构通常拥有良好的行业背景和知识,在大数据时代,这些机构开始尝试通过云计算服务和大数据技术实现面向行业提供专业性的数据服务,新的模式能提供有效地面向全行业性的综合数据分析,实现行业数据价值最大化。例如Palantir Technologies最初是一家服务于美国情报机构的大数据分析公司,由于投资者关注度持续提高,其估值已经达到约90亿美元。CIA和FBI使用Palantir平台找出大量不同数据之间的共同特点,从而可以用于追踪恐怖分子嫌疑人、贩毒分子或网络犯罪。Palantir同时还为企业提供反欺诈服务,提出有关内幕交易威胁的警告,此外还提供帮助制药行业加速研发进程的服务。
最后一类是基于模式创新思维的公司,对于这些公司来说,数据和技能都不是成功的关键。让这些公司脱颖而出的是团队独特的创新思维,他们有采集整合数据并且有效利用数据新价值的独特想法。如2013年7月获得3000 万美元融资的健康应用及数据公司Withings,将健康数据信息直接传到健康终端提供服务,先后推出了智能体重秤、与iPhone 连接的血压计、可以开启视频模式的婴儿监视仪以及Withings Pulse健康行为跟踪设备等。
对于大数据时代来说,拥有数据资源的传统行业、IT企业在数据处理、数据分析、数据应用方面的压力和问题越来越多,迫切需要在海量环境下具有数据分析能力、整合能力、应用创新能力的公司提供服务。因此,云服务式、行业专家式、具有互联网思维的大数据服务公司将会在未来市场中将占据极为重要的地位。
在大数据信息时代,企业拥有的数据规模、灵活性及收集、运用数据的能力,将决定其核心竞争力。数据将成为企业的核心资产,掌控数据,就可以支配市场,意味着巨大的投资回报。那些拥有数据基因和互联网思维的公司,正不断创造新的商业模式。
随着电商平台、互联网的应用以及社交媒体的发展,每个潜在客户都在网络上留下很多的数据,通过对海量数据的多维度重组,使得企业能够通过精准细致的数据引导自身营销策略的改变。同时,企业之间也在推动各平台间的内容、用户、广告投放的全面打通,通过用户关系链的融合以及网络媒体的社会化重组,给企业带来更好的精准社会化营销效果。每一次营销,都将依托数据形成循环效果。通过定位用户群、分析用户内容偏好、分析用户行为偏好、建立受众分群模型、制定渠道和创意策略、完成投放评估效果等数据分析,不断把控营销质量与效果,并充分结合历史数据分析实现从效果监测转向效果预测。
随着数据爆炸性增长和互联网模式的渗透,越来越多的行业、企业意识到,数据和信息已经成为智力资产和资源,数据的分析和处理能力正在成为企业日益重要的技术手段。如何解决目前面临的数据压力问题,并合理有效地利用数据,实现企业数据价值的最大化,更好地实施差异化竞争,是传统行业面临的问题。目前,大数据的技术主要应用在谷歌、Facebook、百度、腾讯、中国移动等互联网或通信运营巨头。但随着企业信息化应用的逐渐深入、互联网服务模式的推广以及物联网和生产自动化的发展,传统行业也会产生大量的数据,对于这些数据的分析和应用将促使企业在基础IT架构、数据处理、应用软件的开发和管理模式等领域产生新的变革。
随着大数据和互联网的推动,各行业用户对数据分析功能的需求更加旺盛,对数据分析的广度和速度都有更高的要求,产业链数据整合服务、应用行业化已成趋势,促使传统行业的产业链和数据资源尽快融合。同时,IT服务商的关注焦点也从如何解决企业的业务问题,转变为如何利用业务系统产生的数据而更好地为生产、经营、决策服务。因此,更多的企业转向有关行业数据服务,越靠近最终用户数据的企业,在产业链中将拥有越大的控制力。
对大数据的挖掘和应用可以有效地提高生产效率,创造出大量的市场价值,因此第三方数据服务成为一种现实存在的直接盈利手段。无论是搜索引擎行业、电子商务领域还是传统行业,都可以通过出售原始的数据或经过处理分析的商业结果来获取直接的利益,商品化的数据应用创造了新的商业模式。
一些行业数据公司,在行业内广泛收集整合数据,以庞大的数据中心加上专用的数据终端,形成数据采集、数据分析、价值传递的完整链条,通过出售广泛收集、精心过滤、时效性强的数据,成为各自行业的数据提供方。庞大的数据库成为它们的核心竞争力,是竞争对手难以逾越的鸿沟。
苹果公司于2010年收购Siri,之后不断地给它提供数据和信息。现在,随着人们反映问题的增多,Siri正变成一位越来越老练的个人助手,为iPhone用户提供了提醒、天气预报、饭店建议等服务,其能够回答的问题数不断膨胀,难以预估其未来广阔的前景。
可见随着大数据技术的发展,数据不仅会变得越来越普遍,并且将越来越集中,并逐步通过机器学习等技术发展成一个巨大的知识数据库,该知识库可以提供海量的数据存储。同时大数据时代获取知识和分析信息的计算机技术正在快速发展,包括自然语言处理、模式识别及机器学习、人工智能技术等。在此基础上,仿真人脑技术将会成为可能,在没有逻辑和思考能力的情况下,利用数据分析和理解,通过大数据技术进行分析、计算、推理,同样可以具有人脑智能分析、预测的功能。
大数据已经是过去两年关注最高的技术词汇,同时大数据市场也实现了快速发展,越来越多的企业开始应用大数据解决方案,而随着整个系统的日益成熟,大数据技术也不再是互联网技术人员的工具,而是数据科学家和业务人员手中挖掘数据商业价值的强大“矿机”。
如果说2013年只是大数据市场发展的初期,那么2014年大数据市场将迎来高速发展期,大数据市场的发展方向也越来越明显。综合计算机学会大数据专家委员会2013年报告和其他业界观点,现将中国未来几年的大数据发展方向整理如下。
数据资源化已经是大数据发展的首要问题。如今,大数据价值被更多的企业发现并利用,大数据在国家、企业和社会层面渐渐成为重要的战略资源,成为新的战略制高点。但目前在中国,无论是行业数据还是政务数据,开放程度极为有限,数据孤岛和数据保护现象还相当严重,这需要政府和企业进一步转变心态,共同迎接大数据时代的到来。
战略分析平台提供商Alteryx认为,2014年以Hadoop等为主的大数据技术将摆脱互联网开源技术的形象,成为企业数据处理的通用计算架构,这意味着传统行业分析是大数据的第一应用。同时,未来的大数据相关技术将进一步产业化,提供更加安全的服务,支持更加高级的运营管理和资源管理,会提供更多企业需要的功能,并成为企业大数据平台的标准化组件。
大数据处理离不开云计算技术,云计算为大数据提供弹性可扩展的基础设施支撑环境以及数据服务的高效模式,大数据则为云计算提供了新的商业价值,大数据技术与云计算技术必有更完美的结合。未来大数据将从概念走向实用,并与云计算服务整合。例如,云计算服务商Gainsight已经开始采用大数据分析技术向其SaaS客户提供“客户成功管理”服务。Gainsight认为2014年所有的云计算服务提供商的后台基础设施都将提供大数据分析功能。
越来越多的企业意识到消费者数据分析的重要性,在企业大数据分析领域将出现革命性的突破。2014年营销大数据将迎来大发展,重点包括广告、促销和用户行为分析。
大数据的不断增加,对数据存储的物理安全性要求会越来越高,从而对数据的多副本与容灾机制提出更高的要求。同时,数据泛滥的时代,网络和数字化生活使得犯罪分子更容易盗取关于他人的信息,可能会出现更高明的骗局。如何解决大数据带来的安全问题、隐私问题,是各大技术公司和服务公司迫切需要解决的问题。
在大数据的支撑下,利用移动设备和传感器来观察并监控环境,并加强现实世界物体之间,现实物体与互联网用户对象之间的协同,提供对终端设备的智能化控制和智能化交互,最终物联网将发展为智能物联网。而智能物联网在数据采集和信息交互方面将产生海量的数据,这同样会再次促进大数据的高速发展。
数据中间服务商将整合行业数据,并对之加以处理分析,提供面向更多企业的应用。同时在政务数据方面,全国已建立了多个领域的数据共享平台,包括气象、地震、林业、农业、海洋、人口与健康、地球系统科学等数据共享平台。
为了支持大数据非结构化、不断刷新的特点,未来行业系统基础架构层面也会发生变化。大数据的基础架构支撑已经不仅限于高性能计算层面,而且需要硬件产品更好地支持虚拟化和分布式架构软件,基于固态存储的分层存储解决方案、智能化的负载均衡网络结构也会得到更多应用。同时,图像、视频、文本等非结构化数据正随着互联网和行业发展积累得越来越多,而针对这些数据的识别处理技术也在同步发展。