影响未来的新科技新产业最新章节_中国社会科学院工业经济研究所未来产业研究组著

应用让数据说话

应用是大数据的最终价值的体现。2011～2014年，无论是在媒体还是在专家眼里，“大数据”已俨然成为新的“金子”或者“石油”。然而2015年，这项技术似乎在某种程度上陷入了停滞，可能是数据领域的一部分“技术宅”转移了兴趣，开始沉迷于AI以及机器智能、深度学习等许多相关概念。从2016年大数据产业图谱来看，大公司的布局已经使得这张图谱变得越来越拥挤，技术含量不高的过度竞争难以避免，很多企业已没有办法挤进大数据的产业生态。

需要强调的是，大数据为许多消费者或商业用户体验提供了动力，但其核心是数据库、分析等技术，而这些东西都是在后端运行的，没有几个人能看得见。大数据的成功也不在于实现技术的某一方面（如Hadoop），而是需要把一连串的技术、人和流程糅合到一起。采集捕捉数据、存储数据、清洗数据、查询数据、分析数据并对数据进行可视处理，这些工作一部分可以由产品来完成，而有的则需要人来做。因此，对于企业来说，早期从事大数据技术的研发意味着十分艰苦的工作。而对于投资者而言，要想从大数据产业获利就必须要有很好的模式支撑。

图1-3 2016年大数据产业图谱

早期部署阶段

在早期，大数据现象主要是受到与一批骨干互联网公司（尤其是谷歌、脸书、推特等）的共生关系的推动。这些公司既是核心大数据技术的主要用户，同时也是核心技术的创造者。随着业务的不断拓展，当公司突然间面对规模前所未有的庞大数据时，由于本身缺乏传统的（昂贵的）基础设施，且无法招募到一些最好的工程师，所以只好自己动手来开发所需的技术。后来随着开源运动的迅速发展，一大批此类新技术开始共享到更广的范围。然后，一些互联网大公司的工程师离职去创办自己的大数据初创企业。其他一些“数字原生”公司，包括崭露头角的独角兽公司，也开始面临着互联网大公司的类似需求，由于它们自身也没有传统的基础设施，所以自然地就成为那些大数据技术的早期采用者。而早期的成功又导致更多创业活动的发生，并获得了更多的VC（风险投资）资助，从而带动大数据的起势。

在经过几年引人注目的初创企业如雨后春笋般出现，VC频登头条后，大数据应用开始步入部署期和早期成熟期。更有前瞻性的大公司（姑且称为传统技术采用周期的“早期采用者”）在2011～2013年开始实验大数据技术，推出了若干的Hadoop试点计划（往往是因为赶时髦）或者尝试一些点方案。这些大公司设立了各种各样此前并不存在的岗位（如“数据科学家”或“首席数据官”），并进行各种努力，包括把全部数据都堆到一个数据容器（data lake），希望随后就会发生奇迹（往往不会）。通过逐步建设自己的内部能力，试验各种供应商，从试点计划到生产中的局部部署，然后到现在争论要不要全企业铺开（全范围铺开实施的情况还很罕见）。在许多情况下，不少公司正处在这样一个重要的拐点上，即经过大数据基础设施的数年建设后，能够展示的成果还不多，至少在公司内部的商业用户看来是这样。但是大量吃力不讨好的工作已经做完了，现在已开始进入有影响力的应用部署阶段了。只是从目前来看，这种建构在核心架构上的应用数量还不成比例。

接下来的一波大公司（姑且称为传统技术采用周期的“早期多数使用者”）大多数的时候对大数据技术都是持观望态度。对于有关大数据产业生态，这类公司还心存一定程度的困惑。更有意思的是，这类企业指望某个大型供应商（如IBM）会提供一个一站式的解决方案，不过现在看来这种情况在近期内并不会出现。由于对这一大数据版图心怀恐惧，不少大公司一度犹豫自己是不是真的需要跟这一堆看起来并没有什么不同的初创企业合作，然后修订出各种解决方案。

生态体系正在成熟

在初创企业/供应商方面，第一波的大数据公司（2009～2013年成立的那一批）现在已经融了数轮的资金，企业规模明显扩大，并且从早期部署的成功或失败中积累了经验。在现阶段，这批企业已经能够提供更成熟的、经受过考验的产品。少数一些成功上市（包括2015年上市的Horton Works和New Relic）的公司，融资已达上亿美元（比如Cloudera、MongoDB等）。

目前，这一领域的VC融资活动仍然活跃。2015年，大数据初创企业获得的融资额高达66.4亿美元，约占全部技术VC总融资额的11%。进入2016年，全球范围内后期阶段大数据融资事件层出不穷，包括Data Dog（9400万美元）、Bloom Reach（5600万美元）、Qubole（3000万美元）、Place IQ（2500万美元）等。

随着该领域创业活动的持续开展以及资金的不断流入，加上适度的少量退出，以及越来越活跃的技术巨头（尤其是亚马逊、谷歌、IBM等），使得大数据领域的市场主体日益增多。

在基本趋势方面，行业发展开始慢慢从左转到右（即创新、推出新产品和新公司），从基础设施层（开发者/工程师的世界）转移到分析层（数据科学家和分析师的世界）乃至应用层（商业用户和消费者的世界），“大数据原生应用”已经迅速推开。

大数据基础设施：仍有机会

谷歌关于Map Reduce和Big Table的论文问世已达10年之久，在这10年间，大数据的基础设施已经逐渐成熟，一些关键问题也得到了解决。但是，基础设施领域的创新仍然富有活力，这在很大程度上得益于可观的开源活动的规模。

2015年可以说是Apache Spark之年。自发布上一版大数据版图以来，这一利用了内存处理的开源框架就开始引发众多讨论。总体来看，由于Spark受到了从IBM到Cloudera的各式玩家的拥护，使其获得了可观的信任度。实际上，Spark的出现具有重要意义，因为它解决了一些导致Hadoop采用放缓的关键问题：Spark速度变快了很多（基准测试表明Spark比Hadoop的Map Reduce快10～100倍），更容易编程，并且能够跟机器学习很好地搭配。

除了Spark之外，还出现了其他一些令人兴奋的框架，比如Flink、Ignite、Samza、Kudu等，这些框架的发展势头良好。Mesos（数据中心资源管理系统，把数据中心当作一台大计算资源池进行编程）的出现则刺激了对Hadoop的需求。

即使是在数据库的世界里，新兴玩家也越来越多，甚至多到市场已经难以承受的地步，但令人欣慰的是，从图形数据库（如Neo4j）的成熟，到专门数据库的推出（如统计时序数据库Influx DB），乃至Cockroach DB的出现（受Google Spanner灵感启发诞生的融合了SQL与NoSQL长处的新型数据库），数据仓库也在演变（如云数据仓库Snowf lake）。

大数据分析在近几个月出现的一个趋势是，越来越关注利用人工智能（形式和风格各异）来帮助分析大规模的数据，从而获得预测性的洞察。其实最近快速发展的AI在很大程度上算是大数据的产物。深度学习（最近受到关注最多的AI领域）背后的算法在几十年前就已诞生了，但直到最近才得以足够便宜、足够快速地应用到大规模数据，从而真正发挥出其最大潜能。但不管怎样，AI/机器学习绝不是大数据分析唯一值得关注的趋势，大数据BI（商业智能）平台的普遍成熟及其日益增强的实时能力，也是一个令人兴奋的趋势（如SiSense、Arcadia Data等）。

真正的加速

随着一些核心基础设施的问题得到解决，大数据应用层正在快速地构建。

在企业内部，已经出现了各种工具来帮助跨多个核心职能的企业用户。比如，销售和营销的大数据应用，通过处理大规模的内外部数据来帮助找出哪位客户可能会购买、续约或者流失，且速度越来越实时化；客服应用帮助个性化服务，人力应用帮助找出如何吸引和挽留最好的员工等。

专门的大数据应用几乎在任何一个垂直行业都已出现，从医疗保健（尤其是基因组学和药物研究）到金融、时尚乃至执法。