云计算技术自2007年以来得到了蓬勃的发展。云计算的核心模式是大规模分布式计算,将计算、存储、网络等资源以服务的模式提供给多用户,按需使用。云计算为企业和用户提供高可扩展性、高可用性和高可靠性服务,提高资源使用效率,降低企业信息化建设、投入和运维成本。随着美国亚马逊、谷歌以及微软公司提供的公共云服务的不断成熟与完善,越来越多的企业正在往云计算平台上迁移。
由于国家的战略规划需要和政府积极引导,我国云计算技术近几年来取得了长足的发展。我国设立了北京、上海、深圳、杭州、无锡作为第一批云计算示范城市,北京的“祥云”计划,上海的“云海”计划,深圳的“云计算国际联合实验室”,无锡的“元云计算项目”,以及杭州的“西湖云计算公共服务平台”先后启动和上线,其他城市如天津、广州、武汉、西安、重庆、成都等也都推出了相应的云计算发展计划或成立了云计算联盟,积极开展云计算的研究开发和产业试点。然而中国云计算的普及在很大程度上仍然局限在基础设施的建设方面,缺乏规模性的行业应用,没有真正实现云计算的落地。物联网及云计算技术的全面普及是我们的美好愿景,能够实现信息采集、信息处理,以及信息应用的规模化、泛在化、协同化。然而其应用的前提是大部分行业、企业在信息化建设方面已经具备良好的基础和经验,有着迫切的需求去改造现有系统架构,提高现有系统的效率。而现实情况是大部分中小企业在信息化建设方面才刚刚起步,只有一些大型企业和国家部委在信息化建设方面具备基础。
大数据的爆发是社会和行业信息化发展中遇到的棘手问题。由于数据流量和体量增长迅速,数据格式存在多源异构的特点,而我们对数据处理又要求能够准确实时,能够帮助我们发掘出大体量数据中潜在的价值。传统的信息技术架构已无法处理大数据问题,它存在着扩展性差、容错性差、性能低、安装部署及维护困难等诸多瓶颈。由于物联网、互联网、移动通信网络技术在近些年来的迅猛发展,造成数据产生和传输的频度和速度都大大加快,催生了大数据问题,而数据的二次开发和深度循环利用则让大数据问题日益突出。
我们认为云计算与大数据是相辅相成、辩证统一的关系。云计算、物联网技术的广泛应用是我们的愿景,而大数据的爆发则是发展中遇到的棘手问题。前者是人类文明追求的梦想,后者是社会发展亟待解决的问题。云计算是技术发展趋势,大数据是现代信息社会飞速发展的必然现象。解决大数据问题,又需要以现代云计算的手段和技术。大数据技术的突破不仅能解决现实困难,同时也会促使云计算、物联网技术真正落地,并深入推广和应用。
从现代信息技术的发展中,我们能总结出以下几个趋势和规律。
(1)大型机与个人PC之争,以个人PC以完胜为终局。苹果iOS和Android之争,开放的Android平台在2~3年内即抢占了1/3的市场份额。Nokia的塞班操作系统因为不开放,现在已经基本被淘汰。这些都说明了现代IT技术需要本着开放、众包的观念,才能取得长足发展。
(2)现有的常规技术同云计算技术的碰撞与之相类似,云计算技术的优势在于利用众包理论和开源体系,建设在基于开放平台和开源新技术的分布式架构之上,能够解决现有集中式的大型机处理方式难以解决或不能解决的问题。像淘宝、腾讯等大型互联网公司也曾经依赖于Sun、Oracle、EMC这样的大公司,后来都因为成本太贵而采用开源技术,自身的产品最终也贡献给开源界,这也反映了信息技术发展的趋势。
(3)传统行业巨头已经向开源体系倾斜,这是有利于其他企业追赶的历史机遇。传统的行业巨头、大型央企如国家电网、电信、银行、民航等因为历史原因过度依赖外企成熟的专有方案,造成创新性不足、被外企产品绑架的格局。从破解问题的方案路径上分析,要想解决大数据问题,必须逐渐放弃传统信息技术架构,利用以云计算技术为代表的新一代信息技术来解决大数据问题。尽管先进的云计算技术主要发源于美国,但是基于开源基础,我们与发达技术的差距并不大,将云计算技术应用于大型行业中的迫切的大数据问题,也是我们实现创新突破、打破垄断、追赶国际先进技术的历史契机。
根据今天的信息技术的发展情况,我们预测:各个国家和经济实体,都会将数据科学纳入亟待研究的应用范畴,数据科学将发展成为人类文明中一门至关重要的宏观科学,其内涵和外延已经覆盖所有同数据相关的学科和领域,逐渐构架出清晰的纵向层级关系和横向扩展边界。
纵向上,从文字、图像的出现算起,发展到以数学为基础的自然学科,再发展到以计算机为工具,甚至到云计算、物联网、移动互联网的今天,围绕的核心就是数据。只是今天的数据,按照我们的宏观数据理论,已经扩展为所有人类文明所记载的内容,而不再是狭义的数值。
横向上,数据科学正向其他社会学科和自然学科渗透,并在很大程度上影响了其他学科研发流程和探究方法的传统思维,建立了各个学科、各个领域间的新型关联关系,弱化了物理性边界,使事物和事件变得更加一体化。
正是这种横向、纵向上的延展,使数据的包容性达到了前所未有的数量、容量和质量,而且加速倾向严重,其重要性更是上升到生产要素的战略高度,使人们意识到大数据时代(或叫数据时代)真正来临了。这一切的起因,就是信息技术的高速发展。
所以说,大数据是我们必须面临的问题,是我们发展中必然要经历的阶段。
国内云计算及大数据市场已经具备初步发展态势。2010年,中国云计算市场规模同比增长29.3%。计世资讯研究表明,在企业用户中,已经有67.5%的用户认可云服务模式,并开始采用云计算服务,或者在企业内部实现云平台共享。市场规模也从2010年的167.31亿元人民币增长到2013年的1174.12亿元人民币,年均复合增长率达到91.5%。未来几年云计算应用将以政府、电信、教育、医疗、金融、石油石化和电力等行业为重点发展。
云计算及大数据处理技术已经渗透到国内传统行业及新兴产业,政策引导力度不断加大。纵观国内市场,云计算已广泛应用在互联网企业、社交网站、搜索、媒体、电子商务等新兴产业领域。同时,在国家的政策引导下,科研经费投入力度加大,国家重大项目资金、政府引导型基金、地方配套资金和企业发展所需的科研基金涉及国民经济多个支柱型行业和领域,其规模、数量增长迅猛,时效显著。在这一大背景下,传统行业的云计算应用将蓬勃发展起来,但目前大多仍是着眼于硬件建设和资源服务层面(如智慧城市中宽带建设、数据中心项目等),核心软件关键技术如大数据处理方面,更多的是在课题研究领域,并没有走下神坛,真正的应用也不多见。
重点领域行业对新兴技术及应用需求迫切,可以看到的是,这种市场状况正在改善。一方面,一些企业(电力、民航、银行、电信)为了自身业务的发展需要,确实迫切需要新的技术解决在大数据处理方面所遇到的问题;另一方面,随着经济的高速发展以及市场环境的不断变化,越来越多的企业意识到数据在开拓市场、提升自身竞争力等方面所起到的重要作用,挖掘数据、寻找新价值的需求逐渐受到了重视。同时,现代信息技术作为产业升级、打造新兴产业的引擎,又极大地推动了大数据处理技术的发展。可以预见大数据处理市场将会变得空前广阔,数据为王的理念将会被越来越多的人接受。
云计算等新兴信息技术诞生的初衷,是解决原有信息技术的高成本和高含量这个弊端。这个弊端经常让使用者用不起,搞不懂,碰不得,影响信息技术的应用和创新。但云计算的迅速崛起,逐步解决了高成本、高含量的问题,但低成本、高速度的数据应用也使数据泛滥成灾,出现数量大、结构变化快、速度时效性高、价值密度低等几大问题,促成了大数据这个概念。只有解决大数据这个疑难杂症,才能使云计算等新兴技术真正落地和实施。怎么解决?用什么技术?坚持什么原则?这些是需要认真考虑的问题。
大数据问题的解决,首先要从大数据的源头开始梳理。既然大数据源于云计算等新兴信息技术,就必然有新兴信息技术的基因继承下来。低成本、按需分配、可扩展、开源、泛在化等特点是云计算的基因,这些基因体现在大数据上时,有了性质的突变。如低成本这个基因,在大数据问题上就演变出数据产生的低成本和数据处理的高成本;按需分配的虚拟化基因,促使数据的应用变得更加平台集中化;可扩展、开源和泛在化使数据变得增速异常等。综合起来就是:大量的、普遍存在的、低成本、低价值密度数据,多集中在平台上,使我们处理成本加大,技术难度加大,而且泛在化倾向加重。
泛在化倾向的加重,就意味着这个问题本身是全链条全领域的增速共生事件,就必须以最广泛的视野和观念来克服和改善,简单的单项处理技术和局部突破在这个数据裂变量面前经常会变得力不从心,无法完成。这同云计算技术突破传统信息技术的大型机原理、高成本瓶颈和技术垄断是一个道理,这说明低成本的复制、可扩展的弹性、众人参与的开源等原则既是云计算的基础手段,也是解决大数据问题的最实用的办法。再深入分析,云计算等先进的信息技术,天性就是要快速、方便、便宜地解决数据,所以,“解铃尚需系铃人”的逻辑思维是我们最便捷的解决路径,特别是互联网产业的爆炸式发展,让这个路径变得越来越唯一。覆盖和变革全信息产业的云计算等新兴信息技术,抽象出了“云”的理念、原则和手段,成为我们理解大数据、克服大数据问题、应用大数据的制胜法宝和关键。
人类文明中,任何一项新技术的诞生,其实质几乎都是在增加效率和减少要素投入上下工夫,云计算和大数据也是如此。没有应用需求,就不会有实践,就更谈不上在实际中减少成本和增效。云计算是让高成本、高含量“逼上梁山”的产物,但如果没有巨大的市场需求和应用背景,再逼也不会上梁山,大数据也是如此。前一段时期,曾经风靡全国的云计算热,让我们四处开花地建设云计算中心、数据中心,号称百亿元、千亿元甚至万亿元的发展报告漫天飞扬,震天的口号似乎使我们真正进入了云计算时代。但高温消退过后,是满目的沧桑和无奈,以政府主导的数据中心经营状况风雨飘摇,开机率让人汗颜,数据孤岛依然如故,互联互通依然遥不可及,原来设想的宏伟蓝图都成为水中月、镜中花。为什么?原因很简单,政府不是市场的主导,口号和政策不是实际的需求,硬性的投入不能代替真正的消费,实实在在的应用背景才代表着市场的走向和活力。
政府主导的数据中心多由国家认可的大型集成公司或跨国企业巨头承建,理念和技术似乎很完美,但发展的规划、速度和质量似乎总不如互联网自建的数据中心,我们可以惊叹阿里淘宝的里程碑式的流量和业务奇迹,但我们不能理解12306的漫长等待和1秒钟售罄;我们可以惊叹微信的便捷和支付宝的合理,但我们不能理解诸多公共服务信息系统的低效和简陋。市场告诉我们,需求带来的应用,才是技术的最大推动力,任何行政手段都不能替代,服务市场,服务应用,才是最好的方式。