大数据概念前面有详细描述,但是随着技术的发展和理念的深入,其定义已经变得更加丰富和细致,其4V特色(Volume,Velocity,Variety和Value)也产生了相应的变化。
Volume:不仅是表示大数据的数据体量巨大,而且表示单位时间内的数据交换的流量巨大。在数据总量规模以几何级数增长的情况下,采集、传输、存储、处理、挖掘等环节都表现出对流量增加、处理加快的要求,以及准实时和实时的要求。特别在从传统互联网向移动互联网发展的这个阶段,流量增加暴露出来的问题已经成为限制整个IT行业发展的瓶颈之一。
Velocity:从速度实现上讲,即使是较小的数据量,当处理的时间被要求在一个极短的时间内,使最基础的单位时间内的数据流量超过正常要求时,也应该被界定在大数据的范畴内。其最终的发展方向是尽可能无限地靠近实时,将处理的时间压缩到最短。
Variety:不仅表示大数据背景下的数据类型复杂,表示在大数据背景下,数据有可能发生复杂的变化甚至是组合变异和性质突变。目前业内对这个属性还没有一个准确的描述和界定,但可以肯定地说,目前的许多数据在使用时已经发生了微妙的变化,这种变化不仅仅表现在数据的属性上,而且在数据的内容、格式、展示,以及反映的实际状态上都有了极大的演变,这种性质往往会对原有组织架构和流程业态产生颠覆性的意义,或者向好的方向发展,或者向坏的方向恶化。
诸如转基因食品的实质就是将基因数据进行人为重组,以实现人们的特定需求,这种革命性的创新虽然给人类生活带来了可观的产能收益等好处,但目前依然不能明确对人类的伤害具体是什么,程度有多大。
又比如互联网使数据共享和人类生活变得异常丰富多彩,但数据的任意组合和任意路径传播又使数据成为双刃剑,促进和破坏作用都十分突出,更使社会、经济和军事的安全问题变得纷繁复杂,甚至可以说危机四伏。
Value:数据总量在增加,但单位数据的可用价值密度在不断降低,使数据的应用程度变得越来越艰难。
以上针对大数据这4个特征的补充,使其定义逐渐清晰。大数据就是在规定的时间内完成特定数据的采集、传输、存储、管理、调配、统计、分析、挖掘等工作,使其具有超乎想象的使用价值。
但这4个特征还不能精确地描述大数据的现状,我们认为还应该补充以下几点。
(1)真伪性和冗余性(Authenticity and redundancy)。
现代信息技术和互联网使数据呈无限扩展态势,也使数据真伪和冗余的识别和处理变得异常重要和复杂,怎么能让系统自动实现去伪存真、去粗取精,甚至除危为安,将是一个贯穿始终的问题。
(2)全量性(Totality)。
数据采集和处理的维度与深度都在向全量数据发展,只有在全量概念下,改变传统的抽样统计方法,才能更准确地挖掘出原有事物的发展规律和方向。人们传统的思维是以逻辑推导为依据,作出合理的预判和决策。但大数据的全量性,有可能使人们事先得到预判的结果,再以合理的逻辑思路进行决策和应对,甚至可以做到暂时不需要推理,先预判再处理,最后总结规律的办法应对突发事件。
(3)安全性(Security)。
安全性主要包括信息外泄和灾难恢复。互联互通给人们带来了极大的便捷,但同时也增加了信息外泄的风险,关系到国家安全、政府及商业机密、公共安全和个人隐私等诸多问题,甚至这几个方面都存在着相互的影响。目前各个国家正从法律法规和技术手段两个方面加紧研究这个棘手的问题。震惊全球的“棱镜门”事件就是这个因素的综合产物。
灾难恢复与技术相关联,恢复的完整性和时间性是两个最基础的指标。在大数据和互联网的背景下,传统信息技术已经无法应对,与分布式、流处理技术等新型信息技术的融合已经成为主流方向,这是全世界都要面对的问题。
大数据名词是从美国舶来的,美国人提出的4V,是在相对完整、完善的信息系统条件下提出的新一代技术的发展特征,这个概念的形成极有可能会催生一个新的技术时代。
信息系统要到什么程度才能叫做完善呢?以下举一个亲身经历的例子。
2013年下半年在美国参加科技峰会期间,我本人在加州硅谷驾车发生了两车碰撞事故。报警后,到达救援现场的顺序是医生、警察、拖车人员、道路修缮人员,在短短的20分钟内,做了伤情问询、身份认证和记录、车辆锁定、道路清理和修缮等工作,并在十几分钟内就告诉我可以离开现场了。一直到我回国,都没有再麻烦过我一次,没有让我为此分散更多的精力。后来才知道保险公司早就处理完了,一切都按照法律流程顺利地执行完毕,简直不可想象!这么短的处理时间,说明美国的信息系统已经将医院医疗系统、全国性身份认证系统、车辆检测系统、保险系统和道路运管系统全线打通了,很好地实现了社会运行管理的互联互通,也说明社会的诚信信息体系几乎不受外界因素的干扰,是建立在法律公正、透明基础上的。由此看出,系统的基础完整稳定、互联互通、诚信信息体系及法律健全化这几个要素,是应用大数据的最好前提,也正是整体社会信息化发展到如此程度,才能创新地提出大数据这个概念和理论。
然而,现在问题出来了,以中国现有的信息化基础和技术发展水平,是无法立即实现大数据概念提出的初衷的。那中国到底有没有大数据的问题?我们是否可以复制国外的理念和模式?结合我们这几年 “传经布道”的感受,分析以下几个市场的反馈,希望能为大家应对大数据问题提供些帮助。
(1)“没有,甚至一头雾水”。
这类人群主要分布在政府机关、大型垄断行业和企业的信息化部门,而且不在少数,比例大致在50%以上。他们认为,“我们的设备和系统很先进,大都是IBM服务器、ORACLE的数据库、EMC的存储,有什么不能解决的?”结合他们业务展现及数据输出的特点,能看出他们的服务特性已经很差,甚至多少年都不改动或深化,更谈不上实时性、准确性和实用性了。由于他们处于居高临下的地位,所以用户对他们几乎不敢施加压力,所以他们就变得麻木,高枕无忧。这类现象表明:我们的体制、机制已经将这些人的关注点,供奉得完全不在本职工作上了,对新技术新理念一无所知,认为自己同技术无关。
(2)“部分有,但不急迫,见招拆招”。
这类人群主要体现在企业界,偶尔体现在政府个别部门的。具体表现在系统中的数据处理不过来了,跟领导说明情况,再多等会。实在不行,再买几台设备,软件再外包优化一下,应付应付即可。这类现象表明:他们有责任和义务,但积极性不高,不关注新技术的发展,认为能应付就行。
(3)“有,急着应对”。
这种用户很多,特别是在支柱产业、大型企业、政府决策和公共服务部门。他们的生产数据经常是TB甚至是PB级别。他们都急于应对,采取的办法是:
① 尽快再增加IOE,反正不差钱,最贵的系统一旦出了问题,也不是我的责任。
② 如果还不行,说明世界上最贵的系统都不行,我们也没办法,只有等。
③ 如果等不及了,硬性丢掉数据或减少数据处理量,先拿出个结果总比没有结果强。
④ 等到IOE做出更好的系统再说。
这类现象表明:他们有一定的责任感,但对新技术发展持怀疑态度,对国内技术的应用更是没有信心。他们有创新的愿望,但不敢承担创新的风险和大的责任,比较好的是这类人群正在步步为营地尝试。
(4)“可能有,但急着大干快上而且要做出亮点”。
这类人群是政府领导和某些企业领导,他们是很着急的。这可是技术前沿和产业前沿,一定要上,不然怎么出亮点和政绩。我们的数据量是很大的,具体有多少我不知道,但很大,最起码领导到我们这里视察的人数数量很大,我们往上汇报的材料数量也很大。所以我们建议当年投产,当年见效,要形成新的增长点,建设产业园区,产值要过千亿元,往万亿元上靠拢。
这类现象表明:他们特别想快些有业绩,有亮点。但是由于做不到实事求是,在不了解国情和现实状况的情况下,一味地贪大求政。常常是投入多,产出少;雷声大,雨点小;理念新,行动少;模式鲜,市场小。对技术理解不透,对数据的实质把握不清,好钢没有用到刀刃上。
(5)“这个可真有,这是行业的命脉”。
这类人群是实打实的IT和互联网人士。他们面临着生死时速的考验,视频、搜索、广告、信息等大量的实时需求,准确、实时、动态、互联互通是他们的命脉。
云计算技术是在美国的创新文化的背景下,为打破信息化龙头企业的高度垄断应运而生的技术实现手段。云计算最大限度地降低了技术创新的门槛和成本,进一步加强了美国本土创新机制的功能性作用,大大地增强了互联网产业的爆发力和覆盖力。但十几年的事实证明:云计算技术的创新带动力,也一样会在中国展现出来,并且结合中国特有的市场特性,萌生出新的活力,扩展到新的领域。
从以上分析可以看出,除了中国的互联网领域,其他行业都还处于对大数据的无视和启蒙状态。不仅表现在中国信息化建设尚处在连最起码的互联互通都还没有实现的阶段,而且还表现在政府部门和传统产业中,人们对信息化的理解和重视的程度严重不高。再者是,行业内对新一代信息技术的发展状况基本不关注,没有意识到新技术的诞生就意味着有弯道追赶乃至超越的机会。
许多人多次问过我同样的一个问题:大数据是继云计算之后的一个崭新的概念,会不会又成为一个轰轰烈烈多年,不见实际效果的噱头呢?
诚然,在前些年,国内四处洋溢着云计算和数据中心,虚虚实实地投资了大量的GDP,编织出无数篇剪彩、出席、领头羊等有震撼内容的新闻报道,但效果怎么样呢?据我所知,许多数据中心不敢全面建设,建设好的也不敢整体开机,原因就是没有数据。不是大家自己有一个自行的初级系统,不需要这样的服务,而是没人敢把数据放在上面,或者在利益分配上没有事先说清楚。他们甚至会反问:“我放那里干什么?”所以,就形成了数据中心无法运营,甚至亏损到没钱开机的情况。但数据中心这个信息化企业还要活命,怎么办?听说圈地可以赚钱。我们的云计算、数据中心是可以圈地的,政府在这方面给了大量的配套的土地,于是他们把圈来的地用做各种资源的储备,形成了各种明里暗里的商业开发。这下好了,体量增长很快,GDP也上去了,亮点也有了,各地又可以继续吹嘘要打造几百亿元、几千亿元、甚至上万亿元的云计算龙头产业了。云计算成为云山雾海的梦幻。而现实中,除了中国的互联网这些埋头苦干的人们,自己闷着研究和应用些实实在在的云技术,做了几个实实在在的、基于云计算架构的数据中心之外,传统的行业和领域就没能把这些技术真正落地,倒是挥霍了大量的经费,让云计算这朵云一直就没怎么下过雨,没有很好地发挥云计算的推动性和创新性作用。
可以看出,央企、政府部门、民企的信息系统建设和创新性是存在严重问题的。
除此之外,信息化建设的科技创新投入和管理机制也有较大问题。
值得我们深思的是:社会发展的规律告诉我们,如果管理者理念没有到位,即使科学技术再先进,有多大笔的资金引入吸纳,也会极大淡化和削弱技术对模式、内容、系统升级等方面的促进性和革命性作用。我们要正视信息化基础设施性能不够完善、体制机制约束性依然要逐渐释放的现状,不要幻想我们能立即照搬照抄地实现发达国家的技术设想,更不要以大干快上的态度和口号,在极不成熟的数据背景下,大张旗鼓地实施大数据的数据挖掘和商业模式的创新。人云亦云,照猫画虎,只能是浪费钱财。
可以肯定地说,大数据是人类社会发展的必然。我们现在传统的信息技术还没学好、学会,新兴的云计算、物联网、移动互联网又扑面而来,又要开始新一轮的追赶,信息化建设的任务变得更加艰巨。怎样在雪上加霜的情况下,找到并抓住这个弯道机遇,缩小差距甚至是局部突破,是一个关系到中国科技创新乃至民族复兴的大命题。这是时代赋予我们的使命,每一个社会和行业的管理者和信息化建设者,都有责任来探究解决这个命题的理论和方法,要像移植和吸纳国外的哲学思想一样,建立属于我们中国自己的一系列数据科学理论,在理论与实践的相互融合促进下,健壮我们的信息化产业,使之成为实现民族科技创新进程中,最丰富的源泉和最坚强的支撑。
今天的大数据,正以其前所未有的特质,引领新一代信息技术的蔓延或渗透式发展。更令人欣喜的是,关注大数据以及互联网发展的人群中,很大一部分不是IT精英。即使是信息化业内人士,也不见得能全面把握信息化产业对未来社会发展的影响,所以我们应该集中社会各界的力量,在关注的过程中及时建立我们自己的数据宏观、中观和微观理论,用方法论来解决我们的困惑、瓶颈、方向、路径等诸多问题。
有了这个指导准则,宏观地关注国家政治、经济、文化、军事、民生等多个层面的信息化重置,再结合实际情况聚焦在一个或几个关联性强的领域和行业,就能清楚地知道有所为、有所不为,以及有所不为而后可以有为的范畴,更要特别关注以大数据为代表的新一代信息技术给整个社会的革命性变革。希望大数据这个新兴技术,能为我们社会和经济发展带来蓬勃生机,在中国又一个崭新的改革旋律中,演奏出令人激动的乐章。
定位大数据在政治、经济、国防、民生中的新型战略地位,剖析在研发进程中的失败经历,寻找突破与创新的办法,直面压力与困惑,精准阐释大数据的理念、意义和目标,以行之有效的实践解决发展中的中国信息化的信任危机,是中国信息化在这个弯道机遇中最迫切、最首要的任务。
(1)大数据是瓶颈。
这是信息化发展中的必然现象。云计算是低成本创新的产物和手段,云计算引领了互联网的蓬勃发展和跨域融合性的革命,也形成了大数据这个瓶颈性大问题。只有解决好大数据的技术实现问题,才能让云计算真正落地,并开花结果。
大数据与云计算是相互促进的辩证发展关系。解铃尚需系铃人,大数据问题依然要以云计算的低成本、分布式、虚拟化的思想来完成。而移动互联网只是物联网与云计算混合应用层的产物,虽然发展势头很猛,但核心实质依然没变,软性的是云计算的根基,硬性的是物联网采集、传感的发展,这只会给我们带来更多的大数据问题,进而大幅度改变我们的生活方式和生活内容。
(2)大数据是技术和法律的集成。
大数据问题需要技术解决方案和法律法规并举。技术发展的规律是云计算的核心原则,而相应的法律法规以及标准要站在上层建筑的战略层面做好顶层设计。
(3)数据作为重要生产要素,贯穿时代的始终。
新一代信息技术将围绕大数据这个总的背景,以创新应用为前提进行发展。数据的生产要素化,将对社会产生深远的影响。继人类文明的工业时代、计算机时代、云计算互联网时代之后,又一个文明进步的阶段诞生,即触及信息本质的数据时代。数据科学将成为人们重点关注的系统科学。
(4)大数据是数据核心问题的展示。
我们只有关注数据,才能抓到新一代信息技术的核心。
(5)大数据展示了数据的基础内涵和数据发展的规律。
从数据和大数据的基础定义可以看出,信息技术的发展路径正以宏观、中观和微观三个维度,向纵深方向发展,谁先找到其内在规律,谁将在科技创新和综合发展中取得先机。
(6)一定要尽快在国家层面,建立一个以数据为主线的信息技术发展的干线导引地图。
(7)大数据是数据产业链的完整建立。
全面审视中国国情和行业发展,将数据的采集、传输、存储、处理、统计、分析、挖掘以及技术国产化与产品可靠及安全等数据生态链的建设纳入中国大数据的战略视野。
大数据时代强迫我们要以战略者的眼光展望生产要素市场和产品市场,以管理者的心态关注革命性技术,以技术实践者的要求创新务实,认认真真地探究数据对各个领域的融合和颠覆性作用,形成以数据创新为科技创新的主要发力点和突破口的发展格局,促进中国的战略发展转型、结构调整和产业升级。