购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1. 4 大数据技术的发展现状与趋势

1.4.1 大数据的产生

从文明之初的“结绳记事”,到文字发明后的“文以载道”,再到近现代科学的“数据建模”,数据一直伴随着人类社会的发展变迁,承载了人类基于数据和信息认识世界的努力和取得的巨大进步。然而,直到以电子计算机为代表的现代信息技术出现,为数据处理提供了有效方法和手段后,人类掌握数据、处理数据的能力才实现了质的跃升。信息技术及其在经济社会发展方方面面的应用(即信息化),推动数据(信息)成为继物质、能源之后的又一种重要战略资源。

虽然大数据这个概念是最近才提出的,但大型数据集的起源却可追溯至 20 世纪 60年代。当时数据世界正处于萌芽阶段,全球第一批数据中心和首个关系数据库便是在那个时代出现的。

“大数据”作为一种概念和思潮由计算领域发端,之后逐渐延伸到科学和商业领域。大多数学者认为,“大数据”这一概念最早公开出现于 1998 年。美国高性能计算公司SGI的首席科学家约翰·马西(John Mashey)在一个国际会议报告中指出,随着数据量的快速增长,必将出现数据难理解、难获取、难处理和难组织四个难题。用“big data(大数据)”来描述这一挑战,在计算领域引发思考。

2005 年左右,人们开始意识到用户在使用Facebook、YouTube以及其他在线服务时生成了海量数据。同一年,专为存储和分析大型数据集而开发的开源框架Hadoop问世,NoSQL也在同一时期开始慢慢普及开来。

2007 年,数据库领域的先驱人物吉姆·格雷(Jim Gray)指出大数据将成为人类触摸、理解和逼近现实复杂系统的有效途径,并认为在实验观测、理论推导和计算仿真三种科学研究范式后,将迎来第四范式——“数据探索”,后来同行学者将其总结为“数据密集型科学发现”,开启了从科研视角审视大数据的热潮。

2012 年,牛津大学教授维克托·迈尔-舍恩伯格(Viktor Mayer-Schnberger)在其畅销著作《大数据时代》( Big Data A Revolution That Will Transform How We Live Work and Think )中指出,数据分析将从“随机采样”“精确求解”和“强调因果”的传统模式演变为大数据时代的“全体数据”“近似求解”和“只看关联不问因果”的新模式,从而引发商业应用领域对大数据方法的广泛思考与探讨。

大数据于 2012 年、2013 年达到宣传高潮,2014 年后大数据概念体系逐渐成形,人们对其的认知亦趋于理性。大数据相关技术、产品、应用和标准不断发展,逐渐形成了由数据资源与API、开源平台与工具、数据基础设施、数据分析、数据应用等板块构成的大数据生态系统,并持续发展和不断完善。其发展过程呈现了从技术向应用、再向治理的迁移。

Hadoop及后来Spark等开源框架的问世对于大数据的发展具有重要意义,正是它们降低了数据存储成本,让大数据更易于使用。在随后几年里,大数据数量进一步呈爆炸式增长。时至今日,全世界的“用户”——不仅有人,还有机器——仍在持续生成海量数据。

经过多年来的发展和沉淀,人们对大数据已经形成基本共识:大数据现象源于互联网及其延伸所带来的无处不在的信息技术应用以及信息技术的不断低成本化。大数据泛指无法在可容忍的时间内用传统信息技术和软硬件工具对其进行获取、管理和处理的巨量数据集合,具有海量性、多样性、时效性及可变性等特征,需要可伸缩的计算体系结构以支持其存储、处理和分析。

大数据的价值本质上体现为:提供了一种人类认识复杂系统的新思维和新手段。就理论而言,在足够小的时间和空间尺度上,对现实世界数字化,可以构造一个现实世界的数字虚拟映像,这个映像承载了现实世界的运行规律。在拥有充足的计算能力和高效的数据分析方法的前提下,对这个数字虚拟映像的深度分析,将有可能理解和发现现实复杂系统的运行行为、状态和规律。应该说大数据为人类提供了全新的思维方式和探知客观规律、改造自然和社会的新手段,这也是大数据引发经济社会变革最根本性的原因。

如今,随着物联网(IoT)的兴起,越来越多的设备接入了互联网,收集了大量的客户使用模式和产品性能数据。同时,机器学习的出现也进一步加速了数据规模的增长。

然而,尽管已经出现了很长一段时间,人们对大数据的利用才刚刚开始。今天,云计算进一步释放了大数据的潜力,通过提供真正的弹性/可扩展性,它让开发人员能够轻松启动Ad Hoc集群来测试数据子集。此外,图形数据库在大数据领域也变得越来越重要,它们能够以独特的形式展示大量数据,帮助用户更快速执行更全面的分析。

当前大数据技术的研究发展状况主要体现在基础理论、关键技术、应用实践、数据安全四个方面。

在基础理论方面,目前相关专家与研究人员尚未解决一些基本的理论问题。例如当前学界对于大数据技术的科学定义、结构模型、数据理论体系等基本问题并未有确切的认识和判定标准,在数据质量和数据计算效率的评估活动中,也缺乏一个统一的标准,这就直接造成了技术人员在数据质量评价活动中工作效率低下的问题。

在关键技术研究方面,大数据格式的转化、数据转移和处理等技术问题是亟需处理的核心问题。由于大数据的异构性和异质性特征,因此提高大数据格式转化的效率成为了增加大数据技术应用价值的必经途径;而提升大数据计算能力的关键在于提高数据的转移速率,这就要求技术人员要及时对大数据进行整合与处理。在大数据的处理中,数据的重组与错误数据的再利用都是有效提高大数据应用价值的措施。

在应用实践研究方面,目前大数据在实际中的研究应用主要体现为数据管理、数据搜索分析和数据集成。其中,数据管理主要用于大型互联网数据库和新型数据储存模型与集成系统中;而数据搜索分析多用于模型社交网络中;数据集成则通过将不同来源、不同作用的数据进行整合从而开发出整体数据库新的功能,目前正处于研究发展的起始阶段。最后,在数据安全方面,大数据技术的用户隐私和数据质量问题是当前数据安全研究工作的重点。

一方面,大数据技术下用户隐私更容易被获取,信息泄露风险更大;另一方面,大数据由于在准确性、冗余性、完整性等方面的偏差,数据质量问题不可避免,因此我们亟需开发相应的数据自动检测修复系统。

1. 4. 2 大数据的发展现状与趋势

全球范围内,研究发展大数据技术、运用大数据推动经济发展、完善社会治理、提升政府服务和监管能力正成为趋势。下面将从应用、治理和技术三个方面对当前大数据的现状与趋势进行梳理。

(1)应用

已有的众多成功的大数据应用,就其效果和深度而言,当前尚处于初级阶段,根据大数据分析预测未来、指导实践的深层次应用将成为发展重点。

按照数据开发应用深入程度的不同,我们可将大数据应用分为三个层次。

第一层,描述性分析应用,是指从大数据中总结、抽取相关的信息和知识,帮助人们分析发生了什么,并呈现事物的发展历程。如美国的DOMO公司从其企业客户的各个信息系统中抽取、整合数据,再以统计图表等可视化形式,将数据蕴含的信息推送给不同岗位的业务人员和管理者,帮助其更好地了解企业现状,进而做出判断和决策。

第二层,预测性分析应用,是指从大数据中分析事物之间的关联关系、发展模式等,并据此对事物发展的趋势进行预测。如微软公司纽约研究院研究员David Rothschild通过收集和分析赌博市场、好莱坞证券交易所、社交媒体用户发布的帖子等大量公开数据,建立预测模型,对多届奥斯卡奖项的归属进行预测。2014 年和 2015 年,均准确预测了奥斯卡 24 个奖项中的 21 个,准确率达 87. 5%。

第三层,指导性分析应用,是指在前两个层次的基础上,分析不同决策将导致的后果,并对决策进行指导和优化。如研究人员通过分析无人驾驶汽车的分析高精度地图数据和海量的激光雷达、摄像头等传感器的实时感知数据,对车辆不同驾驶行为的后果进行预判,并据此指导车辆的自动驾驶。

当前,在大数据应用的实践中,描述性、预测性分析应用多,决策指导性等更深层次的分析应用偏少。一般而言,人们做出决策的流程通常包括认知现状、预测未来和选择策略这三个基本步骤。这些步骤也对应了上述大数据分析应用的三个不同类型。不同类型的应用意味着人类和计算机在决策流程中不同的分工和协作。

(2)治理

当前大数据治理体系远未形成,特别是隐私保护、数据安全与数据共享利用效率之间尚存在明显矛盾,这成为制约大数据发展的重要短板。社会各界已经意识到构建大数据治理体系的重要意义,相关的研究与实践将持续加强。

随着大数据作为战略资源的地位日益凸显,人们越来越强烈地意识到制约大数据发展最大的短板之一就是:数据治理体系远未形成,如数据资产地位的确立尚未达成共识,数据的确权、流通和管控面临多重挑战;数据壁垒广泛存在,阻碍了数据的共享和开放;法律法规发展滞后,导致大数据应用存在安全与隐私风险;等等。如此种种因素,制约了数据资源中所蕴含的价值的挖掘与转化。

其中,隐私、安全与共享利用之间的矛盾问题尤为凸显。一方面,数据共享开放的需求十分迫切。近年来人工智能应用取得的重要进展,主要源于对海量、高质量数据资源的分析和挖掘。而对于单一组织机构而言,往往靠其自身的积累难以聚集足够的高质量数据。另外,大数据应用的威力,在很多情况下源于对多源数据的综合融合和深度分析,从而获得从不同角度观察、认知事物的全方位视图。而单个系统、组织的数据往往仅包含事物某个片面、局部的信息,因此,只有通过共享开放和数据跨域流通才能建立信息完整的数据集。

另一方面,数据的无序流通与共享,又可能导致隐私保护和数据安全方面的重大风险,我们必须对其加以规范和限制。例如,鉴于互联网公司频发的、由于对个人数据的不正当使用而导致的隐私安全问题,欧盟制定了“史上最严格的”数据安全管理法规《通用数据保护条例》(General Data Protection Regulation,GDPR),并于 2018 年 5 月 25 日正式生效。该条例生效后,Facebook和谷歌等互联网企业即被指控强迫用户同意共享个人数据而面临巨额罚款,并被推上舆论的风口浪尖。2019 年,中央网信办发布了《数据安全管理办法(征求意见稿)》,向社会公开征求意见,明确了个人信息和重要数据的收集、处理、使用和安全监督管理的相关标准和规范。相信这些法律法规将在促进数据的合规使用、保障个人隐私和数据安全等方面发挥不可或缺的重要作用。从体系化、确保一致性、避免碎片化考虑,制订专门的数据安全法、个人信息保护法是必要的。然而,我们也应看到,这些法律法规也将在客观上不可避免地增加数据流通的成本、降低数据综合利用的效率。如何兼顾发展和安全,平衡效率和风险,在保障安全的前提下,不因噎废食,不对大数据价值的挖掘利用造成过分的负面影响,是当前全世界在数据治理中面临的共同课题。

(3)技术

现有技术体系难以满足大数据应用的需求,大数据理论与技术远未成熟,未来信息技术体系将会得到颠覆式的创新和变革。

近年来,数据规模呈几何级数高速增长。据国际信息技术咨询企业国际数据公司(IDC)的报告,2020 年全球数据存储量将达到 44ZB,到 2030 年将达到 2 500ZB。当前,需要处理的数据量已经大大超过处理能力的上限,从而导致大量数据因无法或来不及处理,而处于未被利用、价值不明的状态,这些数据被称为“暗数据”。国际商业机器公司(IBM)的研究报告估计,大多数企业仅对其所有数据的 1%进行了分析应用。

近年来,大数据获取、存储、管理、处理、分析等相关的技术已有显著进展,但是大数据技术体系尚不完善,大数据基础理论的研究仍处于萌芽期。

首先,大数据定义虽已达成初步共识,但许多本质问题仍存在争议,例如:数据驱动与规则驱动的对立统一、“关联”与“因果”的辩证关系、“全数据”的时空相对性、分析模型的可解释性与鲁棒性等;其次,针对特定数据集和特定问题域已有不少专用解决方案,是否有可能形成“通用”或“领域通用”的统一技术体系,仍有待未来的技术发展给出答案;最后,应用超前于理论和技术发展,数据分析的结论往往缺乏坚实的理论基础,对这些结论的使用仍需保持谨慎态度。 mpwNQRAznlaQ5taU1ULHEpSmamj+iV1Ayj0LuZud/H3Y+5UjmNz5zJGhuALQvch5

点击中间区域
呼出菜单
上一章
目录
下一章
×

打开