购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

大数据

【导读】 21世纪之初,人类社会最伟大的发明之一当属大数据。大数据的影响可以比肩第一次工业革命时期的蒸汽机、第二次工业革命时期的电力以及第三次工业革命时期的计算机及信息技术,业内普遍把大数据的出现与第四次工业革命紧密关联。

关于最早是谁提出“ 大数据 ”(big data)这个概念的,说法有点不一。较多人认为是美国著名咨询公司麦肯锡(McKinsey);也有人认为是维克托·迈尔-舍恩伯格(Viktor Mayer-Schönberger),2010年,维克托·迈尔-舍恩伯格在《经济学人》上发布了长达14页对大数据应用的前瞻性研究;还有人认为应归功于美国未来学家阿尔文·托夫勒(Alvin Toffler),1980年,阿尔文·托夫勒在《第三次浪潮》一书中就提到“信息爆炸”这个概念,被认为提及了大数据的雏形。

时至今日,到底哪种说法正确已经不再重要,重要的是人类已经处于大数据时代。

什么是大数据

2015年8月,我国出台《促进大数据发展行动纲要》,并对大数据进行了定义。《纲要》指出:“大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态。”

除此之外,大数据具有海量性(volume)、多样性(variety)、高速性(velocity)、易变性(variability)和价值(value)的“5V”特性。

其实,还可以从实践的层面来认识大数据。从类型上看,大数据包括网络日志、音频、视频、图片、地理位置信息等种类繁多的数据;从来源上看,大数据既有来自物理世界,也有来自心理世界和虚拟人工世界的各种变化发展活动的信息化表征和数据记录(来自英国哲学家卡尔·波普尔(Karl Popper)的“三个世界”理论);从发展上看,大数据是信息技术的高速发展及其在各行各业的广泛应用所带来的信息爆炸式增长的结果;从价值上看,爆炸式增长的各类数据是一种资源,具有潜在的价值,人们可以通过挖掘利用数据价值,来改变我们的生活、工作和思维方式,使我们能够以大数据思维和大数据方法来认识世界、改造世界。

大数据是如此之重要,可以说,大数据是如同电一样重要的生产要素;或者说,大数据是如同水、电、气一样重要的基础设施。

大数据的形成

大数据,首先是数据。数据是指计算机可以处理的,以电子化、数字化形式记录和表示的信息。将信息加工成电子化和数字化记录的过程离不开信息技术的发展与应用,正是因为信息技术的飞速发展与广泛应用,大数据才应运而生。

在计算机和通信技术出现之前,信息主要以模拟数据的形式进行记录和表示。存储媒介通常为报纸、书籍、影像、照片、档案、磁带等。信息的计量单位一般采用媒介的计量单位,如藏书多少册、档案多少袋、记录多少本、影像多少卷、照片多少张等。信息获取不便利、信息交流不通畅、信息量相对较少是这一时期的典型特征。

20世纪60年代中期,微型计算机问世,从此信息可以使用电子化、数字化的形式进行记录和表示。随着20世纪80年代中期个人计算机的诞生和20世纪90年代中期互联网络的兴起,信息技术以“摩尔定律”(即每18个月在价格不变的情况下,计算机硬件性能提高一倍)的速度高速发展,并广泛应用在各行各业中。办公自动化、电子邮件、搜索引擎、即时通讯等新的信息获取与信息交互方式竞相出现,相伴而生的是越来越多的信息以电子化、数字化方式进行表示、存储和传输。信息获取越来越便利、信息交流越来越通畅、信息量越来越多是这一时期的主要特征。尽管曾有“信息大爆炸”的预言,但这一时期的信息量相对今天而言,还是“小数据”时代,信息还可以用MB、GB为单位进行度量与存储。

2000年前后出现过短暂的“网络泡沫”,此后互联网技术以前所未有的速度一路高歌猛进。2005年前后,电子商务成为一种新的流行,虚拟经济迅猛增长,给传统实体经济活动模式带来一场影响至深的变革。无独有偶,电子政务也开始影响着政府公共服务方式。此时,政治、经济、文化、生活、工作等各项人类社会活动开始走到线上——电子化、数字化的信息呈爆炸式增长。

2010年移动互联网的出现,使得人类社会各项活动可以跨时空地进行,这进一步加速了人类社会的信息化进程。数据急剧增长,数据的度量与存储开始使用TB(1TB=1024GB)为单位,大数据时代初露尖尖角。尔后的2013年被认为是大数据元年。

由此可见,大数据是信息技术的高速发展与广泛应用所带来的信息爆炸式增长的结果。

今天,信息爆炸式增长不只来自互联网和移动互联网(主要解决人与人(human to human,H2H)之间的信息通信),人机交互(human-computer interaction或human-machine interaction,HCI/HMI)、机与机(machine to machine,M2M,机器与机器之间的通信)及物联网(Internet of Things,IoT)等将是信息爆炸式增长并进而形成大量数据的重要来源。

大数据到底会有多大?早在2017年,国际数据公司IDC公布的《数据时代2025》报告显示,2025年人类的大数据量将达到163ZB; 2020年国际消费类电子产品展览会上,英特尔预测2025年全球数据量将达175ZB(1ZB=1024EB,1EB=1024PB,1PB=1024TB,1TB=1024GB),相当于65亿年时长的高清视频内容。

姑且不论哪个预测更准确,但有一点是趋同的,那就是全球的数据量将呈爆炸式增长。

大数据有什么用

2011年5月,美国咨询公司麦肯锡发表了著名的题为《大数据:下一个创新、竞争和生产力前沿技术》( Big Data: The Next Frontier for Innovation,Competition and Productivity )的研究报告,并在报告中指出:“大数据,如同实物资本和人力资本一样,将成为现代经济活动创新和增长的重要要素。”

2012年,被誉为“大数据时代的预言家”的维克托·迈尔-舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中前瞻性地指出,大数据带来的信息风暴正在改变着我们的生活、工作和思维方式,大数据开启了一次重大的时代转型,对人类的认知及其与世界的交流方式提出了全新的挑战。他认为数据的核心就是预测,大数据将为人类的生活创造前所未有的可量化的维度,大数据已经成为新发明和新服务的源泉,并在书中详细展示了谷歌、微软、亚马逊、IBM、苹果、脸书、推特、VISA等大数据先锋们如何使用大数据进行新发明和新服务的应用案例,并且断定,大数据作为资产计入企业资产负债表是迟早的事情。

2015年,我国《促进大数据发展行动纲要》指出,大数据将成为推动经济转型发展的新动力,重塑国家竞争优势的新机遇,以及提升政府治理能力的新途径。全球范围内,运用大数据推动经济发展、完善社会治理、提升政务服务和监管能力正成为趋势。

由此可见,大数据不但是资产,而且是关键生产要素。大数据因其潜在的资源价值,已成为社会经济发展、国家治理能力和治理体系建设、企业业务创新增值、人们追求美好生活的重要驱动力。围绕大数据价值挖掘与应用的各项产业发展(如云计算、5G、物联网、人工智能等数字产业化和传统产业数字化转型等),将引领世界新一轮科技创新和产业变革。

大数据要如何使用

大数据的本质还是数据,只是对数据的使用需要用到大数据思维和方法。大数据中的 数据 (data)来源广泛,种类繁多,错综复杂,它们通常携带很多信息,但需要经过一定的梳理和清洗,才能形成有用的 信息 (information);这些信息里包含许多规律,可以借助智能算法进行挖掘,提炼成 知识 (knowledge);这些知识可以应用于问题解决和决策支持等实践,这便产生了 智慧 (intelligence)。

今天,如雷贯耳的“ 智能化 ”,其实就是从数据中形成信息,从信息中提炼知识,再将知识应用于实践的一系列过程。实际过程中,需要结合业务领域知识,通过“经验模型化、模型算法化、算法软件化”三步曲,即根据业务领域知识建立业务模型(经验模型化),然后根据数据变化趋势设计智能算法(模型算法化),并通过数据训练、数据验证和数据测试得到最优模型,最后将算法模型进行代码编程封装成软件模块(算法软件化),为智慧应用敏捷开发提供智能服务引擎。在商业领域,基于数据的价值挖掘应用案例已经比比皆是。在政府公共服务领域,基于大数据的公共服务和政府科学决策也方兴未艾。例如,基于12345政务服务便民热线中的数据挖掘,可实现智能分析,对市民可能遇到的“急难愁盼”问题提前关注,化被动应对为主动干预,赋予城市治理以智慧。

大数据发展到一定地步,借助人工智能算法,充分挖掘大数据的知识价值,用以对未来世界的变化发展进行预测;人们也可以借助数字孪生技术来指导、优化客观世界的运行逻辑。

大数据面临的挑战

鉴于大数据对国计民生的重要作用与意义,在实施大数据发展战略,鼓励和支持数据在各行业、各领域的创新应用的过程中,如何加强数据的安全管理是必须面对的一个挑战;面对“大数据杀熟”,如何加强对大数据创新应用的有效监管以及个人信息保护,也是大数据发展过程中需要应对的问题。

为了应对这些挑战,我国于2021年6月10日和8月20日先后出台了《中华人民共和国数据安全法》和《中华人民共和国个人信息保护法》,这为我国大数据产业的健康发展起到了保驾护航的作用。

【扩展概念】

存储单位: 是一种计量单位,指在某一领域以一个特定量或标准作为一个记录(计数)点,再以此点的某个倍数去定义另一个点,而这个点的代名词就是计数单位或存储单位。计算机常用的存储单位有bit(比特)、B(字节)、KB(千字节)、MB(兆字节)、GB(吉字节)、TB(太字节)、PB(拍字节)、EB(艾字节)、ZB(泽字节)、YB(尧字节)、BB(珀字节)、NB(诺字节)、DB(刀字节)等。其中的换算关系为:8bit=1B,1024B=1KB,1024KB=1MB,1024MB=1GB,1024GB=1TB,1024TB=1PB,1024PB=1EB,1024EB=1ZB,1024ZB=1YB,1024YB=1BB,1024BB=1NB,1024NB=1DB。 U35AvrdOSuW+vuejR++3gZlE3xOmg0UNDGodvMamYWVaCY4F7wAYR2joC32WVzFO

点击中间区域
呼出菜单
上一章
目录
下一章
×