购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.2 大数据概述

大数据被认为是继人力、资本之后的一种新的非物质生产要素,蕴含巨大价值,是不可或缺的战略资源。各类基于大数据的应用正日益对全球生产、流通、分配、消费活动以及社会生活方式产生重要影响。

1.2.1 大数据的概念

对于“大数据”,研究机构Gartner给出了这样的定义:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。

麦肯锡全球研究所给出的定义是:大数据是一种在获取、存储、管理、分析方面的规模大大超出传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和低价值密度四大特征。

1.2.2 大数据的特征

大数据数据层次的特征是最先被整个大数据行业所认识、定义的,其中最为经典的是大数据的4V特征,即规模庞大(Volume)、类型繁多(Variety)、处理速度快(Velocity)、价值密度低(Value)。

1. 规模庞大

一方面,由于互联网的广泛应用,使用网络的用户、企业、机构增多,数据获取、分享变得相对容易,用户可通过网络非常方便地获取数据,也可通过有意地分享和无意地单击、浏览快速地产生大量的数据;另一方面,各种传感器数据获取能力的大幅度提高,使得人们获取的数据越来越接近原始事物本身,描述同一事物的数据激增。数据规模如此庞大,必然对数据的获取、传输、存储、处理、分析等带来挑战。

2. 种类繁多

数据种类繁多、复杂多变是大数据的重要特征。随着传感器种类的增多及智能设备、社交网络等的流行,数据种类也变得更加复杂,包括结构化数据、半结构化数据和非结构化数据等类型。

3. 处理速度快

在Web 2.0时代下,人们从信息的被动接收者变成信息的主动创造者,数据从生成到消耗的时间窗口非常小,可用于生成决策的时间非常短。大数据对处理数据的响应速度有更严格的要求,例如实时分析而非批量分析,数据输入、处理与丢弃立刻见效,几乎无延迟。数据的增长速度和处理速度是大数据高速性的重要体现。

4. 价值密度低

虽然大数据中有价值的数据所占比例很小,但是大数据背后潜藏的价值却巨大。大数据的实际价值体现在从大量不相关的各种类型的数据中挖掘出对未来趋势与模式预测分析有价值的数据,并通过机器学习方法、数据挖掘方法进行深度分析,以期创造更大的价值。

1.2.3 大数据的影响

大数据对科学研究、思维方式和社会发展都具有重要而深远的影响,具体分析如下。

1. 大数据对科学研究的影响

大数据最根本的价值在于为人类提供了认识复杂系统的新思维和新手段。图灵奖获得者、著名数据库专家吉姆·格雷(Jim Gray)博士观察并总结出,人类自古以来在科学研究上先后经历了实验科学、理论科学、计算科学和数据密集型科学四种范式。

第一种范式 :实验科学。在最初的科学研究阶段,人类采用实验来解决科学问题,著名的比萨斜塔实验就是一个典型实例。1590年,伽利略在比萨斜塔上做了“两个铁球同时落地”的实验,得出了重量不同的两个铁球同时下落的结论,从此推翻了亚里士多德“物体下落速度和重量成比例”的学说,纠正了这个持续1900年之久的错误结论。

第二种范式 :理论科学。实验科学的研究会受到当时实验条件的限制,难以更精确地理解自然现象。随着科学的进步,人类开始采用数学、几何、物理等理论,构建问题模型,寻找解决方案。比如牛顿第一定律、牛顿第二定律、牛顿第三定律构成了牛顿经典力学体系,奠定了经典力学的概念基础,它的广泛传播和运用对人们的生活及思想产生了重大影响,也在很大程度上推动了人类社会的发展。

第三种范式 :计算科学。1946年,随着人类历史上第一台通用计算机ENIAC的诞生,人类社会步入计算机时代,科学研究也进入一个以“计算”为中心的全新时期。在实际应用中,计算科学主要用于对各个科学问题进行计算机模拟和其他形式的计算。人类可以借助计算机的高速运算能力去解决各种问题。计算机具有存储容量大、运算速度快、精度高、可重复执行等特点,这推动了人类社会的飞速发展。

第四种范式 :数据密集型科学。随着数据的不断累积,其宝贵价值日益得到体现,物联网和云计算的出现,更促成了事物发展从量到质的转变,使人类社会进入全新的大数据时代。在大数据环境下,一切决策都以数据为中心,从数据中发现问题、解决问题,真正体现数据的价值。大数据成为科学工作者的宝藏。从大数据中,我们可以挖掘未知模式和有价值的信息,服务于生产和生活,推动科技创新和社会进步。

2. 大数据对思维方式的影响

在统计方法中,由于数据不容易获取,所以数据分析的主要方式是随机采样分析,目前这种方式已成功应用到人口普查、商品质量监管等领域。但是随机采样的成功依赖于采样的绝对随机性,而实现绝对随机性非常困难,只要采样过程中出现任何偏见,都会使分析结果产生偏差。而大数据不仅体现在数据量大,更体现在“全”。当有条件和方法获取到海量信息时,随机采样的方法和意义就大大降低了。存储资源、计算资源价格的大幅降低以及云计算技术的飞速发展,不仅使得大公司的存储能力和计算能力大大提升,也使得中小企业有了一定的大数据处理与分析的能力。

对于小数据而言,由于收集的信息较少,对数据的基本要求是数据尽量精确、无错误。特别是在进行随机抽样时,少量错误将可能导致错误的无限放大,从而影响数据的准确性。对于大数据而言,保持数据的精确性几乎是不可能的。首先,大数据通常源于不同领域产生的多个数据,容易出现多源数据之间的不一致。同时,由于数据是通过传感器、网络爬虫等形式获取的,很容易出现数据丢失等情况,使得数据不完整。因此,大数据无法实现精确性。

通常人们通过对数据进行分析从而预测某事是否会发生,其中基于因果关系分析和关联关系分析进行预测是常用的方法。因果关系分析通常基于逻辑推理,需要考虑的因素非常多;关联关系分析则可能面临数据量不足的问题。在大数据时代,对于已经获取到的大量数据,目前广泛采用的处理方法是使用关联关系进行预测。因为经验表明,在大数据时代,因果关系的严格性使得数据量的增加并不一定有利于得到因果关系,反而更容易得到关联关系。当然,重视关联关系并不代表否定探寻因果关系的重要性,二者同样具有应用价值。

3. 大数据对社会发展的影响

大数据将对社会发展产生深远的影响,具体表现在以下几个方面:大数据决策成为一种新的决策方式;大数据成为提升国家治理能力的新方法;大数据应用促进信息技术与各行业的深度融合;大数据开发推动新技术和新应用不断涌现。

大数据决策成为一种新的决策方式 。根据数据制定决策,并非大数据时代所特有。从20世纪90年代开始,大量数据仓库和智能工具就开始用于企业决策。但是,数据仓库以关系数据库为基础,无论是在数据类型方面还是在数据量方面都存在较大的限制。现在,大数据决策可以面向类型繁多的、非结构化的海量数据进行决策分析,已经成为全新的决策方式。比如,可以把大数据技术融入“舆情分析”,通过对论坛、博客、社区等多种来源的数据进行综合分析,弄清或测验信息中本质性的事实和趋势,揭示信息中包含的隐性情报内容,对事物发展做出情报预测,协助政府决策,有效应对各种突发事件。

大数据成为提升国家治理能力的新方法 。大数据是提升国家治理能力的新方法,可以透过大数据揭示政治、经济、社会事务中传统技术难以展现的关联关系,并对事物的发展趋势进行准确预判,从而在复杂情况下做出合理优化的决策;大数据是促进经济转型增长的新引擎,大数据与实体经济深度融合,将大幅度推动传统产业提质增效,促进经济转型、催生新业态;大数据是提升社会公共服务能力的新手段,通过打通各政府、公共服务部门的数据,促进数据流转共享,将有效促进行政审批事务的简化,提高公共服务的效率。

大数据应用促进信息技术与各行业的深度融合 。针对互联网、银行、保险、交通、材料、能源、服务等行业,不断累积的大数据将加速推进这些行业与信息技术深度融合,开拓行业发展的新方向。比如,大数据可以帮助快递公司选择运输成本最低的运输路线,协助投资者选择收益最大的股票投资组合,辅助零售商有效定位目标客户群体,帮助互联网公司实现广告精准投放等。总之,大数据所触及的每个角落,都会使我们的社会生产和生活发生巨大而深刻的变化。

大数据开发推动新技术和新应用不断涌现 。大数据的应用需求,是新的大数据技术开发的源泉。在各种应用需求的强烈驱动下,各种突破性的大数据技术将被不断提出并得到广泛应用,数据的能量也将不断得到释放,关于大数据的应用将越来越广泛。

1.2.4 大数据与互联网、云计算的关系

大数据与互联网、云计算是相互促进、相互影响的关系,具体分析如下。

1. 大数据与互联网

随着互联网技术的不断普及,数据量化的节奏不断加快,互联网所催生的巨量数据使得世间万物不断走向数据化,由“万事皆数”向“万物皆数”过渡。互联网每天所产生的数据,对大数据时代的来临起着关键性作用。

互联网的迅猛发展和快速普及使得大量的数据信息在采集、存储、传输、处理、管理等方面越来越便捷。同时,互联网的发展也使得其所产生的数据类型变得复杂多样。2021年全球每天收发约3 200亿封电子邮件,而预计到2022年年底,全球每天将收发约3 300亿封电子邮件。

2. 大数据与云计算

大数据、云计算代表了IT领域最新的技术发展趋势,二者既有区别又有联系。大数据侧重于海量数据的存储、处理与分析,从海量数据中发现价值,服务于生产和生活;云计算旨在整合和优化各种IT资源,并通过网络以服务的方式廉价地提供给用户。大数据、云计算是相辅相成的。大数据根植于云计算,因此与大数据相关的技术都来自云计算,例如基于云计算的分布式数据存储和管理系统(包括分布式文件系统和分布式数据库系统)提供了海量数据的存储和管理能力,基于云计算的分布式并行处理框架MapReduce则提供了对海量数据的分析能力。如果没有这些云计算技术作为支撑,大数据分析就无从谈起。反之,大数据也为云计算提供了“用武之地”,没有大数据这个“练兵场”,云计算技术再先进,也不能发挥它的应用价值。未来,二者会继续相互促进、相互影响,更好地服务于社会生产和生活的各个领域。 sL7pnq4zd2wAX8QREGkRWG2k9GFPU3xJdE76PCEz/AhMoFZirfVKPrYQh2PwzkT6

点击中间区域
呼出菜单
上一章
目录
下一章
×