购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.1 大数据基本理论

21 世纪以来,随着计算机、互联网等电子信息技术的广泛应用,世界各地的美景、新闻、热点动态等基于互联网媒介,以数据的方式呈现在人们眼前。庞大的数据已经成为人们进行信息交融的重要途径。2008年,《自然》杂志以大数据为封面推出专栏;2009年,“大数据”成为热词,逐渐进入人们的视野。

2.1.1 大数据基本概念

数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物未经加工的原始素材。数据可以是连续的值,比如声音、图像,被称为模拟数据;也可以是离散的值,如符号、文字,被称为数字数据。能反映出自然界或人类社会的某种信息,也被称为数据。

大数据(bigdata),亦称巨量数据,是内容多、维度广、覆盖宽的信息数据的集合,是一种难以运用传统的数据处理工具进行提取、存储、共享及分析的新型生产要素。大数据技术犹如在浩瀚的垃圾场中搜寻有价值的东西。大数据技术处理以动态为主,实时产生大量的各类数据。

从数据到大数据,不仅是量的积累,更是质的飞跃。大数据将原本海量的、不同来源的、形式各异的单一数据整合起来,并系统地分析,从而挖掘出数据时代很难发现的新知识,为人类社会不断创造新价值。

2.1.2 大数据的特点

随着数字技术的崛起,大数据逐渐成为核心生产要素之一。相较于传统数据,大数据还呈现出以下五个不同特征:

2.1.2.1 数据量庞大

大数据本身承载的资料信息数量庞大。在大数据时代,数据的发展模式符合“摩尔定律”,互联网数据中心(Internet Data Center, IDC)预测数据将以每年50%的速度快速增长,这也意味着数据量每两年就会增长一倍。

2.1.2.2 高频

在信息化和全球化的时代,以数据为依托进行信息交流、资源互换的过程成本更低、速度更快、频次更高。相较于传统数据而言,大数据的传输与处理速度更呈现出指数级增长。

2.1.2.3 价值密度低

大数据虽然总体价值高,但其体量庞大,不可避免地会出现数据冗余、质量不佳、信息过载等问题,导致大数据集合中的有效信息所占比例相对较低,数据的利用效率较低,从而降低了数据的价值密度。

2.1.2.4 种类繁杂

数据可以划分为结构化数据、半结构化数据、非结构化数据三种。传统数据模式具有明确定义,易于储存、管理、集成,数据之间具有一致性,便于分析和挖掘,一般属于结构化与半结构化数据。而大数据获取渠道多样,并以文档、电子邮件、社交媒体帖子、图像、音频和视频等形式表现,个性化、定制化数据模式突出,难以运用传统方式进行处理和解读,从而出现数据量庞大但无序,呈现非结构化特征。

2.1.2.5 数据全量化

大数据的实质是“深度学习”,需要建立大规模训练数据集,依靠机器学习与训练建成服务决策的仿真环境和专家系统,最终通过这种数据量化分析对未来进行精准预测。大数据从“已知”推测“未知”和从“过去”预测“未来”的过程,被称为数据量化,贯穿大数据运用的整个过程。

2.1.3 大数据的发展现状与前景

2018年11月,希捷科技携手国际数据公司(IDC)以“世界的数字化由边缘到核心”为主题,发布了《数据时代2025》白皮书。白皮书预测全球数据量总和将在2025年达到175ZB(如图2.1所示),且将会有49%的全球已存储数据驻留在公共云环境中。

图2.1 全球数据圈的年度规模

数据来源:国际数据公司(IDC)《数据时代2025》。https://www.seagate.com/files/www-content/our-story/trends/files/idc-seagate-dataage-chine-whitepaper.pdf。

从智能推送到智能搜索、从智能助理到智能家居、从无人驾驶到人形机器人,在信息共享、“万物互联”的时代,大数据极大地便捷了人类的生产与生活。随着各行各业的智能化转型、信息互联的不断深入,数据的增长速度与叠加数量将呈几何倍数增长,“全球数据圈”迅猛发展将推动全人类的数字化转型。

在未来,大数据的应用将带给人类社会无限的憧憬。随之而来的大数据治理必将成为人们关注的问题。科技变革推动了信息数据的爆炸性增长,人类世界正在经历数字化转型变革。运用大数据推动社会发展、完善社会治理、强化服务监管能力是未来大数据发展的重要趋势。

2.1.3.1 大数据的应用

从应用方面划分,大数据的实践可大致分为三个层次。虽然目前大数据的发展仍处于初级阶段,但大数据的三个层次的应用在现实中非常广泛。

第一个层次是描述性分析应用,指利用数据接入、数据存储、数据处理及可视化等技术,根据需求从数据库中精准定位目标数据或抽取相关信息。企业构建用户画像,了解商品销售情况等都属于这一层次的技术应用。

第二个层次是预测性分析应用,指基于以往大量数据发生的结果,构建数学模型剖析数据之间的联系,据此对事物发展状态与趋势做出预测。如微软公司纽约研究院研究员DavidRothschild通过搜集和分析好莱坞证券交易所、社交媒体用户发布的帖子等大量公开数据,建立预测模型,对多届奥斯卡奖项的归属进行了预测。2014年和2015年,其准确预测了24个奥斯卡奖项中的21个,准确率达87.5%。

第三个层次是指导性分析应用,指在基于前两个层次的基础上,运用流计算、图数据库等技术,通过数据成像预测多个不同结果,对最终决策实现优化。如自动驾驶汽车通过多个传感器的实时感知数据,结合对地图与路况的精准定位,预判不同驾驶路径的后果,实现驾驶智能化。

在未来,随着数据应用领域的拓宽,数据共享平台的完善,大数据在以上三个层次的应用将迸发出更大的价值。以大数据为基础实现精准追踪、准确预测及自动判断,对人类的生产生活予以全智能化是未来大数据发展的重要方向。

2.1.3.2 大数据的治理

大数据能助力产业的智能转型升级,推动社会高质量发展,但也随之引发出对其的治理问题。一方面,大数据由于自身的非结构化特征,信息资源分散、流通无序,需要搭建共享开放统一的数据库平台,对数据资产进行集成化管理与规划;另一方面,大数据的数字平台搭建又可能会导致数据泄露以及隐私安全问题。因此,如何在数据互通的情况下保护个人隐私数据,是大数据治理的发展趋势。只有处理好数据共享与数据安全、隐私保护之间的关系,才能推动大数据应用的发展。 ofpDqziXK/lLIO/UuzFCp7esShIDchOD26qn2QEQ6TNzpBKpuuAGMbZf8ZJf9ynl

点击中间区域
呼出菜单
上一章
目录
下一章
×

打开