购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.2 大数据技术

如果未来的数字社会属于元宇宙,那么我们需要什么来支撑如此庞大的数字世界?元宇宙是指与物理世界分离的平行数字世界,由人创造并以数字形式对其进行操作。每个进入元界的人都会形成一个数据文件,随着社会活动的产生,数据会不断增长,从而形成一个大数据网络。可以肯定的是,元宇宙一旦开发应用,将产生海量数据,给现实世界带来巨大的数据处理压力。因此,大数据处理技术是顺利实现元宇宙的关键技术之一。

2.2.1 元宇宙中的大数据

大数据是组织收集的结构化数据(例如交易和财务数据)、半结构化数据(例如Web服务器日志和来自传感器的流数据)和非结构化数据(例如文本、文档和多媒体数据)的组合,可以利用大数据挖掘信息并用于机器学习项目及构建预测建模(见图2.7)。

大数据是信息技术和计算机技术持续发展的产物。它为人们提供了一种可量化的认知世界的方式,称得上是一次重大的科技进步。2009年,谷歌公司的工程师根据用户的搜索数据成功预测了甲型H1N1流感在全球范围的流行,该预测结果甚至早于美国公共卫生官员的判断。谷歌公司对流行病的预测并不需要大规模实地检测,而是利用每天数十亿次用户的网络搜索数据得出了上述预测结果。这便是谷歌公司基于大数据的分析技术为社会生活提供支持的一个典型应用案例。

图2.7 大数据类型

根据实际操作流程和技术的演进,大数据分析可大致分为四部分。首先是对数据的预处理,包括收集、存储、清洗和整合。之后,可以使用统计学方法得到一些数据特征的描述。为了发掘数据隐含的更深层次的价值,可进一步采用数据挖掘技术(初级的机器学习技术),以及人工智能技术(高级的机器学习技术)。可以预见的是,在元宇宙世界中,会有更多高质量的数据用于机器学习,并促进大数据技术继续发展和革新。

在现实世界中,人的时间、劳动力和成本的问题很容易被元宇宙中的人工智能所取代。例如在现实世界中,人们必须经过很多流程才可以播放新闻,例如招聘播音员,在工作室拍摄,以及剪辑视频,最后在电视上播放。然而在元宇宙中,利用人工智能播音员,可以快速、持续、长时间地传递紧急和重要的新闻。为了在元宇宙中播放新闻,真实播音员的面部表情、肌肉运动、声音、细微差别和手势都是可以被用来学习的有效数据。存储在区块链块中的元数据就可以选择性地提供必要的高质量数据。

元宇宙中的创意活动往往是用人工智能而非真人来开发的。人工智能艺术家在创作作品时,会了解作品的趋势和风格,然后使用所学来进行创作。过去,大量的数据被用于风格分析。现在,人工智能艺术家将数据存储在分布式账本中,以便可以轻松选择和重复使用。获取更多数据并反复练习,可以减少选择错误数据的概率。

2.2.2 元宇宙中的数据存储

元宇宙是一个需要大量数据和服务器容量的虚拟3D环境。但是通过中央服务器进行控制会产生昂贵的成本,目前最适合元界的数据存储工具无疑是分布式存储。与传统应用平台的集中管理相比,元宇宙网络部署在区块链上,采用分布式存储处理数据。所有数据由各个节点维护和管理,可以降低集中存储带来的数据丢失、篡改或数据泄露的风险,且可以满足元宇宙对海量数据存储的高要求。

例如,基于分布式存储的GDFS(GoodData File System)将区块链技术与IPFS 相结合(见图2.8),通过多次数据备份,就近分配存储资源,保证数据存储的可靠性、可用性和永续性。GDFS作为一个社区驱动的去中心化系统,建立了完善的激励机制,对存储提供者进行奖励,对造假者进行惩戒,有效地协调了存储用户、存储资源提供者、元数据管理者和协调者之间的关系。

图2.8 区块链技术与IPFS结合

此外,在元宇宙中,数据也将作为个人资产返回给数据生产者。在数据隐私保护中,这一步往往需要隐私计算技术的支持。目前,常见的隐私计算技术包括安全多方计算、联邦学习、差分隐私等。一些隐私计算项目已经实现,例如GoodData区块链。GoodData是一个关于数据安全、数据共享、数据资本化的区块链平台。

目前GoodData的主要功能是鼓励用户在平台上分享元宇宙中的数据(如睡眠数据),以协助医疗等研究机构通过数据研究失眠等健康问题。用户可以共享个人的睡眠数据,而作为数据所有者,用户可以持续获得代币收益。

在当今技术饱和的世界中,有数百万台设备通过互联网收集和共享信息。大多数信息在大型数据存储中心进行处理。大多数公司的云服务器位于遥远的地方,导致效率极低。为了处理更大体量的数据,边缘计算应运而生。该技术可以解决企业在传统云计算平台上存在的问题。

2.2.3 边缘计算

边缘计算 (edge computing)是一种计算策略,它使计算能力和存储更靠近数据源,而不是将数据传输到遥远的中央服务器(见图2.9)。如今,许多企业将数据作为其运营的命脉,同时也面临着数据量不断增加的挑战。传统的基于云的平台是计算数据的标准途径。

图2.9 云计算和边缘计算

边缘计算是一种分散式运算的架构,将应用模式、数据资料与服务的运算由网络中心节点移到网络逻辑上的边缘节点来处理。边缘计算将原本完全由中心节点处理的大型服务加以分解,切割成更小及更容易管理的部分,分散到边缘节点去处理。边缘节点更接近于用户的终端装置,可以加快资料的处理与传送速度,减少延迟。在这种架构下,资料的分析与知识的产生更接近于数据资料的来源,因此更适合处理大数据。

顾名思义,边缘计算在边缘上工作。一切都发生在大部分数据传输发生的网络边缘,而不是将原始数据传输到数据中心进行处理和分析。边缘计算将存储和计算资源转移到产生大量数据的地方。不同类型的设备可以在边缘附近执行数据分析。在这个“边缘”,数据被排序、分析和修改。这种技术将有助于提高业务效率并减少不必要的成本,它还可以减少网络延迟。

在处理大量数据方面,边缘计算被视为云计算的一种更有效的替代方案。传统的云计算能够非常有效地处理单个数据单元,但是它无法容纳跨数据中心的大量数据,并且中央服务器产生有意义且实时结果的能力很差。未来,更多的人工智能设备将使用边缘计算而不是云计算。

人工智能和云计算都是IT界的热词,两种技术相得益彰。人工智能传统上存在于由云计算提供支持的数据中心内,但随着时间的推移,该技术慢慢进入物联网领域和互联智能设备世界。需求的增长使公司每天必须处理的数据增加了一倍或三倍以上。科技公司意识到需要升级计算能力并使数据中心更接近最终用户,以减少延迟和其他网络效率低下的情况。这一认识促使业界开始将人工智能和边缘计算结合到设备中,以期减少延迟,同时最大限度地减少带宽消耗和运营成本。

以在Google Assistant上运行的智能扬声器为例。该设备通常配备了边缘计算和人工智能功能的组合,这使独立的处理和分析呈现出几乎即时的结果。它还使设备能够运行离线命令。 rNuqQlQEL1wewnUoUphLtv2o0GftbGBoULZXieZ8jv5f5j/lo5kwBc5mAzT94xNZ

点击中间区域
呼出菜单
上一章
目录
下一章
×