元宇宙：概念、技术及生态最新章节_成生辉著

2.3　元宇宙与人工智能

尽管人工智能一词的使用颇为普遍，但是不同的人对它的定义有着不同的理解。一个相对标准的定义是，人工智能是关于智能主体的研究与设计的学问，其中“智能主体”是指一个可以观察周遭环境并做出行动以实现某个目标的系统。

人工智能技术使机器能够从经验中学习并执行各种任务。人工智能于1956年首次提出。近年来，它在各种应用场景中都体现了卓越的性能，包括自然语言处理（Natural Language Processing，NLP）、计算机视觉（Computer Vision，CV）和推荐系统（Recommender System，RS）。

通俗地讲，我们可以简单地认为人工智能就是机器学习，即让机器学习数据，并利用所习得的知识解决某个具体问题。经过近二十年的迅猛发展，机器学习技术已经在很多领域展现出远超专家系统和统计模型的效果。

得益于超强算力的支持，机器学习技术所采用的模型也变得更加复杂，从回归分析到深度学习（例如卷积神经网络（CNN）和递归神经网络（RNN）），从监督或无监督学习到强化学习。典型的监督学习（supervised learning）算法包括线性回归、随机森林和决策树；无监督学习（unsupervised learning）算法主要有K-means、主成分分析（PCA）和奇异值分解（SVD）；而流行的强化学习（reinforcement learning）算法包括Q-learning、Sarsa和策略梯度等。

这些算法在计算机视觉、语音识别、机器翻译、机器写作等领域表现出了惊人的性能，并且很多应用已经得到市场的认可。最初的Generative Pre-trained Transformer（GPT）处理1.1亿个参数，最新的Google Brain转换器将处理超过1万亿个参数。在相对较短的时间内，这些神经网络的规模有了惊人的增长。

在创建这些先进的神经网络之前，人工智能已经取得了令人印象深刻的进步：Alexa中的语音识别、机器视觉（例如用于特斯拉的自动驾驶系统或谷歌图像识别）或可以打败人类的算法（AlphaGo ），都在社交媒体上引起了轰动。但与AI的未来相比，所有这些已经实现的应用都显得非常基础。

毫无疑问，新兴的元宇宙的主要特征之一就是将会产生海量的且更为复杂的数据，这为人工智能的进一步发展提供了机会，人工智能被用来在增强现实和虚拟现实中创造更智能、让人身临其境的世界只是时间问题。人工智能可以以极快的速度读取并解析大量数据。用户可以使用AI进行决策（就像大多数企业应用程序一样），也可以将AI与自动化相结合。元宇宙将结合虚拟现实（AR或VR）技术与人工智能技术，创建出可扩展且更接近现实世界的虚拟世界。

2.3.1　AI芯片

未来，芯片的计算能力需要支持元宇宙中呈指数级增长的需求。提升芯片的性能变得越来越难，而人工智能有助于解决这个问题。现代人工智能技术的成功依赖于几年前难以想象的规模计算。训练领先的AI算法可能需要一个月的计算时间并耗资巨大。这种强大的计算能力是由计算机芯片提供的，这些计算机芯片包含了最大数量的晶体管，而且为了有效执行一些特定的计算需求，还需要量身定制。从20世纪60年代到21世纪10年代，缩小晶体管的工程创新大约每两年使单个计算机芯片上的晶体管数量增加一倍，这种现象被称为摩尔定律。在此期间，计算机芯片的运行速度和效率提高了数百万倍。

当今最先进的芯片中使用的晶体管只有几个原子宽。但是制造更小的晶体管变得越来越难，甚至无法解决，从而导致半导体行业的资本支出和人才成本以不可持续的速度增长。因此，晶体管密度翻倍所需的时间越来越长。

对人工智能等专业应用的需求不断增长以及摩尔定律驱动的CPU改进速度的放缓，使中央处理器等通用芯片的发展受到了影响。因此，专用AI芯片正在发展，并且与传统CPU抢占市场份额。图2.10展示了AI芯片的市场收入价值，2017年全球AI芯片市场收入约为42.5亿美元。预计到2027年，AI芯片的市场收入将达到832.5亿美元，相较于2017年增长了近20倍。

图2.10　AI芯片的市场收入价值 ^[2]

数据来源：STATISTA

虽然在AI处理方面GPU通常优于CPU，但它们并不完美。GPU确实具有一些便于处理AI模型的特性。GPU处理二维或三维的图形时需要同时并行处理多个函数串，而AI神经网络也需要并行处理，GPU可以很好地完成这部分工作。然而，AI的神经网络节点很像动物大脑中的神经元，神经网络需要卷积，而这正是GPU的缺陷。所以，实际上GPU只是针对图形进行了优化，而不是针对神经网络。

另一个需要考虑的重要因素是目前人工智能发展的速度。世界各地的研究人员和计算机科学家正在以指数级的速度不断提升AI和机器学习的标准，而CPU和GPU作为硬件，根本无法跟上AI的发展速度。密集集成电路（IC）中的晶体管数量大约每两年翻一番，但即使在最佳状态下也无法跟上人工智能发展的步伐。

因此，人工智能行业需要专门的处理器来高效处理AI算法及建模。芯片设计人员现在正在努力创建为执行这些算法而优化的处理器（processing unit）。这些处理器有很多名称，例如NPU、TPU、DPU、SPU等，但一个笼统的术语就是AI处理单元（即AI PU）。

创建AI PU是为了执行机器学习算法，通常是通过对人工神经网络等预测模型进行操作。使用“AI芯片”来替代传统的计算机芯片，在特定于人工智能的计算中获得了更高的效率和速度。我们在现实世界中已经看到了一些应用程序，例如实时面部识别，用于IP摄像头、门摄像头等的安全系统，用于与客户互动的各种聊天机器人，利用自然语言处理技术的语音助手等。

AI的发展速度最终将依赖于AI PU。AI PU与GPU相比，可以将机器学习任务的计算速度提高近一万倍，并且与GPU和CPU相比，可以降低机器学习任务的功耗，提高资源利用率。

目前，对于AI芯片市场，根据不同的技术类型及应用场景可以细分出多种芯片。根据架构类型可以分为SoC、SIP及MCM。SoC芯片用于确定系统功能；SIP可以将多种功能芯片进行封装，从而实现一个具有完整功能的芯片；MCM则可以集成大规模集成电路芯片，该技术不仅可以完善芯片功能，还可以缩小电子整机的体积。根据集成电路类型芯片可以分为两种，一种是基于ASIC（Application Specific Integrated Circuit）技术的芯片，另一种是基于FPGA（Field Programmable Gate Array）技术的芯片。根据计算方式，主要有基于云计算和基于边缘计算的芯片。AI芯片被广泛应用于自然语言处理、机器人流程自动化、计算机视觉及网络安全等领域（见图2.11）。

图2.11　AI芯片的市场细分

人工智能本质上是使用人工神经网络对人脑的模拟，旨在替代我们大脑中的生物神经网络。神经网络由一堆协同工作的节点组成，可以调用它们来执行模型。这就是人工智能芯片发挥作用的地方。它特别擅长处理这些人工神经网络，旨在用它们做两件事：训练（training）和推理（inference）。

原始神经网络最初未得到充分开发或训练，因此我们需要训练AI芯片，以能够快速有效地处理庞大的数据。芯片越强大，网络学习的速度就越快。一旦神经网络经过训练，就需要设计推理芯片，以便在现实世界中使用，例如面部识别、手势识别、自然语言处理、图像搜索、垃圾邮件过滤等。可以将训练视为字典，而推理类似于查找单词并了解如何使用它们，两者是相互作用的。值得注意的是，对训练芯片可以进行推理，但对推理芯片不能进行训练。

我们需要注意AI芯片是为云计算设计的还是为边缘计算设计的，以及我们是否需要针对这些计算来训练芯片。云计算中，不需要设备上的芯片来处理任何推理，这可以节省功耗和成本。然而，因为数据是存储在云服务器上的，所以可能会因被黑客入侵或处理不当而泄露数据。相反，边缘计算的芯片比云计算的芯片更加私密和安全，因为所有数据都存储在设备上，并且芯片通常是为特定目的而设计的。例如，面部识别摄像头将使用特别擅长运行面部识别的模型的芯片。这也有缺点，向设备添加额外的芯片会增加成本和功耗。

目前市场上主要有以下几种人工智能芯片：

（1）基于云计算下的训练的AI芯片

目的是开发用于推理的AI模型，这些模型最终会被细化为特定于用例的AI应用程序。这种芯片功能强大且运行成本高，旨在尽快进行训练。

例如，NVIDIA的DGX-2系统，其处理能力总计为2 PetaFLOPS 。它由16个NVIDIA V100 Tensor Core GPU组成。另一个例子是英特尔Habana的Gaudi芯片。日常生活中，需要大量训练的应用程序，例如Facebook照片识别和谷歌翻译，并且这些模型的复杂度每隔几个月就会增加一次。

（2）基于云计算下的推理的AI芯片

在推理需要强大的处理能力的时候，不可能在设备上进行这种推理。这是因为应用程序需要使用更大的模型并处理大量数据。这里的示例芯片包括高通的Cloud AI 100，这是用于处理海量云数据的大型AI芯片。再比如阿里巴巴的环光800，或者Graphcore的Colossus MK2 GC200 IPU。

训练芯片用于训练Facebook的照片或谷歌翻译，而云推理芯片则用于处理创建模型所需要输入的数据，一般应用在人工智能聊天机器人或其他人工智能服务中。

（3）基于边缘计算下的推理的AI芯片

使用设备上的边缘芯片进行推理，可以消除网络不稳定或延迟问题，并且可以更好地保护所用数据的隐私及安全性。上传大量数据所需的带宽成本微乎其微，尤其是图像或视频等视觉数据，因此只要平衡成本和能效，它就可以比云计算推理更便宜、更高效。

这里的例子包括耐能的KL520和最近推出的KL720芯片，这些芯片是专为设备上使用而设计的低功耗且成本效益高的芯片，还有英特尔的Movidius和谷歌的Coral TPU。这些芯片可以用于面部识别监控摄像头、车辆中用于行人和危险检测或驾驶意识检测的摄像头，以及语音助手。

所有这些不同类型的芯片及其不同的使用环境对于物联网（IoT）未来的发展至关重要，人工智能芯片领域也将迅速发展，以适应我们对技术日益依赖的需求。

2.3.2　构建虚拟环境

人工智能技术的发展对于构建元宇宙世界是至关重要的，它不仅可以用于训练出具备更高算力的芯片，还可以帮助提升参与者在元宇宙世界中的体验感。通过和AR/VR等技术的结合来优化虚拟体验，可以让参与者在虚拟世界中获得更强的沉浸感。且人工智能强大的深度学习算法，可以把人从构建元宇宙时的重复工作中解放出来，自动扩展元宇宙世界的边界。

1.虚拟体验优化

人工智能可以协助人机交互（HCI）。当你戴上一个复杂的、支持AI的VR耳机时，它的传感器将读取和预测你的肌肉模式，以准确地知道你想要如何在虚拟世界中移动。AI可以帮助你在VR中重现真实的触觉。另外，计算机在手势识别方面做得越来越好，这将使我们能够更自然地与计算机交互，AI技术可以使计算机更加准确地理解人类的情绪和肢体语言。

眼动追踪是虚拟现实沉浸式界面的另一个重要方面：人类眼睛中的光感受器在中央凹的区域最为密集，中央的光感受器可以让人类感知最高分辨率，其他区域则是周边视觉。虚拟现实需要在人类眼睛聚焦的地方呈现最佳信息。AI被用于预测人的眼睛接下来会看哪里，以帮助提前准备最佳渲染。这对于提供最身临其境的体验很重要。

每个人的大脑都不一样，所以AI的作用就是学习和适应每个人的独特性。研究人员已经训练Neuralink设备（见图2.12）读取猴子的思想，这是通过使用人工智能来学习和解释从猴子大脑中植入的硬件接收到的数据来完成的。

2021年，语言模型开始应用到视觉世界。文字本身就可以表达关于世界的大量信息，但它是不完整的，因为我们也需要视觉来获得信息。下一代AI语言模型将能够根据文本输入编辑和生成图像，同时，视觉空间包含复杂的信息，可以创建合适的文字叙述方式，这将提高机器理解的准确度。

图2.12　Neuralink大脑植入式装置

图片来源：Neuralink

2.大规模扩展虚拟世界

当给定历史数据时，人工智能引擎会从之前的结果中学习并尝试生成自己的结果。随着新的输入、人类反馈和机器学习强化，人工智能的输出将得到改善。最终，人工智能将执行任务并产生与人类几乎一样好的结果。像NVIDIA这样的公司正在训练人工智能来创建整个虚拟世界。这一突破对于确保元宇宙的可扩展性至关重要，因为这可以实现在没有人工干预的情况下让机器自动拓宽元宇宙世界的边界。

2.3.3　虚拟身份

我们正在使用人工智能技术来模仿和取代人类行为。人工智能通过分析用户在元界中的文字、信息等行为模式预测用户的性格、智力水平和经济水平。元宇宙使用人工智能来创建类似人类的声音和独特的内容。通过使用人工智能技术和元宇宙所需的大量数据，可以创建模仿人类行为的大量模式性的内容。

1.精准的虚拟头像制作

用户是元宇宙的核心，而头像及虚拟身份将决定参与者的体验质量。人工智能技术可以分析二维用户图像或进行三维扫描，以创建高度逼真的模拟头像。为了让头像更有活力，它可以绘制各种面部表情来表达情绪，还可以表现老化引起的诸如皱纹和老年斑等面部特征。人工智能已经被Ready Player Me等公司用于帮助用户创建在元宇宙中的化身，而Facebook（Meta）也正在开发制作虚拟头像的技术。

2.数字时代的人类

在元宇宙中，数字人类是聊天机器人的三维版本。它们不是其他人的精确复制品，而是视频游戏中启用AI的非玩家角色（NPC），对用户在虚拟现实世界中的行为做出反应。数字人类完全是用人工智能技术创造的，从游戏中的NPC到虚拟工作场所中的自动化助手，很多科技公司已经在这个方向上进行了投资。

Epic Game的MetaHumans项目于2021年4月刚刚进入抢先体验阶段，旨在将创建逼真角色的时间从几个月缩短到几分钟。除了角色的形状外，它还通过逼真的动作和表演使其看起来栩栩如生。图2.13展示了使用Epic Game的MetaHuman Creator制作出的虚拟人类。

图2.13　Epic Game的MetaHumans

图片来源：Epic Game

3.多种语言的转换

数字人类使用人工智能的主要方式之一是语言处理。人工智能可以帮助分解自然语言，将其转换为机器可读的格式，执行分析，得出结果，然后将结果转换为人类语言并将其发送给用户。整个过程只需要零点几秒，就像现实世界中的人类对话一样。并且，取决于人工智能的训练程度，对话可以转换成任何语言，以便来自世界各地的用户可以在元宇宙中无障碍地沟通。

今天，我们已经看到人工智能如何协助人类进行日常工作，如协助检查、测试、编码，甚至自动生成整个故事片段。随着越来越多的人成为数字内容创作者，我们希望AI扮演创意助手的角色，在人类创作者旁边工作，将创作过程中枯燥、重复或困难的任务自动化。AI系统将从元宇宙中先前的示例和模式中学习，并使用学到的信息来协助新的创作过程。

然后可以使用这些预测来定制和调整玩家在个人层面上最具吸引力的内容和互动的体验。你可以想象拥有一个AI系统，可以组合甚至生成专为用户量身定制的内容和体验。

从提升元宇宙世界中处理庞大数据的算力到生成数字环境、塑造更逼真的AI角色，人工智能的潜在应用几乎是无限的。至于元宇宙，无论最终的形式如何，人工智能技术都无疑是构建元宇宙的极为重要的技术之一。

2.3.4　人工智能与数字孪生

数字孪生能够使元宇宙和现实世界相互影响。其中任何一方的变化都会导致另一个世界产生相应的变化。第3章将会结合虚拟现实技术，对数字孪生进行更具体的介绍，在此，我们先讨论人工智能技术在数字孪生中的应用。

数字孪生是对物理实体或系统具有高度完整性的数字克隆，并能够与物理世界实现实时交互。想要实现数字孪生对物理世界的所有功能，则需要大量地读取数据、处理数据及分析数据，在这个过程中，人为的操作无疑是低效的。因此，有必要将这个过程自动化，而深度学习技术可以训练机器自动从大量复杂的数据中提取有效信息，并进行分析处理。因此，深度学习在促进数字孪生的实施方面具有巨大潜力。有研究提出了一个通用的可应用于数字孪生的深度学习算法，如图2.14所示。在训练阶段，来自元宇宙和物理世界的历史数据融合在一起，用于深度学习训练和测试。如果测试结果符合要求，那么将实施自动化系统。在实施阶段，来自元宇宙和物理世界的实时数据将被融合以进行模型的推理。

图2.14　应用于数字孪生的人工智能算法

2.3 元宇宙与人工智能

2.3.1 AI芯片