购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第2章
技术架构:打开Sora潘多拉魔盒

Sora的出现使视觉技术领域迎来革命性突破,其背后的技术支撑引起AI爱好者的关注。本章在分析Open AI对外公开的技术报告的基础上,结合对人工智能领域相关技术的理解,来探讨Sora的技术架构,探索Sora所包含的基础技术和高级技术,并分析这些技术如何为Sora赋能。

2.1 基础技术:Sora的强大支撑力

从某种程度上来说,Sora是站在“巨人”的肩膀上。得益于生成式AI、大数据、云计算、自然语言处理等技术的不断发展,Sora的开发与训练效率得到提升。本小节将对支撑Sora的基础技术进行简要的分析和介绍。

2.1.1 AI:从分析式AI到生成式AI

从2016年开始,分析式AI(也称决策式AI、判别式AI)开始大规模应用。其能够学习人为输入的数据,明确其中的条件概率分布,结合给定的输出标签进行各项分析、判断和预测工作。

分析式AI的训练难度低、耗时短、成本负担较小。由于只需要学习输入与输出数据的关系,因此分析式AI能够更高效地处理大规模数据,预测性能更好,并且适用于多任务学习场景。然而,分析式AI的训练与应用依赖于大规模、高质量的数据集,并不考虑数据内部结构。因此,分析式AI的泛化能力不足,无法处理高维复杂数据,更无法生成新的数据。

2021年被称作元宇宙元年,在这一年,生成式AI作为人工智能的新范式崭露头角。其利用人工神经网络、深度学习等技术,对大规模的训练数据进行处理和学习,总结数据分布形式,以生成新的数据。

生成式AI的核心在于“创造”,特别是在数据稀缺的条件下,其能够利用深度学习技术补充数据样本,进行数据增强。在应用层面,生成式AI可应用于新闻撰写、广告策划、游戏开发等富于创造性的场景中,为人类提供更多灵感。

作为文生视频大模型,Sora推动生成式AI实现进一步发展。过往的生成式AI存在“幻觉”问题,生成的内容有一定概率与现实世界的逻辑相悖,被戏称为“一本正经地胡说八道”。

而Sora基于RNN(Recurrent Neural Network,循环神经网络)、LSTM(Long Short Term Memory Network,长短时记忆网络)等算法,融入扩散变换器、压缩网络、时空补丁等高级技术,生成的视频更加贴合现实世界,用户观感更好。

2.1.2 大数据:挖掘数据价值,加速决策

大数据通常是指规模较大、种类繁多且处理速度快的数据集合。其数据量巨大而价值密度较低,诸如Excel、MySQL等传统数据处理软件无法提供很好的技术支持。常用的大数据技术是以Hadoop生态为基础。这是一个分布式系统架构,其数据存储与加工流程均为分布式,由多个机器并行处理,进而提升数据处理的规模与安全系数。

大数据技术的运作分为数据采集、数据存储、数据处理、数据应用以及机器学习五个阶段。在数据采集阶段,由于数据所处场景不同,用户用到的数据采集技术也有所区别。例如,Sqoop(SQL-to-Hadoop)技术适用于数据库同步,利用这一技术,用户可以在关系型数据库与Hadoop系统之间进行双向的数据迁移;Flume适用于采集业务日志,用户可以定制不同数据的发送方;Kafka适用于数据传输,可以准确、稳定地传输数据。

在数据存储阶段,采集到的数据被保存为HDFS(Hadoop Distributed File System,Hadoop分布式文件系统)文件。同时,Hadoop还提供一些配套工具,例如,HBase——一种分布式列族数据库,可以随机、实时读取大数据;Hive——一种数据仓库工具,将结构化数据映射成数据库表,提供简单的SQL(Structured Query Language,结构化查询语言)查询功能,并将SQL语句转化为MapReduce(一种分布式计算框架)任务来运行。

在数据处理阶段,对于一次性批量处理的数据,Hadoop的MapReduce功能或Spark(一种高速且通用的大数据计算处理引擎)都能高效处理。对于需要实时、不间断处理的数据,MapReduce的处理速度太慢,通常采用Storm(社交软件X的开源大数据处理框架,被称作实时版Hadoop)或Flink(支持增量迭代计算的大数据分析引擎)。

在数据应用阶段,Kylin、Zeppelin等诸多工具都可以进行数据分析。例如,Kylin是一个开源的分布式分析引擎,提供超大型数据集的SQL接口和多维度OLAP(Online Analytical Processing,在线分析处理)分布式联机分析,能够在亚秒级内查询庞大的Hive表格。

最后,在机器学习阶段,大数据与AI相结合,借助机器学习工具完成相关工作。例如,Google的开源深度学习工具Tensorflow采用数据流图进行数值计算,配备了许多与机器学习相关的API(Application Programming Interface,应用程序编程接口),以提升工作效率。

2.1.3 云计算:强大的计算能力与存储空间

Sora与云计算技术的结合十分密切,从本质上来说,Sora就是一种新型的云计算平台。其包含分布式存储、边缘计算、智能网络等核心技术,能够提升云计算平台的扩展性、安全性和实时性。

1.分布式存储

分布式存储就是构建一个虚拟的存储设备,在设备中将数据分散存储到多个服务器上。借助该技术,Sora能够将数据分散存储至多个节点,有效规避集中存储可能引发的数据丢失、存取低效等问题,提高数据安全和数据可扩展性。

2.边缘计算

边缘计算是在网络的边缘侧为用户提供云服务和IT环境服务,在靠近用户或数据输入侧提供计算、存储等服务。边缘计算能够解决传统云计算(中央计算)存在的高延迟、低带宽以及网络不稳定等问题。

借助该技术,Sora能够将计算任务分布在更加接近用户的边缘节点上,进而降低延迟,提高响应速度。这有助于Sora在实时性要求高的场景中提供实时云计算服务,如在线游戏、虚拟现实等。

3.智能网络

智能网络通过采集、分析网络数据,感知网络状态与行为,进而更好地优化和控制网络数据。智能网络与云计算关系密切。一方面,云计算为智能网络提供大量的计算和存储资源,使其可以对大规模的网络数据进行处理和分析;另一方面,智能网络为云计算提供丰富的数据资源,助力其优化自身的智能化服务。

借助智能网络技术,Sora能够优化网络流量与负载均衡,规避网络拥堵问题,提升网络吞吐量与稳定性。Sora以云计算为技术支撑,为云计算的发展指明方向。一方面,用户对云计算服务的需求朝着实时性、可扩展性的方向发展,这就要求研发人员对分布式技术、边缘计算予以重视;另一方面,云计算技术的落地必然带来信息安全、隐私保护等问题,强化技术安全迫在眉睫。

2.1.4 自然语言处理:理解能力无限提升

Sora的技术架构包含视频处理和智能生成两个模块。其中,智能生成模块负责生成智能内容,用到的技术之一就是NLP(Natural Language Processing,自然语言处理)。

NLP既是一种技术,又是一门学科,其研究目的是让计算机理解、处理并生成人类语言,进而与人类进行自然对话。NLP技术可应用于文本摘要、机器翻译、情感分析、系统问答等多类场景中。

NLP技术的底层原理包括语言模型、词向量表示、语义分析以及深度学习。语言模型负责计算输入文本序列的概率,通常采用概率模型表达文本的生成概率,如N-Gram模型、HMM(Hidden Markov Model,隐马尔可夫模型)及CRF(Conditional Random Field,条件随机场)等。

词向量表示负责将自然语言转换成计算机能够处理的向量形式,通常采用词袋模型或分布式表示等方法。语义分析负责将自然语言转换成计算机能够理解的形式,其关注的是句子的意义,通常使用RNN、词向量的平均值等方法。

深度学习通过大规模数据训练,提升NLP工具处理自然语言的准确性。常用模型包括RNN、CNN(Convolutional Neural Network,卷积神经网络)、Transformer等。

在Sora的训练过程中,研究团队会从大量的无标签数据中提取知识,然后将其应用到Sora的自监督学习中。这种方法降低了Sora对标注数据的依赖,更多的无标签数据被应用到Sora训练中,可以提升模型性能。

2.2 高级技术:打造与众不同的Sora

Sora生成的视频的时长、连贯性、创造性以及与现实世界的贴合度达到了前所未有的高度。Sora的与众不同来源于其背后的高级技术,包括Transformer架构、扩散变换器等。

2.2.1 Transformer架构:与ChatGPT同源

作为ChatGPT的核心,Transformer架构是一种深度学习模型,主要应用于自然语言处理,如语言翻译、文本生成等。就目前来看,Sora的图像字幕模型、图像/视频压缩模型以及扩散模型,都在一定程度上使用了Transformer架构。

首先,我们需要了解Transformer架构的基本原理,通常由以下6个步骤组成,如图2-1所示。

图2-1 Transformer架构的基本原理

1 . Token/Patch化

首先,Transformer需要将输入的文本、图像或视频数据转换为Token(计算机术语,通常指文本中最小的单位)或Patch(补丁,也可理解为图像块)。具体来说,文本数据会被拆分成一个个词、字或标点符号;图像会被拆分成一个个“小块”;视频则被拆分成连续帧的一部分。

2.嵌入层

经过拆分和转换后,这些Token或Patch会进入嵌入层。该环节会将其转换成固定大小的向量,便于模型做后续处理。

3.自注意力机制

该环节是Transformer的核心。这一机制会权衡每个Token之间的关联性和重要性,使Transformer更好地理解整个序列。

4.多头注意力

在这一阶段,Transformer会从多个角度切入,继续学习Token之间的关联性,在不同的子空间中收集更为丰富的信息。

5.位置编码

Transformer并不具备处理序列顺序信息的能力,因此在这一环节中,通过添加位置编码,为Transformer提供每个Token的位置信息,使其在分析中考虑到各Token的顺序。

6.编码器—解码器

编码器用于处理输入的Token,解码器则根据编码器给出的信息进行相应的输出。这一结构被广泛应用于机器翻译任务中。

作为Sora模型的基础架构之一,Transformer具备出色的序列数据处理能力,能够高效捕捉文本信息,明确上下文关系。该模型与扩散模型将结合,先由Transformer对输入文本进行编码,提取关键信息,再由扩散模型结合信息指导视频生成,使Sora具备文本转换视频的能力。

2.2.2 多模态技术:实现智能化交互

基于深度学习算法,多模态大模型能够处理文本、图像、声音、视频等多种模态的数据,并将其有效融合,从而更加准确地理解和描述复杂场景。在文生视频领域拥有显著优势的Sora本身就是一种多模态大模型。

所谓多模态,是指从多个模态感知或表达事物,通常分为三种形式。一是以多种媒体数据描述同一对象,例如,描述下雪,可以是文字、照片、视频或录音。二是通过不同传感器获得同一种媒体数据,例如,在医疗领域,B超、CT、核磁共振均产生图像数据,但来自不同的检查设备。三是以不同的数据结构、表述形式展现同一符号或信息,例如,描述一个数学概念,可以用解释性文本、公式、符号、函数图等。

多模态大模型由视觉模型和语言模型两部分构成,采用CNN、RNN等深度学习算法。视觉模型负责处理图片、视频等视觉数据,语言模型负责处理语音、文字等语言数据。二者以注意力机制进行交互,实现多模态数据的整合与处理。

基于深度学习算法和大量的数据训练,多模态大模型能够提取不同模态的数据特征,将其转化为自身能够理解的“语言”。在准确识别和理解多模态数据的同时,多模态大模型能够明确不同模态数据之间的关联性,进而更加全面、准确地输出相关信息。

得益于多模态技术,Sora不仅能够准确理解用户给出的文本信息,将其转化为1分钟的高质量视频,还可以接收图像、视频等其他类型的信息,执行编辑任务,如创建GIF、将静态图片转化成动画、向前向后扩展视频等。

2.2.3 扩散变换器:潜在扩散+变换器

Sora的核心——扩散变换器(Diffusion Transformer)是将扩散模型与Transformer架构相结合,通过逐步去除视频噪声,生成足有1分钟的清晰视频。

扩散模型的设计灵感来自物理学的扩散过程,先在数据中逐步添加噪声,再逆向去除,最终形成高质量的数据。扩散模型的核心是U-Net架构,如图2-2所示。

图2-2 U-Net架构

如图2-2所示,U-N e t架构具有对称和跳跃连接的特征,最初应用于医学图像分割。在扩散模型中,U-Net的多层次结构使其能够有效学习,并融合不同层级的数据特征。在去噪过程中,U-Net的跳跃连接特性使扩散模型可以更好地结合各种细节与上下文信息,增强局部与全局信息的融合。同时,U-Net架构的适应性较强,能够有效整合不同类型与规模的数据,这恰恰是扩散模型所需要的特性。

Sora的扩散变换器是将传统的U-Net架构替换成能够在潜在patch上运作的Transformer架构,进而将Transformer技术引入扩散模型,提升生成图像/视频的效率与质量。

Sora的扩散变换器具有可扩展性——通过提升Transformer的深度或宽度,或者增加token输入的数量,能够实现更低的FID(Fréchet Inception Distance,用于衡量图像质量的指标)。而FID越低,图像质量越高。

一项研究表明,最大型号的扩散变换器——DiT-XL/2模型已经在相关基准测试中实现了最低FID。这表明该模型在图像生成质量上达到新的高度,特别是在高分辨率图像生成方面具有显著优势。

2.2.4 视频训练技术:压缩网络+时空补丁提取

从研发思路来看,Sora的开发与训练受到大语言模型(Large Language Model,LLM)的启发,研发团队借鉴LLM中token的思想,将其应用至视觉模型中。LLM利用token统一处理代码、数字以及自然语言等不同种类的文本数据。而Sora用时空补丁(Spacetime Patches)替代token,用以处理多样化的图像与视频内容。

在Sora的研发与训练过程中,研发团队需要将视觉数据压缩到一个低维潜在空间中,再将压缩表示分解成时空补丁。基于此,Sora能够更加有效地学习和处理多种类型的视觉数据。

Open AI的研发人员训练了一个压缩网络,用以降低视觉数据维度。在该网络中输入原始视频,能够得到该视频在时间与空间上压缩的潜在表示,进而将视觉数据压缩至低维潜在空间。简单来说,压缩网络将原始视频进行抽象与简化处理,使Sora更有效地学习和处理视觉数据。

同时,Sora也在这个压缩网络中接受训练,以提高处理视频数据的效率,并更好地捕捉视频内容及其特征。此外,研发人员训练了匹配Sora的解码器模型,其能够将压缩表示还原成像素级图像和视频,使最终输出的内容保真度更高。

关于时空补丁的提取,视频数据包含时间和空间两个维度,传统方法只考虑到视频的时间维度,将其拆分成一系列连续的帧,却忽略了每一帧中物体的位移。而时空补丁将视频分解成一系列“小块”,每一块都包含了原视频中的部分时间与空间信息。这种处理方式使Sora得以更好地理解视频中的时空关系。

在视频生成过程中,Sora能够操作这些时空补丁,例如,调整某些补丁以改变视频中人物的动作或位置,生成新的补丁以创建新的帧等。通过对时间和空间的精细控制,Sora能够生成更精准、更逼真的视频,其灵活性与适配度更高。

2.2.5 预训练大模型:降低AI应用门槛

在Sora发布后不久,Colossal-AI团队就发布并开源了全球首个类Sora架构的视频生成模型——Open-Sora 1.0。该模型涵盖数据处理、全部训练细节以及模型权重等一整套训练流程,能够降低Sora的使用门槛。

Colossal-AI团队的Sora复现方案包4个关键维度。

1.模型架构设计

Open-Sora 1.0同样采用扩散变换器架构,以文生图模型PixArt-α为底座,引入时间注意力层,进而将其扩展至视频数据。整个架构包含预训练好的VAE、文本编码器以及基于空间-时间注意力机制的扩散变换器(Spatial Temporal Diffusion Transformer,简称STDiT)。

2.训练复现方案

Open-Sora 1.0的训练分为三个阶段。一是大规模图像预训练,该团队直接选择一个高质量文图模型并对其进行训练,作为下一阶段的初始化权重。

二是大规模视频训练,该团队在第一阶段模型中加入时序注意力模块,使其学习视频中的时序关系。同时,该团队采用PixArt-α的开源权重作为该阶段STDiT模型的初始化,文本编码器则采用T5模型,并使用256x256的小分辨率,以加快收敛速度,降低训练成本。

三是高质量视频数据微调。Colossal-AI团队表示,该阶段使用的视频数据规模比上一阶段要小,但视频画质更高、时间更长。经过微调,Open-Sora 1.0能够生成时间更长、分辨率与保真度更高的视频。

3.数据预处理

该团队在代码仓库中提供了Open-Sora 1.0的视频数据预处理脚本,用户可以对其进行视频数据集下载、长视频分割、精细提示词生成等方面的训练,在自己的数据集上迅速生成训练文本或视频,进一步降低Sora复现的难度。

4.高效训练加持

Colossal-AI团队的加速系统为Sora的高效训练提供支持。团队通过算子优化、混合并行等策略,使Open-Sora 1.0在训练中以1.55倍速处理512×512分辨率、64帧视频,提高任务处理效率。

Colossal-AI团队将Open-Sora 1.0免费开源在GitHub上,并持续优化Open-Sora项目,降低Sora使用门槛,推进其在电影、游戏等领域落地。

2.3 技术如何为Sora赋能

在基础技术和高级技术的双重加持下,Sora具备强大的指令遵循、多帧预测以及“世界模拟”能力,生成的内容拥有更丰富的细节,值得反复推敲。尽管Sora是AI领域的一项重要成果,但是其也存在一些不足,需要进一步改进。

2.3.1 强大的指令遵循能力

用户普遍通过自然语言指令,即文本提示与Sora进行交互,这就要求Sora具备强大的指令遵循能力,才能生成符合用户要求的视频。

为了增强Sora的指令遵循能力,研发团队使用了类似文生图模型DALL-E 3的训练方法。DALL-E 3的训练方法是假设文本与图像数据的质量决定文生图模型的性能。数据质量差,尤其是数据噪声大、标题过短等问题普遍存在,导致DALL-E 3遗漏了大量信息,如忽略关键词、词序等,进而误解用户意图。

为了解决这一问题,DALL-E 3采取标题改进方法,即为现有图像添加详细的描述性标题。研发团队先训练一个图像字幕器,其能够生成描述性强的图像字幕,再根据字幕对生成图像的主要对象、周边环境、文本、色彩等内容进行微调。

Sora采取类似的字幕改进方法。研发团队首先训练一个视频字幕器,用以生成描述性强的视频字幕。关于视频字幕器的训练方法,Sora的技术报告中并未透露详细信息。目前已知的方法是VideoCoCa。

该方法以CoCa架构为基础,根据图像编码器在预训练中的权重,将其应用于采样的视频帧。其生成的帧标记会被展平,进而连接成一长串的视频表示。然后,生成池化器与对比池化器会处理扁平化的帧标记,与字幕损失、对比损失联合训练。

此外,为了确保训练数据中的字幕与用户提示的格式一致,Sora在额外的提示扩展步骤采用GPT-4V,将用户输入的内容扩展为详细的描述性数据。通过指令调整训练,Sora拥有强大的指令遵循能力,生成的视频能够更加精准地满足用户需求。

2.3.2 多帧预测能力

近年来,视频预测引起广泛关注,在人体运动预测、气候变化预测、交通流预测等领域得到应用。通过引入Transformer架构、循环神经网络等神经操作符,采用自回归、标准化流等精细架构,以及应用对抗性训练等不同的训练策略,视频预测的性能逐步增强。Sora在此基础上有了新的提升。

在生成长视频的过程中,如何使其中人物、物体及场景保持一致是一项很大的挑战。Sora的多帧预测能力使其在生成视频时可以一次性进行多帧预测,保证画面主体即使暂时离开观众视野,也能保持外观、行为和环境的一致。

例如,OpenAI在论文中公布的视频画面——一只趴在窗边向外张望的斑点狗,即使被路过的人群遮挡,观众暂时无法看见,其外形、动作及周围的背景(粉红的墙面、蓝色的窗台)也没有发生变化。

这一能力表示,Sora有能力通过不断进行深入的自我学习,情感化地理解用户指令,使生成的视频逻辑更为连贯、情感更为丰富。

基于扩散变换器、指令调整等多方面的训练,Sora能够通过极简的方式生成视频。用户只需通过自然语言描述所需场景,即可获得基于描述的完整视频。视频生成所需要的细节和深度都远远超过文本描述,这就要求Sora对人类语言有深刻的理解。

以往,AI生成的图像与视频缺乏深入人心的情感表达,难以激起用户的共情共鸣。然而,Sora生成的视频中的角色拥有自然、细腻且逻辑严谨的情感流露,与其所处的环境完美融合,仿佛是一位真实存在的人物,能够深深触动观众的心灵。

2.3.3 与世界“连接”

OpenAI将Sora标榜为“世界模拟器”,即通过Sora的“构建”能力使其生成的内容无限接近于我们所处的现实世界。

现实世界遵循特定的物理定律而运转,例如,物体存在重力,风会吹动头发,易碎物品落地会依照可预测的方式碎裂等。传统的3D建模会受到帧数限制,而Sora能够无限复刻细节,使视频内容严格遵循物理定律且逻辑通顺。

得益于大规模的数据训练,Sora能够更准确地理解和模拟三维空间。当一位人类摄影师手持摄像机,围绕一名正在跳舞的舞者进行旋转拍摄时,我们能从不同的角度看到舞者的动作,并且人物、动作与背景都在正确的空间、位置上。如今,Sora也能生成这样的视频。其不仅能够捕捉平面图像中的动作,还能够通过3D视角展现人物或物品的运动,呈现出如同动态摄像机拍摄的内容。

同时,Sora可以模拟人物与环境之间的简单互动,例如,一个人在吃汉堡时留下的咬痕,行走时脚下的尘土飞扬,画画时画布颜色发生的变化等。这些小细节极大增强了视频的真实感,展现Sora对现实事物之间互动与影响的理解与模拟。

除了擅长模拟人工过程,Sora还具备卓越的数字场景模拟能力。以经典的沙盒游戏《我的世界》为例,当我们向Sora提供有关这款游戏的相关信息时,它能够灵活运用基本策略来控制游戏中的玩家行为,并以极高的保真度精准渲染游戏世界及其相关动态。

2.3.4 Sora的不足

当然,Sora的发展任重而道远。就目前来看,Sora依旧存在诸多不足之处,主要体现在以下四个方面。

1.物理现实主义的挑战

Sora无法准确地描述复杂场景,具体来说,其对复杂场景中物理原理的理解与处理并不一致,这就导致其无法精准复刻带有因果关系的具体事例。例如,对咬痕的复刻——Sora生成的吃饼干画面中,并非100%在饼干上产生相应的咬痕。

同时,在Sora生成的运动视频中,存在对物体变换、椅子刚性结构等内容的不自然、不正确模拟,进而使视频中出现不切实际的物理交互,让观众有滑稽之感。

2.时空的复杂性

有时,Sora会误解给定提示中关于物体位置或顺序排列的指令,进而导致方向混乱,如混淆左右。同时,在保持事件时间的准确性方面,Sora的能力还有待提升。此外,在涉及大量角色的复杂场景中,Sora更倾向于添加无关的人或动物,这就导致生成的视频偏离最初设想的构图和氛围。这一问题会影响Sora重新创建特定场景的能力,使其生成的视频不够连贯,内容也会与用户的期望大相径庭。

3.人机交互的局限

在人机交互领域,用户与Sora交互的效率和一致性并不高,尤其体现在详细修改或优化Sora生成的内容方面。例如,用户很难精确地描述视频中某些特定元素的具体修改需求,而Sora不能完全理解复杂的语言指令,也无法捕捉细微的语义差异。这就导致其生成的视频不能完全符合用户期待,可能给用户带来不好的体验。

4.使用方面的限制

一方面,Sora与其他AI大模型一样,在信息安全、内容审核、隐私保护等方面存在隐患,仍需进一步升级和完善。另一方面,目前Sora最多只能生成1分钟的视频,这意味着其无法应用于详细的教学视频或长篇故事讲述中,内容创作范围会受到一定的限制。

综上所述,无论从技术视角,还是伦理视角来看,Sora仍存在许多不足之处。这些不足会对Sora与各个行业结合、实现广泛应用产生不利影响。当然,我们有理由相信,随着技术进步和创新,这些问题都会得到解决。但在此之前,我们仍需对其保持谨慎的态度,不断加深对其的了解,确保安全应用。 VfxSOJF5xNWhozIzOrbvmGC5Xz4/raXAWXMm4flB4Z+bsuuiQzf9OW++/fkXeY+/

点击中间区域
呼出菜单
上一章
目录
下一章
×

打开