Sora革命：文生视频大模型场景赋能最新章节_李波著

第2章
技术架构：打开Sora潘多拉魔盒

Sora的出现使视觉技术领域迎来革命性突破，其背后的技术支撑引起AI爱好者的关注。本章在分析Open AI对外公开的技术报告的基础上，结合对人工智能领域相关技术的理解，来探讨Sora的技术架构，探索Sora所包含的基础技术和高级技术，并分析这些技术如何为Sora赋能。

2.1 基础技术：Sora的强大支撑力

从某种程度上来说，Sora是站在“巨人”的肩膀上。得益于生成式AI、大数据、云计算、自然语言处理等技术的不断发展，Sora的开发与训练效率得到提升。本小节将对支撑Sora的基础技术进行简要的分析和介绍。

2.1.1 AI：从分析式AI到生成式AI

从2016年开始，分析式AI（也称决策式AI、判别式AI）开始大规模应用。其能够学习人为输入的数据，明确其中的条件概率分布，结合给定的输出标签进行各项分析、判断和预测工作。

分析式AI的训练难度低、耗时短、成本负担较小。由于只需要学习输入与输出数据的关系，因此分析式AI能够更高效地处理大规模数据，预测性能更好，并且适用于多任务学习场景。然而，分析式AI的训练与应用依赖于大规模、高质量的数据集，并不考虑数据内部结构。因此，分析式AI的泛化能力不足，无法处理高维复杂数据，更无法生成新的数据。

2021年被称作元宇宙元年，在这一年，生成式AI作为人工智能的新范式崭露头角。其利用人工神经网络、深度学习等技术，对大规模的训练数据进行处理和学习，总结数据分布形式，以生成新的数据。

生成式AI的核心在于“创造”，特别是在数据稀缺的条件下，其能够利用深度学习技术补充数据样本，进行数据增强。在应用层面，生成式AI可应用于新闻撰写、广告策划、游戏开发等富于创造性的场景中，为人类提供更多灵感。

作为文生视频大模型，Sora推动生成式AI实现进一步发展。过往的生成式AI存在“幻觉”问题，生成的内容有一定概率与现实世界的逻辑相悖，被戏称为“一本正经地胡说八道”。

而Sora基于RNN（Recurrent Neural Network，循环神经网络）、LSTM（Long Short Term Memory Network，长短时记忆网络）等算法，融入扩散变换器、压缩网络、时空补丁等高级技术，生成的视频更加贴合现实世界，用户观感更好。

2.1.2 大数据：挖掘数据价值，加速决策

大数据通常是指规模较大、种类繁多且处理速度快的数据集合。其数据量巨大而价值密度较低，诸如Excel、MySQL等传统数据处理软件无法提供很好的技术支持。常用的大数据技术是以Hadoop生态为基础。这是一个分布式系统架构，其数据存储与加工流程均为分布式，由多个机器并行处理，进而提升数据处理的规模与安全系数。

大数据技术的运作分为数据采集、数据存储、数据处理、数据应用以及机器学习五个阶段。在数据采集阶段，由于数据所处场景不同，用户用到的数据采集技术也有所区别。例如，Sqoop（SQL-to-Hadoop）技术适用于数据库同步，利用这一技术，用户可以在关系型数据库与Hadoop系统之间进行双向的数据迁移；Flume适用于采集业务日志，用户可以定制不同数据的发送方；Kafka适用于数据传输，可以准确、稳定地传输数据。

在数据存储阶段，采集到的数据被保存为HDFS（Hadoop Distributed File System，Hadoop分布式文件系统）文件。同时，Hadoop还提供一些配套工具，例如，HBase——一种分布式列族数据库，可以随机、实时读取大数据；Hive——一种数据仓库工具，将结构化数据映射成数据库表，提供简单的SQL（Structured Query Language，结构化查询语言）查询功能，并将SQL语句转化为MapReduce（一种分布式计算框架）任务来运行。

在数据处理阶段，对于一次性批量处理的数据，Hadoop的MapReduce功能或Spark（一种高速且通用的大数据计算处理引擎）都能高效处理。对于需要实时、不间断处理的数据，MapReduce的处理速度太慢，通常采用Storm（社交软件X的开源大数据处理框架，被称作实时版Hadoop）或Flink（支持增量迭代计算的大数据分析引擎）。

在数据应用阶段，Kylin、Zeppelin等诸多工具都可以进行数据分析。例如，Kylin是一个开源的分布式分析引擎，提供超大型数据集的SQL接口和多维度OLAP（Online Analytical Processing，在线分析处理）分布式联机分析，能够在亚秒级内查询庞大的Hive表格。

最后，在机器学习阶段，大数据与AI相结合，借助机器学习工具完成相关工作。例如，Google的开源深度学习工具Tensorflow采用数据流图进行数值计算，配备了许多与机器学习相关的API（Application Programming Interface，应用程序编程接口），以提升工作效率。

2.1.3 云计算：强大的计算能力与存储空间

Sora与云计算技术的结合十分密切，从本质上来说，Sora就是一种新型的云计算平台。其包含分布式存储、边缘计算、智能网络等核心技术，能够提升云计算平台的扩展性、安全性和实时性。

1.分布式存储

分布式存储就是构建一个虚拟的存储设备，在设备中将数据分散存储到多个服务器上。借助该技术，Sora能够将数据分散存储至多个节点，有效规避集中存储可能引发的数据丢失、存取低效等问题，提高数据安全和数据可扩展性。

2.边缘计算

边缘计算是在网络的边缘侧为用户提供云服务和IT环境服务，在靠近用户或数据输入侧提供计算、存储等服务。边缘计算能够解决传统云计算（中央计算）存在的高延迟、低带宽以及网络不稳定等问题。

借助该技术，Sora能够将计算任务分布在更加接近用户的边缘节点上，进而降低延迟，提高响应速度。这有助于Sora在实时性要求高的场景中提供实时云计算服务，如在线游戏、虚拟现实等。

3.智能网络

智能网络通过采集、分析网络数据，感知网络状态与行为，进而更好地优化和控制网络数据。智能网络与云计算关系密切。一方面，云计算为智能网络提供大量的计算和存储资源，使其可以对大规模的网络数据进行处理和分析；另一方面，智能网络为云计算提供丰富的数据资源，助力其优化自身的智能化服务。

借助智能网络技术，Sora能够优化网络流量与负载均衡，规避网络拥堵问题，提升网络吞吐量与稳定性。Sora以云计算为技术支撑，为云计算的发展指明方向。一方面，用户对云计算服务的需求朝着实时性、可扩展性的方向发展，这就要求研发人员对分布式技术、边缘计算予以重视；另一方面，云计算技术的落地必然带来信息安全、隐私保护等问题，强化技术安全迫在眉睫。

2.1.4 自然语言处理：理解能力无限提升

Sora的技术架构包含视频处理和智能生成两个模块。其中，智能生成模块负责生成智能内容，用到的技术之一就是NLP（Natural Language Processing，自然语言处理）。

NLP既是一种技术，又是一门学科，其研究目的是让计算机理解、处理并生成人类语言，进而与人类进行自然对话。NLP技术可应用于文本摘要、机器翻译、情感分析、系统问答等多类场景中。

NLP技术的底层原理包括语言模型、词向量表示、语义分析以及深度学习。语言模型负责计算输入文本序列的概率，通常采用概率模型表达文本的生成概率，如N-Gram模型、HMM（Hidden Markov Model，隐马尔可夫模型）及CRF（Conditional Random Field，条件随机场）等。

词向量表示负责将自然语言转换成计算机能够处理的向量形式，通常采用词袋模型或分布式表示等方法。语义分析负责将自然语言转换成计算机能够理解的形式，其关注的是句子的意义，通常使用RNN、词向量的平均值等方法。

深度学习通过大规模数据训练，提升NLP工具处理自然语言的准确性。常用模型包括RNN、CNN（Convolutional Neural Network，卷积神经网络）、Transformer等。

在Sora的训练过程中，研究团队会从大量的无标签数据中提取知识，然后将其应用到Sora的自监督学习中。这种方法降低了Sora对标注数据的依赖，更多的无标签数据被应用到Sora训练中，可以提升模型性能。

2.2 高级技术：打造与众不同的Sora

Sora生成的视频的时长、连贯性、创造性以及与现实世界的贴合度达到了前所未有的高度。Sora的与众不同来源于其背后的高级技术，包括Transformer架构、扩散变换器等。

2.2.1 Transformer架构：与ChatGPT同源

作为ChatGPT的核心，Transformer架构是一种深度学习模型，主要应用于自然语言处理，如语言翻译、文本生成等。就目前来看，Sora的图像字幕模型、图像/视频压缩模型以及扩散模型，都在一定程度上使用了Transformer架构。

首先，我们需要了解Transformer架构的基本原理，通常由以下6个步骤组成，如图2-1所示。

图2-1 Transformer架构的基本原理

1 . Token/Patch化

首先，Transformer需要将输入的文本、图像或视频数据转换为Token（计算机术语，通常指文本中最小的单位）或Patch（补丁，也可理解为图像块）。具体来说，文本数据会被拆分成一个个词、字或标点符号；图像会被拆分成一个个“小块”；视频则被拆分成连续帧的一部分。

2.嵌入层

经过拆分和转换后，这些Token或Patch会进入嵌入层。该环节会将其转换成固定大小的向量，便于模型做后续处理。

3.自注意力机制

该环节是Transformer的核心。这一机制会权衡每个Token之间的关联性和重要性，使Transformer更好地理解整个序列。

4.多头注意力

在这一阶段，Transformer会从多个角度切入，继续学习Token之间的关联性，在不同的子空间中收集更为丰富的信息。

5.位置编码

Transformer并不具备处理序列顺序信息的能力，因此在这一环节中，通过添加位置编码，为Transformer提供每个Token的位置信息，使其在分析中考虑到各Token的顺序。

6.编码器—解码器

编码器用于处理输入的Token，解码器则根据编码器给出的信息进行相应的输出。这一结构被广泛应用于机器翻译任务中。

作为Sora模型的基础架构之一，Transformer具备出色的序列数据处理能力，能够高效捕捉文本信息，明确上下文关系。该模型与扩散模型将结合，先由Transformer对输入文本进行编码，提取关键信息，再由扩散模型结合信息指导视频生成，使Sora具备文本转换视频的能力。

2.2.2 多模态技术：实现智能化交互

基于深度学习算法，多模态大模型能够处理文本、图像、声音、视频等多种模态的数据，并将其有效融合，从而更加准确地理解和描述复杂场景。在文生视频领域拥有显著优势的Sora本身就是一种多模态大模型。

所谓多模态，是指从多个模态感知或表达事物，通常分为三种形式。一是以多种媒体数据描述同一对象，例如，描述下雪，可以是文字、照片、视频或录音。二是通过不同传感器获得同一种媒体数据，例如，在医疗领域，B超、CT、核磁共振均产生图像数据，但来自不同的检查设备。三是以不同的数据结构、表述形式展现同一符号或信息，例如，描述一个数学概念，可以用解释性文本、公式、符号、函数图等。

多模态大模型由视觉模型和语言模型两部分构成，采用CNN、RNN等深度学习算法。视觉模型负责处理图片、视频等视觉数据，语言模型负责处理语音、文字等语言数据。二者以注意力机制进行交互，实现多模态数据的整合与处理。

基于深度学习算法和大量的数据训练，多模态大模型能够提取不同模态的数据特征，将其转化为自身能够理解的“语言”。在准确识别和理解多模态数据的同时，多模态大模型能够明确不同模态数据之间的关联性，进而更加全面、准确地输出相关信息。

得益于多模态技术，Sora不仅能够准确理解用户给出的文本信息，将其转化为1分钟的高质量视频，还可以接收图像、视频等其他类型的信息，执行编辑任务，如创建GIF、将静态图片转化成动画、向前向后扩展视频等。

2.2.3 扩散变换器：潜在扩散+变换器

Sora的核心——扩散变换器（Diffusion Transformer）是将扩散模型与Transformer架构相结合，通过逐步去除视频噪声，生成足有1分钟的清晰视频。

扩散模型的设计灵感来自物理学的扩散过程，先在数据中逐步添加噪声，再逆向去除，最终形成高质量的数据。扩散模型的核心是U-Net架构，如图2-2所示。

图2-2 U-Net架构

如图2-2所示，U-N e t架构具有对称和跳跃连接的特征，最初应用于医学图像分割。在扩散模型中，U-Net的多层次结构使其能够有效学习，并融合不同层级的数据特征。在去噪过程中，U-Net的跳跃连接特性使扩散模型可以更好地结合各种细节与上下文信息，增强局部与全局信息的融合。同时，U-Net架构的适应性较强，能够有效整合不同类型与规模的数据，这恰恰是扩散模型所需要的特性。

Sora的扩散变换器是将传统的U-Net架构替换成能够在潜在patch上运作的Transformer架构，进而将Transformer技术引入扩散模型，提升生成图像/视频的效率与质量。

Sora的扩散变换器具有可扩展性——通过提升Transformer的深度或宽度，或者增加token输入的数量，能够实现更低的FID（Fréchet Inception Distance，用于衡量图像质量的指标）。而FID越低，图像质量越高。

一项研究表明，最大型号的扩散变换器——DiT-XL/2模型已经在相关基准测试中实现了最低FID。这表明该模型在图像生成质量上达到新的高度，特别是在高分辨率图像生成方面具有显著优势。

2.2.4 视频训练技术：压缩网络+时空补丁提取

从研发思路来看，Sora的开发与训练受到大语言模型（Large Language Model，LLM）的启发，研发团队借鉴LLM中token的思想，将其应用至视觉模型中。LLM利用token统一处理代码、数字以及自然语言等不同种类的文本数据。而Sora用时空补丁（Spacetime Patches）替代token，用以处理多样化的图像与视频内容。

在Sora的研发与训练过程中，研发团队需要将视觉数据压缩到一个低维潜在空间中，再将压缩表示分解成时空补丁。基于此，Sora能够更加有效地学习和处理多种类型的视觉数据。

Open AI的研发人员训练了一个压缩网络，用以降低视觉数据维度。在该网络中输入原始视频，能够得到该视频在时间与空间上压缩的潜在表示，进而将视觉数据压缩至低维潜在空间。简单来说，压缩网络将原始视频进行抽象与简化处理，使Sora更有效地学习和处理视觉数据。

同时，Sora也在这个压缩网络中接受训练，以提高处理视频数据的效率，并更好地捕捉视频内容及其特征。此外，研发人员训练了匹配Sora的解码器模型，其能够将压缩表示还原成像素级图像和视频，使最终输出的内容保真度更高。

关于时空补丁的提取，视频数据包含时间和空间两个维度，传统方法只考虑到视频的时间维度，将其拆分成一系列连续的帧，却忽略了每一帧中物体的位移。而时空补丁将视频分解成一系列“小块”，每一块都包含了原视频中的部分时间与空间信息。这种处理方式使Sora得以更好地理解视频中的时空关系。

在视频生成过程中，Sora能够操作这些时空补丁，例如，调整某些补丁以改变视频中人物的动作或位置，生成新的补丁以创建新的帧等。通过对时间和空间的精细控制，Sora能够生成更精准、更逼真的视频，其灵活性与适配度更高。

2.2.5 预训练大模型：降低AI应用门槛

在Sora发布后不久，Colossal-AI团队就发布并开源了全球首个类Sora架构的视频生成模型——Open-Sora 1.0。该模型涵盖数据处理、全部训练细节以及模型权重等一整套训练流程，能够降低Sora的使用门槛。

Colossal-AI团队的Sora复现方案包4个关键维度。

1.模型架构设计

Open-Sora 1.0同样采用扩散变换器架构，以文生图模型PixArt-α为底座，引入时间注意力层，进而将其扩展至视频数据。整个架构包含预训练好的VAE、文本编码器以及基于空间-时间注意力机制的扩散变换器（Spatial Temporal Diffusion Transformer，简称STDiT）。

2.训练复现方案

Open-Sora 1.0的训练分为三个阶段。一是大规模图像预训练，该团队直接选择一个高质量文图模型并对其进行训练，作为下一阶段的初始化权重。

二是大规模视频训练，该团队在第一阶段模型中加入时序注意力模块，使其学习视频中的时序关系。同时，该团队采用PixArt-α的开源权重作为该阶段STDiT模型的初始化，文本编码器则采用T5模型，并使用256x256的小分辨率，以加快收敛速度，降低训练成本。

三是高质量视频数据微调。Colossal-AI团队表示，该阶段使用的视频数据规模比上一阶段要小，但视频画质更高、时间更长。经过微调，Open-Sora 1.0能够生成时间更长、分辨率与保真度更高的视频。

3.数据预处理

该团队在代码仓库中提供了Open-Sora 1.0的视频数据预处理脚本，用户可以对其进行视频数据集下载、长视频分割、精细提示词生成等方面的训练，在自己的数据集上迅速生成训练文本或视频，进一步降低Sora复现的难度。

4.高效训练加持

Colossal-AI团队的加速系统为Sora的高效训练提供支持。团队通过算子优化、混合并行等策略，使Open-Sora 1.0在训练中以1.55倍速处理512×512分辨率、64帧视频，提高任务处理效率。

Colossal-AI团队将Open-Sora 1.0免费开源在GitHub上，并持续优化Open-Sora项目，降低Sora使用门槛，推进其在电影、游戏等领域落地。

2.3 技术如何为Sora赋能

在基础技术和高级技术的双重加持下，Sora具备强大的指令遵循、多帧预测以及“世界模拟”能力，生成的内容拥有更丰富的细节，值得反复推敲。尽管Sora是AI领域的一项重要成果，但是其也存在一些不足，需要进一步改进。

2.3.1 强大的指令遵循能力

用户普遍通过自然语言指令，即文本提示与Sora进行交互，这就要求Sora具备强大的指令遵循能力，才能生成符合用户要求的视频。

为了增强Sora的指令遵循能力，研发团队使用了类似文生图模型DALL-E 3的训练方法。DALL-E 3的训练方法是假设文本与图像数据的质量决定文生图模型的性能。数据质量差，尤其是数据噪声大、标题过短等问题普遍存在，导致DALL-E 3遗漏了大量信息，如忽略关键词、词序等，进而误解用户意图。

为了解决这一问题，DALL-E 3采取标题改进方法，即为现有图像添加详细的描述性标题。研发团队先训练一个图像字幕器，其能够生成描述性强的图像字幕，再根据字幕对生成图像的主要对象、周边环境、文本、色彩等内容进行微调。

Sora采取类似的字幕改进方法。研发团队首先训练一个视频字幕器，用以生成描述性强的视频字幕。关于视频字幕器的训练方法，Sora的技术报告中并未透露详细信息。目前已知的方法是VideoCoCa。

该方法以CoCa架构为基础，根据图像编码器在预训练中的权重，将其应用于采样的视频帧。其生成的帧标记会被展平，进而连接成一长串的视频表示。然后，生成池化器与对比池化器会处理扁平化的帧标记，与字幕损失、对比损失联合训练。

此外，为了确保训练数据中的字幕与用户提示的格式一致，Sora在额外的提示扩展步骤采用GPT-4V，将用户输入的内容扩展为详细的描述性数据。通过指令调整训练，Sora拥有强大的指令遵循能力，生成的视频能够更加精准地满足用户需求。

2.3.2 多帧预测能力

近年来，视频预测引起广泛关注，在人体运动预测、气候变化预测、交通流预测等领域得到应用。通过引入Transformer架构、循环神经网络等神经操作符，采用自回归、标准化流等精细架构，以及应用对抗性训练等不同的训练策略，视频预测的性能逐步增强。Sora在此基础上有了新的提升。

在生成长视频的过程中，如何使其中人物、物体及场景保持一致是一项很大的挑战。Sora的多帧预测能力使其在生成视频时可以一次性进行多帧预测，保证画面主体即使暂时离开观众视野，也能保持外观、行为和环境的一致。

例如，OpenAI在论文中公布的视频画面——一只趴在窗边向外张望的斑点狗，即使被路过的人群遮挡，观众暂时无法看见，其外形、动作及周围的背景（粉红的墙面、蓝色的窗台）也没有发生变化。

这一能力表示，Sora有能力通过不断进行深入的自我学习，情感化地理解用户指令，使生成的视频逻辑更为连贯、情感更为丰富。

基于扩散变换器、指令调整等多方面的训练，Sora能够通过极简的方式生成视频。用户只需通过自然语言描述所需场景，即可获得基于描述的完整视频。视频生成所需要的细节和深度都远远超过文本描述，这就要求Sora对人类语言有深刻的理解。

以往，AI生成的图像与视频缺乏深入人心的情感表达，难以激起用户的共情共鸣。然而，Sora生成的视频中的角色拥有自然、细腻且逻辑严谨的情感流露，与其所处的环境完美融合，仿佛是一位真实存在的人物，能够深深触动观众的心灵。

2.3.3 与世界“连接”

OpenAI将Sora标榜为“世界模拟器”，即通过Sora的“构建”能力使其生成的内容无限接近于我们所处的现实世界。

现实世界遵循特定的物理定律而运转，例如，物体存在重力，风会吹动头发，易碎物品落地会依照可预测的方式碎裂等。传统的3D建模会受到帧数限制，而Sora能够无限复刻细节，使视频内容严格遵循物理定律且逻辑通顺。

得益于大规模的数据训练，Sora能够更准确地理解和模拟三维空间。当一位人类摄影师手持摄像机，围绕一名正在跳舞的舞者进行旋转拍摄时，我们能从不同的角度看到舞者的动作，并且人物、动作与背景都在正确的空间、位置上。如今，Sora也能生成这样的视频。其不仅能够捕捉平面图像中的动作，还能够通过3D视角展现人物或物品的运动，呈现出如同动态摄像机拍摄的内容。

同时，Sora可以模拟人物与环境之间的简单互动，例如，一个人在吃汉堡时留下的咬痕，行走时脚下的尘土飞扬，画画时画布颜色发生的变化等。这些小细节极大增强了视频的真实感，展现Sora对现实事物之间互动与影响的理解与模拟。

除了擅长模拟人工过程，Sora还具备卓越的数字场景模拟能力。以经典的沙盒游戏《我的世界》为例，当我们向Sora提供有关这款游戏的相关信息时，它能够灵活运用基本策略来控制游戏中的玩家行为，并以极高的保真度精准渲染游戏世界及其相关动态。

2.3.4 Sora的不足

当然，Sora的发展任重而道远。就目前来看，Sora依旧存在诸多不足之处，主要体现在以下四个方面。

1.物理现实主义的挑战

Sora无法准确地描述复杂场景，具体来说，其对复杂场景中物理原理的理解与处理并不一致，这就导致其无法精准复刻带有因果关系的具体事例。例如，对咬痕的复刻——Sora生成的吃饼干画面中，并非100%在饼干上产生相应的咬痕。

同时，在Sora生成的运动视频中，存在对物体变换、椅子刚性结构等内容的不自然、不正确模拟，进而使视频中出现不切实际的物理交互，让观众有滑稽之感。

2.时空的复杂性

有时，Sora会误解给定提示中关于物体位置或顺序排列的指令，进而导致方向混乱，如混淆左右。同时，在保持事件时间的准确性方面，Sora的能力还有待提升。此外，在涉及大量角色的复杂场景中，Sora更倾向于添加无关的人或动物，这就导致生成的视频偏离最初设想的构图和氛围。这一问题会影响Sora重新创建特定场景的能力，使其生成的视频不够连贯，内容也会与用户的期望大相径庭。

3.人机交互的局限

在人机交互领域，用户与Sora交互的效率和一致性并不高，尤其体现在详细修改或优化Sora生成的内容方面。例如，用户很难精确地描述视频中某些特定元素的具体修改需求，而Sora不能完全理解复杂的语言指令，也无法捕捉细微的语义差异。这就导致其生成的视频不能完全符合用户期待，可能给用户带来不好的体验。

4.使用方面的限制

一方面，Sora与其他AI大模型一样，在信息安全、内容审核、隐私保护等方面存在隐患，仍需进一步升级和完善。另一方面，目前Sora最多只能生成1分钟的视频，这意味着其无法应用于详细的教学视频或长篇故事讲述中，内容创作范围会受到一定的限制。

综上所述，无论从技术视角，还是伦理视角来看，Sora仍存在许多不足之处。这些不足会对Sora与各个行业结合、实现广泛应用产生不利影响。当然，我们有理由相信，随着技术进步和创新，这些问题都会得到解决。但在此之前，我们仍需对其保持谨慎的态度，不断加深对其的了解，确保安全应用。

第2章 技术架构：打开Sora潘多拉魔盒