



在前两章中我们简要介绍了生成模型和视频扩散模型中经典且流行的模型,如VAE、GAN、UNet与ViT等,并且简述了其运行原理。本章将介绍将二者优势巧妙融合的混合模型,其中主要介绍的模型为DiT(Diffusion Transformer),其次还会简要介绍Sora和可灵模型。
DiT [22] 是一种新型的扩散模型,由William Peebles、Sanning Xie于2023年提出。该模型为一种生成模型,通过模拟数据的逐步去噪过程来生成新的样本。DiT的核心是使用Transformer作为扩散模型的骨干网络,而不是使用传统的卷积神经网络(如UNet)来处理图像的潜在表示,如图6-1所示。
图6-1 DiT架构原理图 [22]
1)数据准备
使用一个预训练的VAE将输入图像编码成潜空间的低维向量。该潜空间的表示通常是图像的低维度表示。例如,将256×256×3的图像编码成32×32×4的潜在向量。这个处理结果将作为DiT模型的输入。
2)分块化处理
输入的低维向量首先经过一个分块化的处理过程,将其分割成更小的一系列小片段patches,每个片段对应于Transformer模型的一个输入标记Token。这个过程相当于把图像分割成小块,以便模型可以处理。每个片段通过线性嵌入转换为一个固定维度的向量,然后添加位置编码,以便模型可以理解片段在图像中的所在位置。
3)Transformer处理
上一阶段的输入序列经过一系列的Transformer模块进行处理。这些模块包含自注意力层、前馈神经网络及归一化等组件。在DiT中,研究者们尝试了不同的Transformer块处理,例如自适应归一化处理(adaLN)、交叉注意力(Cross-Attention)、上下文条件(In-Context Condition)等,以处理条件信息,如时间步长(Timesteps)及类别标签(Class Labels)。
4)条件扩散过程
在训练过程中,DiT模型学习逆向扩散过程,即从噪声中恢复成清晰的图像。这个过程涉及预测噪声的统计特性,如均值(mean)和方差(covariance)。
5)样本生成
在训练完成后,可以通过DiT生成新的图像。首先,从标准正态分布中采样一个潜在表示,然后通过DiT模型逆向扩散过程,逐步去除噪声,最终解码回像素空间,从而得到生成的图像。
DiT模型的可扩展性体现在通过增加Transformer的层数,宽度、输入标记的数量来提高模型的计算量,从而降低FID、提高模型生成的图片质量。这种可扩展性使得DiT模型能够在不同分辨率和复杂度下生成高质量的图像。
DiT是一种结合了扩散模型与Transforme架构的新型技术,目的是在保持变换器架构优秀扩展性的同时,提高图像生成的效率和质量。通过细致的设计,DiT旨在处理高分辨率图像生成任务,如在ImageNet数据集上生成256×256和512×512分辨率的图像,展现出超越现有技术的性能。
通过引入不同的块设计如自适应层归一化(adaLN)和adaLN-zero,以及优化条件化机制,DiT进一步提高了图像的生成质量和模型的稳定性。特别是adaLN-zero通过将每个DiT块初始化为恒等函数,显著提高了模型性能。
在经过大规模训练后,DiT模型在256×256和512×512 ImageNet任务上有了突破性的进展,实现了更低的FID得分,超越了以往的扩散模型和其他生成模型,如StyleGAN-XL。这一成就得益于模型设计的优化、高效的计算分配以及有效的训练策略。
模型增加采样步骤来使用额外的计算资源,并不能补偿模型计算能力的不足。即使小型模型在测试时使用更多的Gflops进行采样,也无法与大型模型在生成质量上竞争。
DiT缩放属性和生成质量预示着在更大模型和更高分辨率图像生成任务中有巨大的潜力。未来,DiT可探索应用于更广泛的生成任务。
2024年初,OpenAI正式宣布推出文本生成视频的大模型——Sora,其结构如图6-2所示。Sora能够根据简单的文本描述生成出高达60秒的高质量视频,这让视频创作变得前所未有的简单和高效。
图6-2 Sora模型架构示意 [23]
在Sora的技术报告中,明确提出视频相关的基础架构是基于DIT的Diffusion +Transformer进行,同时保留了Patch编码方式。Transformer系列的架构在语言模型中已经被证明非常有效,而在有时序特征表达的视频生成模型中,Transformer确实也有强大的需求。
Diffusion和Transformer结合发挥了关键作用。Diffusion模型负责处理图像的低级纹理和细节生成,而Transformer模型则处理高级布局和组织。这种结合允许Sora既能生成具有丰富细节的图像,又能保持图像的全局一致性和结构。通过这种方式,Sora能够根据文本提示创建出高质量且内容丰富的视频帧。
Sora的训练过程包括以下关键步骤:
(1)视频压缩。首先,Sora使用视频压缩网络将原始视频数据转换为潜空间中的低维向量。这有助于模型处理大规模的视频数据,并为后续步骤提供了更高效的输入。
(2)时空Patches提取。在潜空间中的低维向量的基础上,Sora从视频数据中提取时空Patches,这些Patches充当了模型训练过程中的Tokens。这使得模型能够处理视频的不同分辨率、持续时间和宽高比,为生成具有丰富细节的视频帧奠定基础。
(3)扩散训练。Sora是一个扩散模型,它通过训练来学习如何将无序的噪点图逐渐转变为布局清晰、符合用户文字提示的视频帧。在训练过程中,模型逐步去除噪声,同时引入结构和模式,以逐渐塑造出与文本提示相匹配的清晰图像或视频。
Sora是一个扩散模型,给定输入噪声Patches(以及文本提示等调节信息),可以用它来训练和预测原始的“干净”Patches。DiT也可以有效地缩放为视频模型。研究者在训练过程中发现,随着训练计算的增加,样本质量显着提高。
在国内,混元大模型是腾讯推出的首个基于中文的DiT架构,能够捕捉中文的细微含义并生成高质量图像。混元DiT结合了双文本编码器,支持多模态大语言模型和多轮多模态对话,提高了中文处理能力。目前,混元DiT主要用于图像生成,并不支持视频生成。
2024年6月6日,可灵推出一款AI视频生成大模型,该模型采用类似Sora的DiT技术路线,结合多项自研技术创新,生成的视频不仅运动幅度大且合理,还能模拟物理世界特性,具备强大的概念组合能力和想象力。从数据上看,可灵支持生成长达2分钟的30fps的超长视频,分辨率高达1080P且支持多种宽高比。
可灵不但在想象上天马行空,在描绘运动时也能做到符合真实的运动规律,复杂、大幅度的时空运动也能准确刻画(量子位)。
与Sora长期不开放使用不同,可灵推出后快速开放在全球使用,并迅速超越知名视频生成模型Gen3与Pika,成为视频生成领域效果最好的大模型。
整体上,可灵大模型采用了原生的文生视频技术路线,替代了图像生成+时序模块的组合(DiT),这也是可灵生成时间长、帧率高,能准确处理复杂运动的核心原理。
具体来看,快手大模型团队认为,一个优秀的视频生成模型,需要考虑四大核心要素——模型设计、数据保障、计算效率以及模型能力的扩展。
Scaling Law在Sora中得到了再一次的验证,可灵采用类Sora模型架构,模型架构主要考虑足够强的拟合能力与足够多的参数容量等两方面的因素。
在选择架构时,可灵整体框架采用了类Sora的DiT结构,用Transformer代替传统扩散模型中基于卷积网络的UNet。Transformer的处理能力和生成能力更强大,扩展能力更强、收敛效率更好,解决了UNet在处理复杂任务时冗余过大、感受野和定位精度不可兼得的局限。
在此基础之上,快手大模型团队还对模型中的隐空间编/解码、时序建模等模块进行了升维。
目前,在隐空间编/解码上,主流的视频生成模型通常沿用Stable Diffusion的2D VAE进行空间压缩,但这对于视频而言存在明显的信息冗余。因此,快手大模型团队自研了3D VAE网络,实现时空同步压缩,获得了较高的重建质量,在训练性能和效果上取得了最佳平衡。
另外在时序信息建模上,快手大模型团队设计了一款计算高效的全注意力机制(3D Attention)作为时空建模模块。该方法可以更准确地建模复杂时空运动,同时还能兼顾具运算成本,有效提升了模型的建模能力。
当然,除了模型自身的能力,用户输入的文本提示词也对最终生成的效果有重要影响。为此,快手大模型团队专门设计了专用的语言模型,可以对用户输入的提示词进行高质量扩充及优化。
在设计好模型后,需要庞大的高质量数据训练模型,这对于模型的表现至关重要。
事实上,训练数据的规模和质量不足,正是许多视频生成模型研发者所面临的棘手问题。开源视频数据集普遍质量不够高、难以满足训练需求。
快手大模型团队构建了较为完备的标签体系,可以精细化地筛选训练数据,并对训练数据的分布进行调整。该标签体系从视频基础质量、美学、自然度等多个维度对视频数据质量进行刻画,并针对每个维度设计多种定制化的标签特征。
在训练视频生成模型时,需要同时把视频及对应文本描述输入模型中。在保证视频质量后,快手大模型团队专门研发了视频描述模型,可以生成精确、详尽、结构化的视频文本描述,显著提升了视频生成模型的文本指令响应能力。
训练和推理效率是衡量视频生成大模型的关键因素。为了提升模型计算效率,可灵大模型没有采用当前行业主流的DDPM方案,而是使用了传输路径更短的Flow模型作为扩散模型基座。
在基础模型的研发基础上,快手大模型团队也从长宽比等多个维度上对其能力进行了扩展。
在长宽比上,可灵同样没有采用主流模型在固定分辨率上进行训练的方式。因为传统方法在面对长宽比多变的真实数据时通常会引入前处理逻辑,破坏了原始数据的构图,导致生成结果构图较差。相比之下,快手大模型团队的方案可以使模型直接处理不同的数据,保留原始数据的构图。
为了应对未来数分钟甚至更长的视频生成需求,快手大模型团队也研发了基于自回归的视频时序拓展方案且不会出现明显的效果退化。除了文本输入外,可灵还支持多种控制信息输入,如相机运镜、帧率、边缘、关键点、深度等,为用户提供了丰富的内容控制能力。