购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第1章
AI视频技术发展史

AI视频技术的发展经历了多个阶段,从早期的视频High Fidelity到现代的AI视频生成技术。其中,AI视频生成主要基于GAN、Transformer和Diffusion架构的模型或框架实现。最新的DiT结合了扩散模型与Transformer架构,实现了高质量的视频生成,具有更快的学习速度、更好的稳定性和可扩展性,其中最出名的是OpenAI推出的Sora模型,其生成的首部剧情片气球人十分真实,如图1-1所示。

图1-1 Sora首部剧情片气球人

下面从早期尝试、三大类模型和最新技术3个方面来讲解AI视频技术的发展历史。

1.1 早期尝试

早在1984年,由RobertAbel和Associates制作的视频High Fidelity(高保真度)很可能是第一部计算机生成图像(CGI)和动画作品,如图1-2所示。Robert Abel是一位著名的视觉特效艺术家,也是计算机在电影和电视制作中应用的先驱,其团队因在计算机图形领域的突破性工作而闻名。

High Fidelity展示了以下创新技术:

图1-2 第一个计算机视频High Fidelit(1984年)

□ 先进的3D建模和动画:视频包含使用计算机创建的复杂3D模型和动画,展示了这项技术在电影和电视中的潜力。

□ 逼真的渲染:High Fidelity旨在创建几乎与真实世界摄影无法区分的图像。

□ 特效与合成:视频展示了计算机生成的特效与其他元素跟实拍镜头的无缝合成。

视频自动生成的基础工作可以追溯到20世纪末至21世纪初,主要基于预定义模板和脚本语言创建简单的动画和图形。High Fidelity等早期视频自动化系统受到当时技术所限,定制性非常低且缺乏解释复杂文本输入的能力。生成过程是高度手动的,在脚本创建、场景设置和动画调整方面严重依赖人工输入。虽然其存在局限性,但是这个尝试为视频生成领域的未来探索和发展奠定了基础。

在2000年之前,计算机辅助视频制作更多体现在建模、动作捕捉、剪辑等自动化工作上,偏重于计算机视觉,很少用到现在提及的深度学习技术。当前,人们所说的AI视频一般指由人工智能技术生成或处理的视频,通常包括三大关键技术:视频编辑、视频分析和视频生成。

□ 在视频编辑中,通常使用深度学习、计算机视觉、自然语言处理等算法来改善视频质量,进行自动剪辑、自动配音、自动生成字幕等。

□ 在视频分析中,使用计算机视觉等技术识别视频中的场景、物体、动作和事件等元素,常用于视频监控异常入侵、违规驾驶分析等。

□ 视频生成一般利用生成式AI技术,根据指定的文本、图像、视频等单模态或多模态数据自动生成符合人类指令的视频内容。根据使用的引导数据不同对生成方式进行划分,当前AI视频生成可分为使用文本引导的文生视频、使用图片引导的图生视频和使用视频引导的视频生视频。

由于当前AIGC浪潮主要关注生成式AI视频,下面根据时间和技术发展顺序,重点介绍AI视频生成的发展历史。

1.2 基于GAN、Transformer与Diffusion架构的视频生成模型

生成式AI视频主要基于深度神经网络,如卷积神经网络(CNN)、循环神经网络(RNN、LSTM)等基础深度网络架构,形成生成对抗网络模型(GAN)、自回归模型(Autoregressive Model)和扩散模型(Diffusion Model)3种主流的视频生成模型路线,如图1-3所示。GAN模型路线早在2016年就被提出,并持续有研究跟进;自回归模型路线始自2020年,但快速被扩散模型路线所取代,如表1-1所示。下面分别介绍三大类视频生成模型 [1]

图1-3 视频生成模型

表1-1 部分优秀视频模型统计

1.2.1 生成对抗网络

视频生成并不是一个新话题。早在1996年就有学者开始研究视频生成技术,但是限于当时的计算、数据和建模工具,早期的视频生成工作主要集中在生成动态纹理模式。随着GPU、互联网视频和深度神经网络的出现,学者们拥有了更多手段去解决视频生成的算力、数据集和模型等问题。

2014年,Ian Goodfellow等人提出了生成对抗网络,它是一种由生成器和判别器组成的模型架构,用于生成与真实数据难以区分的数据。GAN的出现极大地推动了图像和视频生成领域的发展。

2016年,C.Vondrick等人提出了第一个使用生成对抗网络生成视频的模型Video-GAN(VGAN),其生成器由两个卷积网络组成:3D时空卷积网络,用于捕捉前景中的运动物体;2D空间卷积模型,用于处理静态背景。

2018年,Karras等人提出了一种新的生成器架构,该架构借鉴风格迁移的相关研究,能够自动学习高阶属性的无监督分离,并实现对合成图像的尺度控制。这种改进显著提高了视频生成的质量和多样性。

随后,研究者们提出了数十种基于GAN生成视频的模型,覆盖了无条件的文生视频和有条件的语音、图片、视频引导生成视频等几乎所有应用场景。

相较自回归模型等其他模型,GAN模型参数量小,较轻便,但其存在训练过程不稳定性、模式崩溃、训练成本高、对超参数过于敏感等问题。这也导致在视频生成领域,GAN模型逐步被自回归模型和扩散模型所替代。

1.2.2 自回归模型

在2016年,Kalchbrenner等人将像素级别的自回归图像生成工作扩展到了视频领域。随后,更多学者关注基于自回归模型(Autoregressive Model)生成视频的研究,并重点跟踪Transformer模型,如图1-4所示。

图1-4 自回归模型

Transformer(当前没有规范的中文翻译)架构中的自注意力机制是自回归模型实现的关键部分,这类模型可用于捕获视频、上下文等长距离依赖关系。Transformer整体架构主要分为Encoder和Decoder两大部分,能够模拟像素和高级属性(纹理、语义和比例)之间的空间关系,利用多头自注意力机制进行编码和解码。

2019年,Jonathan Ho等人提出了轴向注意力机制(Axial Transformer),该方法沿着多维张量的单一轴应用注意力,无须展平张量,在视频建模任务中大幅减少了标准自注意力机制所需的计算和内存量,可基于现有深度学习框架进行训练,无须额外的GPU或TPU消耗。2020年,Dirk Weissenborn提出了视频注意力机制(Video Transformer,VT),将一维Transformer推广到使用三维、块局部自注意力机制来建模三维时空体积(视频)。为了进一步减少内存需求,他使用生成一系列较小、缩放的图像切片序列的方法来对视频进行缩放。

虽然自注意力机制在诸如语言建模、机器翻译和视频生成等多种任务中表现出高保真度,但是其计算成本通常很高。例如,使用VT算法仅生成64×64×3大小的低分辨率视频帧就需要128个TPU训练100万步。为减轻GPU利用率和内存占用并提高采样频率,研究者提出了潜在视频Transformer(Latent Video Transformer,LVT),潜空间变换的思路后来广泛应用于各类图片与视频生成工作中。

与GAN模型相比,自回归模型具有明确的密度建模和稳定的训练优势,该类模型可以通过帧与帧之间的联系生成更为连贯且自然的视频。同时,GPT等LLM模型广泛使用的Transformer自回归模型拥有优秀的ScalingLaw效应。一般而言,随着模型参数扩大,只要算力跟得上,生成质量理论上可以持续优化。然而,算力资源、训练集、开发时间等不是无限的,特别是考虑商业化的时候,能够在消费级显卡上运行的轻量级模型更有竞争力。自回归模型参数的数量通常远大于扩散模型(Diffusion Model),对于计算资源及数据集的需求往往也高于其他模型。

1.2.3 扩散模型

GAN模型难以训练,Transformer等自回归模型的训练和推理成本过高,扩散模型开始成为视频生成技术的主流。

2015年,扩散模型被提出,并在之后的6年被多个团队快速完善。2019年至2021年6月,斯坦福大学的Yang Song、加州大学伯克利分校的Jonathan Ho、斯坦福大学的研究人员Jiaming Song相继提出了生成式建模、DDPM、DDIM,在更大的数据集上表现出媲美于GANs模型的性能,让AI研究员开始重视扩散模型在内容创作领域的巨大潜力。

扩散模型快速进化,奇点时刻到来。这得益于扩散模型令人惊艳的图片生成效果,从2021年开始,AI绘画进入高速发展阶段。2021年1月5日,OpenAI发布了DALL-E模型(DALL-E是皮克斯动画电影WALL-E和西班牙艺术家Salvador Dalí名字的组合),区别于GANs等模型,它能够使用文本描述生成逼真的图像。随后,基于扩散模型的开源模型Stable Diffusion和闭源平台Midjourney因其易用且效果惊艳让AI绘画迅速爆火出圈。

扩散模型在图像生成领域的成功也被复制到了视频生成领域。视频扩散模型(Video Diffusion Model)在用于图像生成的2D扩散模型基础上增加了一个时间轴。这一思想的核心是在现有的2D扩散结构中添加一个时间层,从而显式地建模跨帧之间的依赖性,具体以视频扩散模型(2022)、Make-A-Video(2022)等为代表。同期,RaMViD则使用3D卷积神经网络将图像扩散模型扩展到视频领域,并设计了一种条件技术用于视频预测、填充和上采样。

从对视频扩散模型相关论文的统计可见 [ 2] ,在2022年之前,还没有视频扩散模型相关的研究论文,而到了2023年则快速增长到了103篇,如图1-5所示。

图1-5 视频生成模型论文统计

这些论文以视频生成为主,并且涉及视频编辑与视频理解,表明扩散模型有强大的可扩展性,可以添加类似于Stable Diffusion中的控图策略与计算机视觉中的常用技巧,如表1-2所示。

表1-2 视频扩散模型及其生成方式

2023年被称为AI视频元年,这一年见证了数10种视频生成模型的问世,全球已有数百万用户通过文字或图像提示来制作短视频,如图1-6所示。虽然这些模型处于初级阶段,但是它们已经显示出了巨大的潜力和应用前景。

图1-6 2023年视频生成模型时间线 [3]

如果说2023年AI视频是快速成长的幼苗期,那么在2024年,AI视频就是开花期。2024年,生成式AI视频模型的能力进化更“疯狂”。在国外,OpenAI的Sora、Google的Veo、Meta的Emu系列、Runway的Gen-3等模型相继发布,这些模型具有高生成质量、高一致性等特点;在国内,头部互联网企业和AI创业公司也表现惊艳,字节跳动的Boximator和剪映、腾讯的VideoCrafter2和混元视频、快手的可灵、爱诗科技的PixVerse、智谱的清影、生数科技的Vidu、MiniMax的海螺等模型相继发布,这些视频生成模型在数量、质量和效率方面甚至超过了国外相关视频生成模型。

1.3 新技术:DiT

2024年2月,Sora以席卷全球的态势让AIGC算法研究者们快速关注到了其使用的核心技术DiT(Diffusion Transformer)。DiT是一种创新的文本到视频生成方法,它将扩散模型与Transformer架构相结合,通过高效的视觉数据表示和时空建模能力实现了高质量视频的生成。

DiT利用了Transformer架构的注意力机制,使其在处理序列数据时能够有效地捕捉长距离依赖关系。同时,与传统的卷积神经网络(CNN)或循环神经网络(RNN)相比,Transformer提供了更高的并行化能力和训练效率,展示了良好的可扩展性,即随着模型深度和宽度的增加以及输入令牌数量的增加,其性能会持续提升。

与传统的扩散模型相比,DiT在训练过程中表现出了更快的学习速度。通过统一的学习框架,DiT能够在不同的模态之间进行有效的学习和生成,从而在多模态任务中表现出色,进而适应多模态数据,如图像、文本、语音和视频等。

与GAN相比,DiT通过逐步引入噪声并逐渐去除噪声的方式进行训练,这有助于避免GAN中常见的模式崩溃问题,因此DiT通常更加稳定。同样,由于采用了加噪、降噪的训练方式,DiT能够生成更高质量的图像和文本,尤其在细节和连贯性方面更出色。

总之,DiT结合了Transformer的强大注意力机制和扩散模型的高效生成能力,使其在图像生成和多模态学习领域表现出色,同时具备良好的可扩展性和训练效率。

Sora创造性地提出了DiT模型,然后利用这一新模型理解时序信息、物理世界并尝试生成符合逻辑的视频片段。Sora从海量的视频资料中习得了一个“世界模型”,利用提示词可以让“世界模型”生成遵循提示词指令、逻辑自洽、符合物理规律的视频。Sora出现后,人们认为凭借其前所未有的创意和高效率,将会彻底颠覆影视动画与短视频行业。 A1KVxXH6kxH4DiGwZPfQ2KYm09/sN+EzsnvBTQhvjRa1/V4t4DZHAOHmqzbr9Yww

点击中间区域
呼出菜单
上一章
目录
下一章
×