与过去的任何AI视频生成应用都不同,Sora最大的特点就是引入了大模型的方法来理解视频。可以说,正是因为借鉴了此前ChatGPT、GPT-4等大模型的经验,才有了Sora的成功,当然,Sora的出现,反过来也证明了大模型路线的又一次成功。
大模型的成功为AI发展带来了许多经验,比如足量的数据、优质的标注、灵活的编码以及底层架构等。
从OpenAI公布的有限的信息来看,数据方面,虽然OpenAI并没有公布Sora训练数据的来源和构建,但鉴于Sora生成内容的丰富性(比如甚至可以生成相当连贯的Minecraft游戏视频),纽约大学助理教授谢赛宁发表多篇推文进行分析,推测整个Sora模型可能有30亿个参数。
在编码方面,OpenAI创新性地引入了patches作为视频语言,在上一节我们也已经提到,大语言模型的构建中,一个非常重要的部分便是它的token。Token使得任何长度和内容的文本都能编码成语言模型可以直接处理(输入/输出)的对象,而在Sora中,OpenAI则是将token变成了patch。这也为Sora带来了灵活的分辨率。Sora可以生成分辨率在1920×1080(横屏)~1080×1920(竖屏)像素之间任何形状的视频。这也让OpenAI可以在早期使用低分辨率的视频来试错。
在标注方面,OpenAI运用了旗下DALL·E 3为Sora提供高质量训练提示词(prompt)。Sora在训练过程中需使用大量带有描述文本的视频数据,并且描述文本的精确性、完整性与适用性十分重要。对此,OpenAI将DALL·E 3中图生文技术运用至视频领域,打造了一个具备高精准的视频描述文本生成模型Vedio Captioning,保障了视频与描述文本之间的高度一致性,为Sora提供高质量训练prompt。同时在推理阶段,通过此手段,Sora也具备将用户输入的prompt进行优化改写的能力,更高效、高质量地指导模型完成视频生成工作。
在底层架构上,OpenAI不出意外地使用了Transformer作为主要架构,再结合Diffusion Model(扩散模型)。毕竟,Transformer凭借注意力机制这一先进理念一直作为大语言模型的不二之选,而刚好文生视频模型更需要依靠强大的语义理解能力来保障生成视频的准确性、可靠性和完整性。而Diffusion作为图像类生成模型,具备比其他模型更强的非线性分布模拟能力,于是就成为了Sora等处理复杂任务的大模型首要选择。
除了数据、标注、编码和底层架构外,大模型的成功,或者说OpenAI的成功,还有一个核心的价值理念——Scaling Law(规模法则)。事实上,规模法则是一种普遍存在于各种复杂系统中的现象,从生物界到城市科学,其基本原理是随着系统规模的增大,某些特定属性或关系呈现出一种固定的模式或规律。这种规律通常表现为一种数学函数关系,比如幂律函数。
举个例子,在鸟群中,鸟和鸟之间的关联便是关于距离的幂律函数,即鸟群中的鸟之间的距离并不是随机分布的,而是呈现出某种规律,这种规律可以通过幂律函数来描述。鸟在飞行或觅食时,会受到其他鸟的影响,比如受到引力或斥力的作用。这些相互作用会导致鸟之间形成一种特定的排布模式。当鸟群规模增大时,个体之间的相互作用数量也随之增加。因此,更多的鸟会受到其他鸟的影响,从而导致距离更近或更远的鸟对之间的数量变化。而幂律函数则能够很好地描述这种变化趋势。
关于语言模型的Scaling Law来自OpenAI 2020年发布的论文,其释义可简要总结为:随着“模型大小”“数据集大小”“(用于训练的)计算浮点数”的增加,模型的性能会提高。当不受其他两个因素的制约时,模型性能与每个单独的因素都有幂律关系。再简单一点来说,就是大模型随着规模的变大,计算准确度呈现幂律上升。
虽然OpenAI没有放出Sora的训练细节,但我们其实可以在Sora的技术报告中又一次看到OpenAI所拥护的核心理念——Scaling Law。显然,支持Sora的Diffusion Transformer模型同样符合Scaling Law,随着训练计算量增加,视频质量显著提升。
OpenAI每次提到规模法则时,几乎都会伴随着“涌现”现象的出现。“涌现”是个很神奇的现象,我们都知道,当蚂蚁聚集成群时,往往会展现出一种不可思议的“智能”表现。比如,它们能够自动发现从蚁群到达食物的最短路径。这种智能表现并不是由于某些个体蚂蚁的聪明才智,因为每只蚂蚁都非常小,不可能规划比它们身长长至少几十倍以上的路径。这种行为是由于许多蚂蚁聚集成一个蚁群,才表现出来的智能。这种现象,其实就是“涌现”。当然,不只是蚂蚁,从鸟群的灵活有序,到大脑产生意识,皆是涌现出来的特质。
在大模型领域,ChatGPT、GPT-4也表现出了智能的“涌现”,即随着模型规模变大,大模型突然在某一刻拥有了以前没有的能力,比如拥有了类人的语言逻辑能力,甚至能在自然语言交互中回答一些智力题。当然,这也是必然出现的现象,正如人类在知识到达一定程度的时候,就会出现认知的跃迁,从质变到量变的一个过程。而机器智能在结构了人类各种数据的基础上,尤其是对海量数据进行结构之后,必然能够从中寻找与总结出我们人类各种知识背后的规律,并且这种规律是我们人类自身都无法捕捉与总结的大数据下的规律。这种将通过海量数据学习所总结与获得的规律加以应用,就成为当前所说的人工智能的“涌现”现象。
而现在,这种神奇的进步再次在Sora身上得到了体现。正如OpenAI在技术报告里提到的,在长期的训练中,OpenAI发现Sora不仅能够生成视觉上令人印象深刻的视频内容,还能模拟复杂的世界互动,展现出惊人的三维一致性和长期一致性。这些特性共同赋予了Sora在视频内容创作中的巨大优势,使其成为一个强大的工具,能够在各种情境下创造出既真实又富有创意的视觉作品。
所谓三维一致性指的是Sora能够生成动态视角的视频。同时随着视角的移动和旋转,人物及场景元素在三维空间中仍然保持一致的运动状态。这种三维一致性不仅增加了生成视频的真实感,也极大地扩展了创作的可能性。无论是环绕一个跳舞的人物旋转的摄像机视角,还是在一个复杂场景中的平滑移动,Sora都能够以高度真实的方式再现这些动态。
值得一提的是,这些属性并非通过为三维物体等添加明确的归纳偏置而产生——它们纯粹是规模效应的现象。也就是说,是Sora自己根据训练的内容,判断出了现实世界中的一些物理客观规律,某种程度上,人类如果仅仅是通过肉眼观察,也很难达到这样的境界。
并且,在生成长视频内容时,维持视频中的人物、物体和场景的一致性是一项巨大挑战。Sora展示了在视频的多个镜头中准确保持角色的外观和属性的能力。这种长期一致性确保了即使在视频持续时间较长或场景变换频繁的情况下,视频内容也能保持逻辑性和连续性。比如,即使人物、动物或物体被遮挡或离开画面,Sora仍能保持这些元素存在于视线外,等到视角转换到能看到他们的时候,再将这些内容展现出来。同样地,它能够在单个样本中生成同一角色的多个镜头,并在整个视频中保持其外观的一致性。
Sora的模拟能力还包括模拟人物与环境之间的互动,这些微不足道的细节,却极大地增强了视频内容的沉浸感和真实性。通过精细地模拟这些互动,Sora能够创造出既丰富又具有高度真实感的视觉故事。
基于这些特性,才有了OpenAI的结论,即视频生成模型是构建通用物理世界模拟器的一条有前景的道路。Sora目前所展现的能力也确实表明,它是能通过观察和学习来了解物理规律的。人工智能能理解物理世界的规律,并能够生成视频,来模拟物理世界。这在过去是人们不敢想象的。
目前Sora还存在着不少问题,比如,Sora在其生成的48个视频demo中留了不少穿帮画面,比如在模拟基本物理交互时的准确性仍然不足。从现有的结果来看,它还无法准确模拟许多基本交互的物理过程,以及其他类型的交互。物体状态的变化并不总是能够得到正确的模拟,这说明很多现实世界的物理规则是没有办法通过现有的训练来推断的。在英伟达科学家范麟熙(Jim Fan)看来,目前Sora对涌现物理的理解是脆弱的,远非完美,仍会产生严重、不符合常识的幻觉,还不能很好掌握物体间的相互作用。这跟数字孪生还存在着本质上的区别,可以说Sora能构建的是一种模拟仿真世界,而并非真实物理世界的数字化生成与驱动。
在网站首页上,OpenAI详细列出了模型的常见问题,包括在长视频中出现的逻辑不连贯,或者物体会无缘无故地出现。比如,随着时间推移,有的人物、动物或物品会消失、变形或者生出分身;或者出现一些违背物理常识的画面,像穿过篮筐的篮球、悬浮移动的椅子。如果将这些镜头放到影视剧里或者作为长视频的素材,需要做很多修补工作。
当然,Sora究竟是否真的能够模拟物理世界还有待时间验证,但希望已经摆在了我们的眼前。