在关于Sora的讨论里,一个最受关注,也最具争议的问题就是:Sora是不是一个“世界模型”?或者说,Sora实现世界模型的技术路线究竟是不是正确的?
对此,OpenAI在官方网站上表示,Sora是能够理解和模拟现实世界的模型的基础,并且相信这一能力将是实现通用人工智能的重要里程碑。而以图灵奖获得者、Meta首席科学家杨立昆(Yann LeCun)为代表的人工智能专家则质疑Sora的能力,甚至愤怒地表示Sora的生成式技术路线注定失败。
Sora的世界模型争议究竟是如何掀起的?Sora的诞生,对“世界模型”又有何意义?
在讨论Sora到底是不是世界模型之前,我们需要先回答一个问题,那就是什么是世界模型?
世界模型的概念源于人类对理解和模拟现实世界的追求。它与动物(包括人类)如何理解和预测周围环境的研究相关,这些研究起源于认知科学和神经科学。而随着时间的推移,这一思想被引入计算机科学、特别是人工智能领域,成为研究人员设计智能系统时的一个重要考虑因素。
在人工智能领域,所谓的世界模型,是指机器对世界运作方式的理解和内部表示,也可以理解为抽象概念和感受的集合。它能帮助AI系统理解、学习和控制环境中发生的事情。因此世界模型也可以看作AI系统的“心智模型”,是AI系统对自身和外部世界的认知和期望。
简单来说,世界模型就是让AI通过学习世界的内在规律来构建一个全面的内部模型,世界模型是一种全面、综合地描述和预测环境的方法,通过对感知信息的处理和数据建模,可以实现对于物体、场景、动作等要素的准确抽象和模拟。这种模型能够使AI具备预测未来事件、进行长期规划和决策的能力。比如,玩家正在玩一个赛车游戏,世界模型可以协助玩家模拟赛车预测不同驾驶策略的结果,从而选择最佳的行驶路线;或者在现实中,一个机器人可以使用世界模型来预测移动一件物体可能引起的连锁反应,从而做出更安全、更有效的决策。
理解现实世界的物理法则,也是通往通用人工智能(AGI)这一“终极目标”的必经之路。我们可以把AGI理解为一种具备全面的、人类水平的智能,能够跨越不同的抽象思维领域的AI系统,这就要求我们必须创建一个与经验相一致的世界模型,并允许对预测进行准确的假设。
显然,人工智能如果想要具备全面的、人类水平的智能,需要“理解”真实世界,“理解”物理定律,包括能量守恒定律、热力学定律、力的相互作用定律等。比如苹果不能突然在空中飘浮,这不符合牛顿的万有引力定律;在光线照射下,物体产生的阴影和高光的分布要符合光影规律等;物体之间产生碰撞后会破碎或者弹开。只有准确表示物体之间运动的相互关系和相互作用,才能让人类感觉到“智能”。
世界模型不仅提高了AI的抽象和预测能力,使其能够理解复杂环境并规划未来行动,还促进了AI解决创造性问题和社会互动的能力。通过内部模拟和推理,世界模型使AI能够适应新环境、有效合作以及自主学习,从而推动AI技术向更高层次的智能进化。
Runway公司在2023年12月就提出过要开发通用世界模型(General World Model),用其旗下的Gen-2模型来模拟整个世界。Runway认为,人工智能的下一个重大进步将来自理解视觉世界及其动态的系统,这就是为什么Runway要围绕通用世界模型开始一项新的长期研究工作的原因。
只不过,Runway的计划被OpenAI抢了先。从效果上看,目前OpenAI已经通过Sora部分做到了这一点。Sora可以生成逼真的视频,看起来,视频当中包含一个完整的3D世界建模,同时,Sora支持在保持画面内容一致的前提下切换镜头,甚至能够按照时间顺序往前或者往后生成新的视频内容。很多人认为,Sora学会了“预知”事物发展的能力,这正是世界模型研究所追求的。
Sora的出现让我们看到了多模态模型在模拟物理世界时的巨大潜能,同时也引发了科技圈对于“世界模型”的众多争议。支持的声音众多,反对的声音也不少。
在支持的声音中,英伟达高级科学家范麟熙对此表示,Sora是一个数据驱动的物理引擎,“它是对许多世界的模拟,无论是真实的,还是虚构的。该模拟器通过去噪和梯度学习方式,学习了复杂的渲染、直观的物理、长期推理和语义理解。”举个例子,GPT-4一定是学习到了某种形式的语法、语义和数据结构,才能生成可执行的Python代码,因为GPT-4本身并不存储Python语法树。同理,Sora一定学习到了一些“隐式”的3D转换、光线追踪渲染技巧和物理规则,才可能准确地对视频像素进行建模。
除了范麟熙的认同外,支持Sora作为世界模型的另一种观点则认为,并不是所有的需求都需要对物理世界有一个准确的理解后,才能生产出相应的产品来满足人类的需求。就好像我们欣赏图片或者视频时,我们的眼睛并没有关心每一个像素点是否符合物理世界规律。一个广义的世界模型已经可以满足很多需求,极大提高人类的收集,分析,生产信息的效率。
在反对的声音中,杨立昆在社媒平台多次发文表达其看法。“世界模型”一直是杨立昆的研究重点,在他看来,仅仅根据prompt生成逼真视频并不能代表一个模型理解了物理世界,生成视频的过程与基于世界模型的因果预测完全不同。杨立昆表示,“模型生成逼真视频的空间非常大,视频生成系统只需要产生一个合理的示例就算成功。”根据杨立昆的观点,视频符合物理规律,不等于视频的生成基于物理规律,更不等于生成视频的大模型本身是数据驱动的物理引擎。所谓物理,可以只是视频画面整体与局部、前后帧统一的像素级的变化规律、表征关系。
在不看好Sora技术路径的质疑声中,不只有杨立昆。Keras之父弗朗索瓦·肖莱(François Chollet)也持有相似观点。他认为仅仅通过让AI观看视频是无法完全学习到世界模型的。尽管Sora确实展现出了对物理世界的模拟,但问题是这个模拟是否准确?它能否泛化到新的情况,即那些不仅仅是训练数据插值的情形?这次问题至关重要,因为它们决定了生成视频的应用范围是仅限于媒体生产还是可以用作现实世界的可靠模拟。
肖莱总结到,通过机器学习模型拟合大量数据点后形成的高维曲线在预测物理世界方面是存在局限的。在特定条件下,大数据驱动的模型能够有效捕捉和模拟现实世界的某些复杂动态,比如预测天气、模拟风洞实验等。但这种方法在理解和泛化到新情况时存在局限。所以他认为不能简单通过拟合大量数据来期望得到一个能够泛化到现实世界所有可能情况的模型。
Artificial Intuition作者卡洛斯·佩雷斯(Carlos E.Perez)则认为Sora并不是学会了物理规律,“只是看起来像学会了,就像几年前的烟雾模拟一样。”
关于Sora作为世界模型的支持和反对的观点,其实也代表着通往世界模型的两种路径。
其中,支持Sora作为世界模型,其实也就是支持OpenAI的自回归生成式路线(auto-regressive models),即“大数据、大模型、大算力”的暴力美学路线。从ChatGPT到Sora,都是这一思路的代表性产物。
简言之,Sora通过分析视频来捕捉现实世界的动态变化,并利用计算机视觉技术重现这些变化,创造新的视觉内容。它的学习不限于视频的画面和像素,还包括视频中展示的物理规律。
OpenAI相信规模,这也是OpenAI的核心价值观——当有疑问时,就扩大规模。毕竟,ChatGPT就是这样做的。计算机科学家斯蒂芬·沃尔夫勒姆(Stephen Wolfram)在《这就是ChatGPT》一书中直白地介绍了ChatGPT的原理:首先从互联网、书籍等获取人类创造的海量文本样本,然后训练一个神经网络来生成“与之类似”的文本。值得注意和出乎意料的是,这个过程可以成功地产生与互联网、书籍中的内容“相似”的文本。ChatGPT“仅仅”是从其积累的“传统智慧的统计数据”中提取了一些“连贯的文本线索”。但是,结果的类人程度已经足够令人惊讶了。
但以杨立昆为代表的业界专家,则认为这一技术路线是错误的,不可能产生真正的智能。杨立昆曾表示,大语言模型拥有从书面文本中提取的大量背景知识,但缺少人类所拥有的常识。常识是我们与物理世界互动的结果,并没有在任何文本中体现出来。大语言模型对潜在的现实没有直接的经验,因此展示的常识性知识非常浅薄,在应用中可能与现实脱节。
举个例子,大语言模型能够根据足球的材质、颜色等物理信息,得出足球被踢飞后的运行轨迹,这个推理过程不需要考虑物理力学的参数,而是基于训练数据中的概率。通过规模化训练,大模型在语言交流、图像和视频生成方面达到了出人意料的效果,但无法应用于解决基于因果的现实问题。
杨立昆认为,实现真正的智能突破不是靠规模,而是让AI在世界模型中学习常识。在论文 A Path Towards Autonomous Machine Intelligence Version 中,杨立昆提出了有关世界模型架构的另一种思路,与生成式架构通过前值预测后值不同,这一思路把重点放在预测前值与后值之间的抽象关系上。论文中提到,人或者动物大脑中似乎运行着一种对世界的模拟,称之为世界模型,这个模型指导人和动物对周围发生的事情做出良性预测。杨立昆曾举例表示,婴儿在出生后的最初几个月通过观察世界来学习基础知识,比如看到一个物体掉落,就几乎了解了重力。这种预测接下来会发生什么的能力来自常识,杨立昆认为它这就是智能的本质。
根据论文中的思路,杨立昆提出了联合嵌入预测架构(JEPA),并帮助Meta发布了I-JEPA和V-JEPA两个大模型,两个模型分别展示了在图像和视频方面的预测能力。Meta在训练V-JEPA模型的过程中屏蔽了视频的大部分内容,模型仅显示一小部分上下文。他们发现,通过屏蔽视频的部分内容,可以迫使模型学习并加深对场景的理解。整个过程就像老师把问题和答案给到学生,让学生还原推导出答案的步骤。V-JEPA可以预测短时间内画面前后的抽象变化,比如给定一个厨房案板的画面,它可以“还原”制作三明治的过程。Meta的下一步目标是展示,如何利用这种预测器或世界模型来进行规划和连续决策。
总的来说,今天,讨论Sora到底是不是世界模型其实并没有多大意义,也很难有一个真正结论,我们要看见和讨论的是,Sora令人惊叹的出色表现,以及它究竟会如何改变我们的生活。
显然,Sora要想成为真正的世界模型还需要很长一段路要走,这其中就包括算力的制约能否获得突破与解决,并且机器智能在学习真实物理世界的各种物理定律与规则之后,在多重叠加的物理规则下是否能够有效地掌握。或者说是否能从各种图像训练数据中抽取与掌握物理规律,这也是当前OpenAI所面临的现实挑战。