人工智能Sora：机遇·问题·未来最新章节_陈根著

1.1　横空出世的Sora

2024年2月15日，OpenAI发布了第一款文生视频模型——Sora，能够生成一分钟的高保真视频，一石激起千层浪。毕竟，2023年年初ChatGPT给人们带来的震撼还历历在目，仅仅一年之后，OpenAI又打开了新局面。

事实上，根据文字生成视频这类的应用，在过去也出现过，如今很多剪辑软件也附带这样的功能，但Sora的出现仍然惊艳，许多人在看过OpenAI发布的样片后也直呼“炸裂”“史诗级”——尽管Sora仍处于开发的早期阶段，但它的推出已经标志着人工智能的又一个里程碑。

对于我们而言，要将一段文字，通过图片或者视频的方式精准地表达出来，如果没有经过专业的训练会很难实现。比如我们要绘画一种风格，或者是设计一幅广告，在缺乏专业美术与设计训练的情况下，是很难让图像具有美感的，也很难将一段文字精准地抽象成艺术的表现方式。而Sora对于文字的精准理解，以及高清、精准的艺术抽象表达，再次让我们看到了人工智能在机器智能方面的跃迁。

它让我们看到了人工智能超越人类智能将有机会成为一件确定性的事情，不再局限于对于人类文字与语言的理解，而是进入人类知识更高的表现层次，也就是抽象的艺术表现领域。

1.1.1　从模拟现实到构建现实

相比同类型的文生视频应用，Sora就是“王炸”级别的存在，Sora的惊艳主要表现在三个方面：“构建现实”“60秒超长长度”和“单视频多角度镜头”。

如果用一句话来形容Sora带给人们的震撼，那就是“以前不相信是真的，现在不相信是假的”，这其实说的就是Sora“构建现实”的能力，OpenAI官方公布了数十个示例视频，充分展示了Sora在这一方面的强大能力。人物的瞳孔、睫毛、皮肤纹理，都逼真到看不出一丝破绽，真实性与以往的AI生成视频是史诗级的提升，AI视频与现实的差距，更难辨认。

比如，对Sora输入以下文字：一位时尚的女士穿着黑色皮夹克、红色长裙和黑色靴子，手拿黑色手袋，在东京一条灯光温暖、霓虹灯闪烁、带有动感城市标志的街道上自信而随意地行走。她戴着太阳镜，涂着红色口红。街道潮湿而有反光效果，色彩缤纷的灯光仿佛在地面上创造了镜面效果。许多行人在街上来往。

Sora随即直接生成视频，无论是人物脸上的雀斑，还是水中的倒影都极其逼真，就连人物脸上的墨镜里都有街景的映射，整个视频看下来简直像是实拍而不是AI生成。Sora生成的视频里，物体运动轨迹也很自然，画面的清晰度和顺畅程度，都像我们用手里的设备拍出来的（图1）。

图1　Sora文生视频

如果说之前的AI“文生视频”都还是在“模拟现实”，那么Sora则突破性实现了“构建现实”。区别在于，前者是对现实的模仿，难以捕捉现实世界的物理规则、动态变化。但Sora则是在虚拟世界里，构建另外一种现实。其学习的不仅是像素与画面，还有现实世界的“物理规律”。举个例子，我们如果在下过雨或者有水的地面上行走，水面会映射出我们的倒影，这是现实世界的物理规则，Sora生成的视频就能做到“映射出水面的人的倒影”。但之前的AI文生视频工具，则需要不断地调教，才能产出较为逼真的视频。并且，之前主流的AI生成视频都在4～16秒，还“卡成PPT”，而Sora弯道超车，直接将时长拉到60秒，且画面表现已经媲美视频素材库，插入视频作空镜完全可行。1分钟的长度也完全可以应对短视频的创作需求。并且，从OpenAI发表的文章来看，如果需要，超过60秒毫无悬念。

此外，Sora生成的视频还具有单视频多角度镜头的特点。视频的多角度镜头，也就是多机位，是指使用两台或两台以上摄影机，对同一场面同时做多角度、多方位的拍摄。多机位拍摄可使观众能够从多个不同的角度观看画面，给人以身临其境的感觉。它的展现空间更全面、视点更细腻、角度更开放、长度更自由，给观众带来全方位、多角度的观赏体验。

要知道，目前的AI文生视频应用，都是单镜头单生成。一个视频里面有多角度的镜头，主体还能保证完美的一致性，这在以前，甚至在Sora诞生之前，都是无法想象的，但现在，Sora做到了。Sora可以在单个生成的视频中创建多个镜头，准确地保留角色和视觉风格。

除了用文字生成视频，Sora还支持视频到视频的编辑，包括往前扩展和向后扩展。Sora可以从一个现有的视频片段出发，通过学习其视觉动态和内容，生成新的帧来扩展视频的时长。这意味着，它可以制作出多个版本的视频开头，每个开头都有不同的内容，但都平滑过渡到原始视频的某个特定点。同样地，Sora也能够从视频的某个点开始，向前生成新的帧，从而扩展视频至所需的长度。这可以创造出多种结局，每个结局都是从相同的起点开始，但最终导向不同的情境。Sora模型的时间扩展功能为视频编辑和内容创作提供了前所未有的灵活性和创造性。它不仅能够生成无限循环的视频，还能够按照创作者的意图制作出具有特定结构和风格的视频作品。

如果对Sora生成视频的局部（如背景）不满意，直接更换就可以了。Sora的视频编辑不仅提高了编辑的效率和准确性，还为用户创造了无限的可能性，使他们能够在不具备专业视频编辑技能的情况下，实现复杂和创意的视频效果。

Sora甚至还可以拼接完全不同的视频，使之合二为一、前后连贯。通过插值技术（插值是对原图像的像素重新分布，从而来改变像素数量的一种方法。插值程序会自动选择信息较好的像素作为增加、弥补空白像素的空间，而并非只使用临近的像素，所以在放大图像时，图像看上去会比较平滑、干净。简单来说，插值技术就是对图像的自动提取、优化与生成），Sora就可以在两个不同主题和场景的视频之间创建无缝过渡。Sora的这些功能极大地扩展了视频编辑的可能性，使得创作者能够更加自由地表达自己的创意，同时也为视频编辑领域带来了新的技术和方法。

当然，Sora也可以生成高质量的图片。Sora的图像生成能力是通过在时间范围为一帧的空间网格中排列高斯噪声块来实现的。这种方法允许模型生成各种尺寸的图像，分辨率高达2048×2048像素。Sora的图像生成能力也展示了其在视觉创作领域的强大潜力，在落地应用方面可满足不同场景和需求。

1.1.2　一骑绝尘的Sora

Sora诞生之前，在人工智能生成内容（AI generated content, AIGC）领域，已经出现了许多文生视频的相关应用——头部大模型研发商几乎都拥有自己的文生视频大模型，甚至已经诞生了垂直于多媒体内容创作大模型的独角兽。

1.1.2.1　Runway

与许多“拿着锤子找钉子”式的“技术驱动型”大模型创业团队不同，Runway的三名创始人瓦伦苏埃拉（Cristóbal Valenzuela）、马塔马拉（Alejandro Matamala）和日耳曼迪斯（Anastasis Germanidis）来自纽约大学艺术学院，他们看到了“人工智能在创造性方面的潜力”，于是决定共商大计，开发一套服务于电影制作人、摄影师的工具。

Runway首先开发了一系列细分到不能再细分的专业创作者辅助工具，针对性地满足视频帧插值、背景去除、模糊效果、运动追踪、音频整理等需求；随后参与到图像生成大模型Stable Diffusion的开发过程中，积累AIGC在静态图像生成方面的技能点，并获得了参与电影《瞬息全宇宙》等大片制作的机会——在《瞬息全宇宙》里，许多复杂的特效制作就是由Runway完成的。

2023年2月，Runway发布第一代产品Gen-1，普通用户已经能通过iOS设备进行免费体验，范围除了“真实图像转黏土”“真实图像转素描”这些滤镜式的功能，还包含了“文本转视频”，从而使Gen-1成为首批投入商用的文生视频大模型；2023年6月，他们发布了第二代产品Gen-2，训练量上升到了2.4亿张图像和640万段视频剪辑。

2023年8月，爆火哔哩哔哩（bilibili）弹幕视频网（简称B站）、全网播放量超过千万、获得郭帆点赞的AIGC作品《流浪地球3》预告片正是基于Gen-2制作的。根据作者“数字生命卡兹克”在个人社媒上的分享，整段视频的制作大体分为两部分——由Midjourney生成分镜图和由Gen-2扩散为4秒的视频片段，最终获得素材图693张、备用剪辑片段185条，耗时5天。半年之后，“数字生命卡兹克”再次通过“MJ V6画分镜—Runway跑视频”制作了一段3分钟的故事短片The Last Goodbye，投稿参赛Runway Studios所组织的第二届AI电影节Runway GEN：48。

1.1.2.2　Pika

Pika是除Runway之外视频生成赛道的另一个佼佼者。Pika Labs最初本是一家专注于动画视频生成的公司，如今已成功转型为引领行业的文本转视频AI平台。Pika Labs成立于2023年4月，同年11月发布首个产品Pika1.0。Pika1.0能够生成和编辑3D动画、动漫、卡通和电影，普通用户还可以对其进行加工。通过Pika1.0，用户就可以直接利用文本创建和定制出包括3D动画、动漫以及电影风格在内的多样化视频。

Pika Labs平台提供了灵活的每秒帧数（FPS）调整功能，范围覆盖8～24帧。用户还可以根据需要自定义视频的长宽比，确保最终作品符合预期的视觉效果。

为了让创意的转化过程更加顺畅，Pika Labs还采用了一种独特的对话式界面设计。这种界面不仅简化了操作流程，还使用户能够更加直观地将想法转化为实际的视频内容。

Pika Labs始终致力于降低高质量视频制作的门槛。他们的AI平台不仅提供免费的基础使用功能，还提供了广泛的自定义选项，以满足从业余爱好者到专业电影制作人员等不同层次用户的需求。因此，Pika1.0也被视为一款零门槛“视频生成神器”。

1.1.2.3　Stable Video Diffusion

Stable Video Diffusion是一种稳定视频扩散技术，能够通过消除视频中的晃动、抖动等问题，提高视频质量。优点是能够改善视频稳定性，但缺点是可能会导致一些细节信息的损失。Stable video diffusion旨在为媒体、娱乐、教育、营销等领域的各种视频应用提供服务。它赋予个人将文本和图像输入转化为生动场景的能力，并将概念提升为真实的行动、电影般的创作。

除此之外，在AI视频生成领域还有PixVerse、Morph Studio、Emu Video等。PixVerse是一款基于人工智能技术的视频生成工具，可以将包括图像、文本和音频的多模态输入转化为视频。PixVerse提供自定义选项，可以为生成的视频添加独特的艺术风格，确保个性化结果。Morph Studio则是市面上首个开放给公众自由测试的文本到视频生成工具，支持1080P高清画质，能制作出长达7秒的视频片段，生成的视频画面细腻、光影效果较佳。业内玩家常拿来与Pika对比，认为在语义理解方面Morph Studio的表现优于Pika。此外，Morph Studio可以实现变焦、平移（上下左右）、旋转（顺时针或逆时针）等多个摄像机镜头运动的灵活控制。但不管是哪一款AI视频生成工具，不论之前有多风光，在Sora面前，都不值一提。

Sora在生成时长、连贯性等方面都有显著的优势。特别是生成时长上，对比其他的AI模型，Pika是3秒，Runway是4秒，Sora生成的视频目前可以达到60秒，而且分辨率极高，视频中基本物理现象也比较吻合，在AI视频生成领域，Sora已经成为一骑绝尘的存在。

1.1.3　每个视频都能挑出错

Sora的消息一经发布，就引起了市场的热议，占据了AI领域话题中心。

马斯克在某社交平台上的各网友评论区活跃，四处留下“人类愿赌服输（gg humans）”“人类借助AI之力将创造出卓越作品”等评论。

AI文生视频创企Runway联合创始人兼CEO克里斯托瓦尔·瓦伦苏埃拉（Cristóbal Valenzuela）感慨，以前需要花费一年时间才有的进展，变成了几个月就能实现，又变成了几天、几小时。

出门问问公司创始人李志飞发文感叹：“LLM ChatGPT是虚拟思维世界的模拟器，以LLM为基础的视频生成模型Sora是物理世界的模拟器，物理和虚拟世界都被建模和模拟了，到底什么是现实？”

周鸿祎预言Sora“可能给广告业、电影预告片、短视频行业带来巨大的颠覆，但它不一定那么快击败TikTok，更可能成为TikTok的创作工具”，他认为OpenAI“手里的武器并没有全拿出来”“中国跟美国的AI差距可能还在加大”“AGI不是10年或20年的问题，可能一两年很快就可以实现”。

这些评论也让我们看到了业界对于Sora的肯定，不过，如果仔细观看OpenAI发布的示例视频，其实还会发现Sora生成的一些错误。比如，当Sora输入的文本是“一个被打翻了的玻璃杯溅出液体来”时，显示的是玻璃杯融化成桌子，液体跳过了玻璃杯，但没有任何玻璃碎裂效果。再比如，从沙滩里突然挖出来一个椅子，而且Sora认为这个椅子是一个极轻的物质，以至于可以直接飘起来。

这一方面证明了Sora的“清白”——正如OpenAI在发布Sora的博客文章下方特意强调其展示的所有视频示例均由Sora生成的那样，确实是只有AI才会在生成视频里犯这样的错误。另一方面，这些奇怪的镜头，说明Sora虽然能力惊人，但水平仍然还有进化的余地。

Sora作为文生视频领域最新出场的应用，就算是错漏百出也已经在时长、逼真度等方面甩开同行一条街。这也是为什么Sora的每个视频都能挑出错误但依然火爆、依然有许多业界专家为其站台的原因。

更重要的是，Sora让我们看到了今天AI不可思议的进化速度，要知道，如看起来并不聪明、只支持“4秒视频生成”并且“掉帧明显到像幻灯片”的Gen-2是2023年6月发布的产品，而8个月后，Sora就发布了。

2023年11月，Meta发布的视频生成大模型Emu Video看起来在Gen-2上更进一步，能够支持512×512像素的分辨率、每秒16帧的“精细化创作”，但3个月之后的Sora已经能够做到生成任意分辨率和长宽比的视频，并且根据上面提到的开发者技术论文，Sora还能够执行一系列图像和视频编辑任务，从创建循环视频到即时向前或向后延伸视频，再到更改现有视频背景等——当然，这也是OpenAI在大模型领域超强实力的又一次证明。

Sora的发布，是AI领域石破天惊的大事件。这也让我们看到，或许技术的发展有迹可循，但技术的突破点却是真的难以预测。谁也没想到，在ChatGPT才诞生一年后，在算力还受到不同程度制约的情况下，Sora就这样横空出世了，这也让很多人更加期待GPT-5的发布，人类社会可能真的要变天了。

而这一切的发生，是在算力、数据与模型还未完全获得满足的情况下，机器智能已经在以超乎我们人类想象的速度发展，并表现出了惊人的智能能力。文生图的Sora就是在机器硬件受到一定程度制约的情况下，以超乎我们预计的速度走入了我们的视线。

1.1 横空出世的Sora

1.1.1 从模拟现实到构建现实

1.1.2 一骑绝尘的Sora

1.1.2.1 Runway

1.1.2.2 Pika

1.1.2.3 Stable Video Diffusion