Sora革命：文生视频大模型场景赋能最新章节_李波著

第1章
Sora：引领视频大模型新纪元

继大语言模型ChatGPT在多个领域展现出强大的潜力与无限可能后，OpenAI再次石破天惊地推出了另一款重要产品——Sora。作为具有划时代意义的文本生成视频大模型，Sora的横空出世，引发了全世界对AIGC新一轮的想象和高度关注。Sora的出现不仅会改变传统的视频创作方式，使视频内容更加丰富，更重要的是开创了视频大模型的新纪元。

1.1 认知：你真的了解Sora吗

作为一款最新推出的文本生成视频大模型，Sora以其强大的功能震惊了世界，并引起了业界的广泛关注。但是，作为一个新生事物，Sora对于许多人来说还很神秘。接下来将从Sora是什么、Sora的特点等方面进行介绍和分析，帮助大家更好地了解Sora的前世今生。

1.1.1 Sora究竟是什么

在人类社会发展过程中，每一次进步往往伴随着科学技术革命和新技术产生。科技革命和新技术就如同暗夜中的星光，照亮人类的前行之路。

毫不夸张地说，Sora是夜空中那颗最为闪亮的星星，不仅为科技创新带来了全新的发展方向，而且极有可能彻底改变人类的生活。那么，Sora究竟有何魅力呢？让我们一探究竟。

提到Sora，就不能不说OpenAI。这是一家位于美国旧金山的人工智能研究公司，由营利性公司OpenAI LP及非营利性母公司OpenAI Inc组成。它以大模型为核心引领了AI领域的很多创新革命，是全球通用人工智能领域的领军企业之一。

2015年年底，埃隆·马斯克（Elon Musk）、彼得·泰尔（Peter Thiel）、萨姆·奥尔特曼（Sam Altman）等人投资创办OpenAI。第二年，OpenAI就发布了首款产品OpenAI Gym和Universe（一款开源强化学习工具包），开始进行大模型研究。2019年7月，微软注资10亿美元，开始研发新的Azure AI超算技术；2022年11月，文本生成大模型ChatGPT问世，震撼业界；2024年2月，文生视频大模型Sora推出，掀起了新一轮的技术创新风暴，成为人工智能发展进程中的“里程碑”。

Sora的出现，是继文本、图像之后，OpenAI的AIGC技术的又一次重大突破。与其他视频生成技术不同，Sora能够根据用户输入的文本，生成长达60秒、真实且复杂的视频，且视频质量极高。无论是真实场景还是虚拟场景，Sora都能够呈现多个角色在复杂场景下的各种活动。

这种高质量的视频生成内容表现，不仅因为Sora拥有强大的文本理解能力，更在于其具有的对场景中复杂元素的敏锐洞察能力。Sora搭载了经过训练的扩散式Transformer模型，因而能够更好地进行自然语言处理，并拥有十分强大的解析力。

Sora这一名字来源于日语“空”的发音，一般指“天空”，表达了OpenAI希望Sora能够激起创作的无限可能性的美好愿景。作为一款新型大模型，Sora结合了AI、大数据等技术，并拥有先进的算法与数据处理能力，能够快速对大量信息进行分析、处理。而且，Sora所具有的高效、智能、可拓展等特性，能够为各个行业的发展提供强大的支持。

Sora集合了很多当前热门的前沿技术，如AI、大数据、云计算等，因此，其开发和应用需要巨大的资金和资源。通过利用AI技术对人类思维过程进行模拟，Sora拥有强大的解决复杂问题的能力。借助大数据分析技术，Sora可以实现对海量数据的分析和处理，快速挖掘有效信息，为使用者进行决策提供依据。同时，Sora能够借助云计算所拥有的强大算力，实现平稳运行。

作为AIGC发展过程中的里程碑产品，Sora不仅具有科技发展上的意义，还会对人类社会产生重大影响，在推动人类社会向更高层次发展的过程中起到重要作用。

1.1.2 魅力无限的颠覆与创新

近年来，随着视频成为传递信息、用户娱乐的重要媒介，各类视频制作软件层出不穷。但是，在实际应用中，这些软件生成高水平视频十分耗费时间和精力，如果不是专业人士，视频的质量根本无法保证。而Sora能够解决这一问题，一场视频生成革命悄然展开。

作为跨时代的视频生成工具，Sora拥有无限的魅力与潜力。与目前已有的其他视频生成模型相比，Sora具有一些独特的特点，主要表现在以下几个方面。

（1）Sora生成的视频在时长上遥遥领先。AI生成视频软件Pika能生成3秒的视频，AI视频模型Stable Video 4能生成4秒的视频。总部位于纽约、资金实力雄厚的生成式人工智能视频公司Runway推出的标志性的文本/图像转视频模型Runway Gen-2，能生成18秒的视频。而Sora刚面世时，就能生成长达60秒的视频，具有超越同类模型的强大能力。

（2）Sora在画面的逼真程度与精致程度方面更胜一筹。Sora可以生成更高清的视频，同时，通过使用深度学习技术，Sora能够生成更加逼真、还原的视频。为了让用户能够更深刻地体会到Sora的卓越性能，OpenAI精心制作了一段时长为20秒的“Sora版《我的世界》”视频。在这段视频中，画面能够自然、流畅地跟随玩家的视角发生相应变化。

（3）Sora生成的视频有明确的主角和多变的视角。从某种意义上来说，Sora生成的视频智能度更高，而不仅仅是多段视频的拼接。

（4）Sora的视频生成效率更高。Sora采用了更为高效的算法，因而，能够实现在更短的时间内生成更高质量的视频。

（5）Sora的理解和模仿能力更加强大。通过大量学习，Sora能够理解用户需求和很多事物在现实世界中的运行规则。通过对真实世界大量视频、材料的学习，Sora能够更好地学习和了解真实世界，进而生成符合要求的视频素材。

（6）Sora的可控性更强。Sora允许用户在一定程度上控制视频生成过程，使生成的视频更符合用户的需求。

总之，与其他视频生成模型相比，Sora在底层模型和算法上都实现了创新，是视频生成领域的里程碑，拥有无限的魅力。

1.1.3 OpenAI路线的再一次验证

在OpenAI发布Sora后，Sora迅速成为行业内的热门话题。大量的AI从业者对Sora的诞生感到十分惊讶，没有想到它会发展得如此之快。对于很多AI从业者而言，AI文生视频领域一直是一个很难进入的领域。这主要是因为文本生成视频的技术难度极高，需要克服众多挑战，并在数据质量、算力、融合技术等方面取得显著突破。因此，业界对AI生成视频的态度一直相对保守。

然而，Sora的问世彻底打破了这一局面。它所呈现出的效果远超业内的预期，令人瞩目。马斯克、贾扬清等业界巨头纷纷对Sora表示高度赞扬和认可。Sora之所以能够赢得广泛的赞誉，离不开OpenAI一贯坚持的技术路线和卓越的研发实力。

OpenAI的技术路线发展主要经历了3个阶段。

第一阶段使用了GAN（Generative Adversarial Networks，生成对抗网络）和VAE（Variational Auto-Encoder，变分自编码器），能够自回归地形成视频帧。这两项技术虽然能够实现视频帧的生成，但是应用范围较为狭窄，生成的视频分辨率不高，且视频画面十分单一。

第二阶段使用了Transformer架构，有效提高了视频模型的能力。例如，可以对上下文进行理解、能够实现颗粒度更小的语义控制等。该阶段的挑战是计算量太大，需要更优质的配对数据集。

第三阶段使用了扩散模型，更好地提高了效率和效能。但是扩散模型在算法和数据上存在许多难点亟须攻克，如如何降低计算成本、提升数据质量等。

在技术路线的发展下，Sora生成的视频在风格、画面等方面弥补了已有视频生成模型的劣势。综合官方的技术文档和专家的猜测观点，我们不难发现，Sora之所以能加速视频模型的发展进程，核心逻辑在于OpenAI技术路线的又一次验证。这一路线的特点是：“大力出奇迹”、简洁高效和坚守技术信仰。

在“大力出奇迹”方面，Sora符合OpenAI所推崇的尺度定律（Scaling Law），通过大规模算力和数据的利用，实现了性能的大幅提升；在简洁性方面，Sora使用了混合模型架构，即基于Transformer架构的Diffusion扩散模型，并参考了文生文模型中的Token原理；在技术信仰方面，Sora的诞生不是短期内的爆发或偶然，而是OpenAI长期技术积累的结果，是长期创新所实现的突破性转变。

Sora不仅为从业者提供了一种新的技术路线和方向，更为内容创作者提供了新的工具。可以说，Sora的问世，使2024年成为了AI文生视频的元年。

1.1.4 推动力：企业探索+技术进步

Sora的成功并不是一蹴而就的，而是在OpenAI的不断探索下，经历了一步步的技术积累，才拥有如此使人惊艳的表现。Sora能够拥有如此强大的能力，主要得益于企业探索与技术进步。

企业探索是Sora发展的重要推动力。从企业探索的角度来看，Sora的出现是企业对市场需求的敏锐洞察和战略布局的结果。在数字化转型的浪潮中，许多企业纷纷寻求通过技术创新来提升自身的竞争力。文生视频大模型作为一种前沿的人工智能技术，具有巨大的商业潜力。企业通过投入研发资源，积极探索Sora的应用场景和商业模式，推动了Sora技术的不断完善和成熟。同时，企业间的竞争与合作也加速了Sora技术的传播和应用，进一步拓宽了它的应用领域。

技术进步是Sora发展的核心驱动力。随着深度学习、自然语言处理等技术的突破，文生视频大模型得以快速发展。Sora作为其中的佼佼者，得益于算法优化、数据资源和技术平台的支持，不断提升其处理速度和准确性。这使得Sora能够更好地理解人类语言，生成高质量的视频内容，为企业和用户提供更加丰富的视觉体验。

近年来，深度学习、自然语言处理等领域取得了显著的进展，为视频处理技术的发展提供了强大的技术支持。Sora的研发团队在深度学习、计算机视觉等领域拥有深厚的技术积累和实践经验，通过不断的技术创新和优化，成功打造出了这一领先的视频大模型。同时，随着技术的不断进步，Sora的性能和功能也将得到不断提升和完善，进一步满足了企业对于视频处理技术的需求。

值得一提的是，企业探索与技术进步并非孤立存在，而是相互促进、共同发展的。企业探索为技术进步提供了应用场景和商业模式，为Sora技术的持续发展提供了动力。同时，技术进步又为企业探索提供了更加先进的工具和方法，推动了企业不断创新和突破。

1.2 发展阶段：从聊天到视频的进化

Sora的诞生不是偶然，也不是一蹴而就的，而是大量技术的多次迭代和积累所形成的必然性结果。从文生图模型DAll-E发布到最终升级版Sora的诞生，这一发展过程体现了内容生成模型从聊天到视频的进化。

1.2.1 文生图模型Dall-E发布

近几年，人工智能的发展十分迅速，先后出现了许多功能各异的人工智能大模型。其中，DALL-E具有一定的代表性。这是一款由OpenAI于2021年发布的文生图模型，DAll-E的名字取自知名艺术家萨尔瓦多·达利（Salvador Dalí）和经典角色（WALL·E），暗示了DAll-E是艺术与技术的结合。

DAll-E拥有120亿个参数，能够根据用户输入的关键词和短语进行图片生成，打破自然语言与视觉之间的壁垒，实现了全新的突破。OpenAI利用神经网络模型对DALL-E进行训练，从而培养其解读文字并生成图片的能力。借助复杂的模型，DALL-E能够在识别文本的同时，以一种直观的形式展示文本内容。例如，用户输入“生成一只绿色的猫，猫的身上要有黑色的纹路”，那么DALL-E便会对文字进行解析，并生成相关的图片。

DALL-E主要有三个特点，一是能够对大规模的图像进行处理，并通过对模型不断地训练实现图片质量的提升；二是能够对大量数据进行快速处理，在短时间内为用户生成高质量的图像；三是拥有端到端的技术，能够将自然语言与图像处理进行结合，实现图片生成。

作为一种以深度学习为基础的AI模型，DALL-E是人工智能创造力的巨大飞跃，能够在图像处理和信息传播方面发挥重要的作用。

1.2.2 Dall-E 2发布

继2021年推出DALL-E之后，2022年，OpenAI对DALL-E进行升级，推出了DALL-E 2。2022年7月，DALL-E 2进入了测试阶段，仅允许白名单内的用户试用；同年9月，DALL-E 2取消了白名单限制，允许所有用户使用。

与DALL-E相同，DALL-E 2也是一个文字生成图片模型，能够根据用户输入的文本生成图片。与拥有120亿个参数的DALL-E相比，DALL-E 2仅有35亿个参数，但在图像分辨率方面，DALL-E 2是DALL-E的4倍。

DALL-E 2的出现为AI生成图像质量提供了全新的标准，与其他同类产品相比，其对文本描述的理解更加精准，能够生成更加符合用户要求的图片。

DALL-E 2的工作原理相对复杂，我们首先需要了解CLIP（Contrastive Language-Image Pretraining，对比语言—图像预训练）、先验模型和unCLIP（解码器扩散模型）。

CLIP是DALL-E 2架构的重要组成部分，是文本和图像之间的桥梁，能够同时处理图像和文本，从而使机器更好地处理二者之间的关系。先验模型是一种为了解决特定问题而使用的模型结构和参数。unCLIP则是一个文本引导图像生成模型。三者共同组成了DALL-E 2。

在使用方面，用户只要输入描述性的文字，便可以利用DALL-E 2生成图像。一些艺术家或者设计师花费几个小时甚至几天才能创作出的作品，DALL-E 2仅需几秒便能够生成。

DALL-E 2能够帮助零基础的用户进行图像编辑。例如，用户想在一名服务员身旁添加一只猫，只需要输入“在服务员身边放一只猫”，DALL-E 2便在图片中生成一只猫。图片还可以根据用户的要求不断进行修改，直到用户满意为止。

但DALL-E 2并非完美无瑕，它还存在一定缺陷。

（1）DALL-E 2生成的图片质量与用户提供的文本质量有关，文本描述得越具体，图片的质量越高。DALL-E 2还不能很精确地对各类元素进行组合，生成完全符合用户期待的图片。例如，对于形状、方向、颜色等，DALL-E 2不能精准把控。

（2）DALL-E 2不能够生成公众人物或名人图像。为了防止DALL-E 2被滥用，OpenAI不允许用户生成真实人像。

（3）可能发生侵权行为。DALL-E 2的数据来源是各类艺术家的作品，在这些作品的基础上进行创作，很容易侵权。

DALL-E 2并不完美，还处于不断完善中。但是可以预见的是，其会在实践中不断学习，变得越来越智能。从技术的角度来看，DALL-E 2无疑是AI技术的一大进步。

1.2.3 大语言模型ChatGPT面世

2022年11月，OpenAI推出大语言模型ChatGPT，在全球范围内引发了广泛关注。ChatGPT是一款自然语言处理模型，能够通过深度学习技术对用户的语言进行理解，并进行回答。这实现了问答领域的革命性突破，受到了众多同行的模仿、追随和大量用户的欢迎。

ChatGPT采用的是Transformer架构，利用大量文本数据进行训练，从而能够完成多种自然语言处理任务，包括智能对话、文本翻译、文本总结等。

ChatGPT最主要的功能是文本生成。与其他同类型的大模型相比，ChatGPT在文本生成方面的能力更强。因为具有强大的数据库进行训练和学习，ChatGPT对语句的理解和生成更加精准。

具体来说，ChatGPT具有以下特点，如图1-1所示。

图1-1 ChatGPT的4个特点

（1）可扩展性强。通过大量的数据训练，ChatGPT能够完成多个领域的文本生成任务。例如，在教育行业，ChatGPT能够为学生解答问题；在金融领域，ChatGPT能够充当客服等。

（2）适应多种语言。ChatGPT能够生成多种语言的文本，包括英语、中文、日语、法语等。

（3）强大的上下文理解能力。ChatGPT能够对上下文进行理解，并生成合理且连贯的文字，具备良好的逻辑能力。

（4）能够进行个性化微调。用户可以对ChatGPT进行微调，以满足自身个性化需求和完成任务的需要。

作为一个新兴的大语言模型，ChatGPT给人类的工作、生活带来了很多变化。但是，在享受ChatGPT带来便利的同时，用户需要尽可能地保持自主思考能力，将其作为辅助，而不能完全依赖，因为其还处于发展的过程中，并不完善。

1.2.4 推出GPT-4语言模型

2023年3月14日，OpenAI推出新一代大语言模型GPT-4。与ChatGPT相比，GPT-4的功能更加强大，包括图像识别、高级推理等。在单词处理方面，GPT-4的处理能力是ChatGPT的8倍。

在美国，律师考试十分困难，考生需要经过长时间的学习才能够取得好成绩。而GPT-4在模拟律师考试的成绩却超越了90%的考生，而其上一代GPT-3.5仅能够超越10%的考生。虽然在模拟律师考试中取得好成绩并不意味着GPT-4能够取代律师，但是展现了GPT-4强大的能力。

GPT-4主要有三大特点，分别是图像识别、高级推理和强大的单词掌握能力。

在图像识别方面，GPT-4能够对图像进行分析并提供相应的信息。例如，GPT-4能够根据用户提供的食材图片生成合适的食谱。但是为了避免功能滥用，OpenAI暂时没有开放这一功能，用户仅能通过直播了解这一功能的效果。

在高级推理方面，GPT-4能够对用户的日程进行安排，并回答一些上下文具有关联性的复杂问题。

在单词掌握能力方面，GPT-4最多可以处理25000个单词。因此，GPT-4在理解和生成长篇内容方面能力很强。

与上一代GPT模型相比，GPT-4的安全性更高。OpenAI花费了6个月时间对监控框架进行改进，并在医学、政治等敏感领域与专家展开合作，确保GPT-4的回答更加安全。

在参数量方面，GPT-4也远超上一代，拥有更加出色的认知表现。当同时执行多个任务时，GPT-4也拥有不俗的表现。

ChatGPT是纯文本输入，输出的是语言文本和代码。与ChatGPT相比，GPT-4支持多模态输入和输出，用户可以输入声音、图像、文本等，GPT-4能够输出视频、音频等，为用户提供更加丰富的内容。根据测试，当任务足够复杂时，两个模型之间的差距更加明显。总体而言，GPT-4比上一代的模型更加可靠。

1.2.5 Dall-E 3问世

作为AI届的“劳模”，2023年9月，OpenAI推出文生图大模型DALL-E 3。DALL-E 3不仅继承了之前大模型的优势，还在文生图方面进行了更进一步的创新，为用户提供了更多创意空间。

DALL-E 3最重要的创新在于图文生成技术，其能够精准分析用户的复杂文字并生成图像。这种生成方式并非停留在表面，而是源于DALL-E 3强大的理解能力，因此能够剖析文本的深层含义，并生成合适的图像。

例如，DALL-E 3可以应用于交互设计领域。用户可以将自己的想法直接转化为图像。这样能有效缩短用户的绘图时间，节约大量的时间和精力。此外，DALL-E 3能够简化产品设计流程，缩短产品的迭代周期。

在广告创意领域，DALL-E 3可以应用于创意概念测试。用户能够利用DALL-E 3生成直观的图像，从而进行创意概念验证，有效提高了工作效率。

在教育领域，DALL-E 3能够打造个性化的教学资源。不同学生的学习能力、学习方法有所不同，如何根据学生的特点为其提供个性化的教学资源是教育行业需要思考的问题。

而DALL-E 3的出现使这个问题得到了解决。DALL-E 3能够根据学生的学习需求，为其生成个性化的教学资源，包括图像、动画等。DALL-E 3不仅为教育行业提供了高质量的教育资源，还为教育行业的创新发展提供了强大的技术支持。

除了上述行业，DALL-E 3还能够应用于许多其他行业。DALL-E 3能够应用在医疗行业，根据医生的描述生成病人的医疗影像；能够应用于游戏行业，实现游戏设计师创意的可视化。

DALL-E 3能够为创新型产品的研发提供技术支持。在DALL-E 3的帮助下，传统行业能够焕发新的生机，许多新兴行业拥有更多的创意空间。我们有理由相信，在DALL-E 3的帮助下，人类未来的生活将更具创造性。

DALL-E 3实现了内容生成与智能设计的结合，不仅实现了技术飞跃，还重新洗牌了市场格局，传统的内容生成和设计流程正面临着前所未有的挑战和机遇。

内容生成和设计作为一个人力资源密集的领域，各个环节都需要大量人力资源和时间。而DALL-E 3能够为其提供全新的解决方案。DALL-E 3能够对用户的需求进行理解，并将用户的描述转化为具体的方案，提高了企业的工作效率，降低了成本。

例如，在广告行业，传统的广告创意生成需要经历漫长的过程。从创意的提出到落地实施，每个步骤都需要耗费大量的时间。而借助DALL-E 3，广告公司可以快速对各个创意进行验证，并获得直接的反馈，从而有效缩短工作周期，提高创意质量。

在产品设计领域，DALL-E 3同样展现出极大的实用价值。设计师能够利用DALL-E 3生成多种设计方案，实现方案的快速迭代，从而找到最符合用户心意的设计方案。在DALL-E 3的帮助下，设计师的稿件质量逐步提高，创作空间更加广阔。

在这个机遇和挑战并存的时代，我们应该在享受DALL-E 3带来红利的同时，不断推进技术创新，使技术实现可持续发展，使更多人享受到技术创新的便捷和乐趣。

1.2.6 升级版的Sora正式亮相

2024年2月，OpenAI发布了AI文本生成视频模型Sora。这是继GPT和DALL-E之后OpenAI发布的又一重磅产品。

Sora能够根据文本生成视频，且视频十分真实，人物、动作、背景等细节十分到位，展现了OpenAI在视频智能生成领域的实力与领先地位。

Sora是一个基于文本条件的扩散模型，使用了一个名为扩散概率模型的技术，能够从一堆噪声中精准生成画面清晰的视频。此外，Sora还使用了变换器架构，能够在多个领域展现强大的扩展性。

Sora生成的视频效果十分惊艳，不仅能够生成逼真的场景，还能够根据文本生成符合物理世界规则的场景。此外，Sora还能够在一个视频内创建多个镜头，实现角色和视觉风格的一致性。在画面表达方面，Sora能够学习摄影师和导演的表达手法，生成能够传递情感的视频。

Sora引起了许多用户的讨论，有人认为其是实现通用人工智能的重要里程碑，有人认为其会对视频制作造成影响。对于这些讨论，OpenAI表示，Sora仅仅是一款实验性的产品，其试图通过Sora对视频生成技术进行探索。Sora是走向通用人工智能的重要一步，是一个值得探索和研究的方向。

1.3 Sora比同类产品强在哪里

Sora横空出世吸引了许多媒体的目光，获得了多方的称赞。人们不禁思考：同样是文生视频大模型，Sora比同类产品强在哪里？下文将从时长、镜头语言、商业化和技术性4个方面进行分析。

1.3.1 时长：60秒PK 18秒

在OpenAI推出Sora之前，Runway是用户利用AI进行视频生成的最优选。尤其是Runway推出了二代模型以后，其能力有了很大提升，例如，不仅能够提高视频中各帧的连贯性，还能够提升视频生成的质量。在不断优化下，Runway已经能够生成长达4秒钟的视频。

而在Sora发布后，一切发生了改变。Sora最大的突破在于拉长了文字生成视频的时长。在Sora诞生之前，Runway Gen-2最长能够生成18秒的视频，这是当时AI生成视频时长的最高纪录。在同类模型中，Stable Video 4能够生成4秒的视频，Pika能够生成3秒的视频，而Sora能够生成60秒的视频。在视频时长方面，Sora领先于所有竞争对手。

Sora之所以能够实现技术的突破，是因为其采用了扩散Transformer架构。而Sora的创作者之一曾经在2023年与他人一同发表过关于该架构的论文。

Sora和Pika、Runway这三个文字生成视频的底层模型十分相似，都是Diffusion扩散模型。但是，Sora的创作者改变了其实现逻辑，利用Transformer架构替换了U-Net架构，实现了视频时长的增加。

不过OpenAI还没有公布Sora能为用户提供哪些功能，因此在现阶段，Runway仍是Sora强有力的替代品。2024年1月，Runway公布了其新功能，用户能够利用Multi Motion Brush（多头运动笔刷）控制视频中的元素。此外，Runway能够提供包含多种AI工具的视频制作解决方案，受到用户的欢迎。

1.3.2 镜头语言：运动镜头PK静止视角

与其他同类产品相比，Sora在镜头语言方面也有明显的优势。在Sora发布的当天晚上，AI视频生成企业Stability AI发布了一条动态，宣布Stable Video Diffusion进行了版本更新。但是，随后这条消息被删除了。我们无从得知这条消息是发送失误，还是Stability AI看到了其产品与Sora的差距而选择退出。但是在镜头语言方面，Stability AI旗下的Stable Video确实逊色于Sora。

Stable Video优化至今，仍没有脱离文本生成视频的一般模式，即只能生成静止视角的短视频。而在Sora的宣传短片中，其使用了运动镜头，我们能看到摄像机的角度变换、电影式的剪辑和许多场景变化。

许多科技界的人士认为，Sora具有世界模型的特质。世界模型指的是对真实世界进行建模，机器能够像人类一样对世界产生全面而准确的认知。如果AI拥有世界模型的特质，其生成的视频将会更加流畅和符合逻辑，能够有效降低企业进行模型训练的成本，提升训练效率。

Stability AI的CEO埃马德·莫斯塔克（Emad Mostaque）在Sora发布之后表示，山姆·奥尔特曼是一名魔术师，Sora可以成为AI视频生成领域的GPT-3，在接下来的日子中不断得到优化和发展。

1.3.3 商业化：免费选项与开源能力

与同类产品相比，Sora在商业化的道路上有两个亟待解答的问题，即Sora是否具有免费选项和是否具有开源能力。

2023年11月，Sora的竞争对手Pika Labs推出了AI视频生成工具Pika 1.0。Pika 1.0以制作精美的演示视频获得了众多关注。Pika能够生成与Runway生成的视频质量不相上下的视频，在短时间内吸引了大量用户，搭建了活跃的用户社区。

与竞争对手相比，Pika的竞争力在于能够为用户提供免费的服务。Runway仅为用户提供125个免费积分，且不可续。而Pika每日为用户发放30个免费积分，受到了大量用户的欢迎。

Stability AI旗下的Stable Video Diffusion具有开源能力。用户可以根据自身的需求对Stable Video Diffusion进行功能定制，并将其安装在个人设备上。但是Stable Video Diffusion仅针对部分用户开放，用户可以去其官网排队获取使用资格。

总之，Sora在技术方面领先于其他产品，如果能够在商业化方面更进一步，那么将会获得更大的发展。

1.3.4 技术性：重新审视AI的发展走向

与其他AI视频生成模型相比，Sora在真实性与实用性方面取得了很大的突破。与同样引起轰动的ChatGPT相比，Sora在时间维度上取得了进步，对真实世界物理逻辑关系的理解更加深入。随着Sora的发布，人类距离通用人工智能更近一步，这使得人类开始重新审视AI的走向，正视AI带来的影响。从深层次的影响来看，AI主要带来了以下几点变化。

（1）加快了技术迭代速度。从2023年年初的ChatGPT，到同年3月的GPT-4，再到11月的GPT-4 Turbo，文本生成技术的更迭速度不断加快。OpenAI一直在挑战自我，为用户带来创新技术。

（2）算力与电力的需求不断上涨。当前的大模型对算力的需求很大。GPU（Graphics Processing Unit，图形处理单元）取代CPU（Central Processing Unit，中央处理器）成为数据中心的主流需求，设备的全线升级对电力需求也一再上涨。

（3）对部分行业带来了降维打击，打破了行业壁垒。许多AI软件的出现给部分行业带来了冲击。例如，Sora发布以后，Adobe（跨国电脑软件企业）的股价产生波动，市场对其不看好。而在Sora投入商用后，许多视频从业者可能会面临失业的危机。

（4）引发工业革命，推动各国之间竞争格局的重塑。人工智能技术的革新，可能会引发全新的技术革命，各个国家之间的竞争格局将在技术的引领下重新洗牌。

总之，以Sora为代表的生成式AI模型的出现，将会给技术领域带来颠覆，促使大众深入思考AI未来将会发展到何种地步、会出现什么问题，以及应该做好什么准备。

1.4 Sora发展热潮已经来临

Sora在引起AI界轰动的同时也迎来了发展热潮，许多圈内大佬纷纷对Sora给予赞扬，更多企业涌入AI赛道，为AI行业带来了新的发展机遇。Sora已经影响到AIGC行业和相关企业的方方面面，在这样的热潮涌动之下，究竟会给人类社会带来什么？

1.4.1 圈内大佬如何看Sora

Sora拥有卓越的能力，一经发布便占据AI行业的话题中心。在了解其强大的功能后，不仅是AI从业者和使用者，圈内的很多大佬都纷纷发表对Sora的看法。

马斯克在社交平台上发表了“gg humans”（人类愿赌服输）的言论；Runway创始人则认为以前人类需要花费一年完成的作品，在AI的帮助下，能够缩短到几个月、几天甚至几小时来完成。

出门问问创始人在朋友圈发出感慨：大语言模型ChatGPT是虚拟思维世界的模拟器，而Sora是以大语言模型为基础的物理世界的模拟器。如果物理世界和虚拟世界都能更被模拟，那么什么才是真实的呢？

除了感慨，英博数科CEO周韡韡还从艺术、技术等角度对Sora生成的视频进行了解析，并认为与其感慨，不如一起入局。

360集团创始人周鸿祎在微博抒发感想，认为Sora能够给广告行业、电影行业、短视频行业等带来巨大的冲击，并成为一种高效的短视频创作工具。

总体来说，对于Sora，圈内大佬大多给出了正面的评价并对其拥有无尽的期待。相信在不久的将来，OpenAI能够为我们交出一份更完美的答卷。

1.4.2 AI赛道迎来新的发展机遇

Sora的出现为人工智能行业带来了新一轮的变革，其在实现商业化的同时带动了AI算力、服务器等基础设施需求的上涨和AI产业链的整体发展，为国内的AI产业链的发展注入了活力、带来了全新的机遇，如图1-2所示。

（1）激发技术创新的热情。Sora的出现使得许多企业和研究机构关注到AI视频生成领域，能够推动该领域的快速发展。我国AI领域的研究人员将投入更多的资源用于技术研发与创新，希望在国际竞争中获得一定的优势。而随着各个企业、机构对Sora的研究，能够激发更多研究者的技术创新热情，为AI行业的发展做出更多贡献。

图1-2 AI赛道迎来的3个发展机遇

（2）推动基础设施建设。作为一种文字生成视频大模型，Sora对基础设施的要求十分高，需要其拥有强大的算力支持。因此，我国AI行业能否加大基础设施建设，为AI研究提供支持，成为新的课题。

此外，AI模型还需要利用大量数据进行训练，因此，需要强大的数据存储和处理能力。我国AI行业能否有效推动数据中心、云存储等的发展，也是新的挑战和机遇。AI模型需要处理大量的视频数据和文字指令，这要求数据存储和处理能力也必须相应提升。

（3）加速产业链整合与升级。Sora的出现能够推动AI产业链的整合与升级。上游会专注于技术研发；中游会聚焦基础设施建设，以提高自身数据存储和处理能力；下游则会致力于AI产品研发，打造出更多优质应用。产业链各个环节的通力配合能够推动产业链进一步发展与升级。

总之，Sora为我国AI产业链带来了全新的机遇和挑战。我国AI企业如何在激烈的竞争中占据有利地位并取得丰硕成果，让我们拭目以待。

1.4.3 Sora的影响力体现在哪些领域

Sora不仅是AI领域的一大突破，还给多个领域带来了发生翻天覆地的变化。Sora会对很多行业产生影响，如下所示。

（1）娱乐影视行业。Sora能够使娱乐影视行业实现低成本、高效率。娱乐影视行业在场景构建和角色设计方面的负担能够减轻，有效缩短了影片的创作周期。

（2）教育领域。在教育领域，Sora能够为教师提供更加丰富的教学素材，将文字教材转换成能够吸引学生注意力的视频，有效增强了学习的趣味性，提升了学生的学习效率。这有利于实现个性化教学，每个学生都能获得适合自己的教学素材。

（3）广告营销行业。Sora应用于广告营销行业能够有效降低广告创意的成本，在短时间内为用户提供多种多样的营销方案，满足用户的多种需求。

（4）新闻社交领域。在新闻社交领域，Sora能够有效提高新闻报道的时效性和内容的真实性。新闻机构能够借助Sora快速生成视频，为用户带来更多直观的、丰富的信息。

事实上，Sora的诞生标志着一个全新时代的来临，各行各业几乎都很难避免受到影响。面对全新时代，如何保持积极的态度，主动拥抱和适应变化，如何在获得机遇的同时谨慎应对挑战，是所有有识之士都应该认真思考的问题。

1.4.4 Sora热潮，是风险还是变革

Sora在业界及社会各界均获得了广泛的关注与赞誉，甚至催生了一批“Sora概念股”。本着对人工智能的警惕，在一片赞誉和繁荣的景象下，不少人开始深入思考，Sora所带来的究竟是风险还是变革？

毫无疑问，虽然Sora能够推动AI视频生成行业实现创新发展，但其本身也可能伴随着一定的风险。首先，Sora可能会引起大规模失业风险，这包括但不限于媒体制作和相关设备生产领域的从业人员。其次，对于投资者而言，Sora的出现可能意味着需要对新媒体及相关领域的投资进行重新认识和评估。此外，Sora的高度智能化，使得虚假内容泛滥的风险大幅增加。随着视频制作更加简单、便捷，任何人都可以轻易地发布和传播真假难辨的内容，这无疑给全球范围内的治理带来了新的挑战。

Sora不仅彰显了技术创新的革命性意义，更预示了人工智能在多个领域加速替代人类劳动的趋势。这一趋势并非偶然，而是人工智能发展的必然结果。回顾人类历史长河中的每一次科技革命，我们不难发现，它们都为生产力的飞跃注入了新的活力，深刻改变了人类的生活。人工智能作为当下科技革命的重要方向，正以前所未有的方式重塑世界。

人工智能的发展轨迹清晰展现了其学习、模仿并超越人类极限的特质。从最初的简单计算到如今的深度学习，人工智能的能力已得到了显著提升，不仅在速度和效率上能够与人类劳动者相媲美，更在复杂问题的处理及创新思维上展现出独特优势。

随着技术的不断进步，人工智能将在更多领域发挥着重要作用。例如，在制造业，智能机器人已经能够完成许多烦琐、重复的工作，大幅提高生产效率；在医疗领域，人工智能可以帮助医生进行疾病诊断和治疗方案的制定，提高医疗质量和效率；在金融领域，人工智能可以通过大数据分析和机器学习技术，为投资者提供更加精准的投资建议。而这些，仅仅是人工智能在各个领域应用的冰山一角，随着技术的不断进步，人工智能的应用范围将以指数级增长。

此外，人工智能的广泛应用将对社会的伦理、法律和安全等方面提出新的挑战。例如，如何确保人工智能的决策公正、透明？如何防范人工智能可能带来的安全风险？这些新问题需要我们以新的角度，甚至是“上帝”视角，来进行深入研究和探讨，并制定相应的法律法规和政策来加以规范。

当然，所有的挑战都是发展中的必然。因而，面对这些挑战，我们无须过度焦虑，而应积极思考如何更好地驾驭这种新的力量。具体而言，我们应该积极拥抱和利用人工智能，为其广泛应用创造有利的社会环境。在人工智能时代，如何运用人工智能改造世界将成为各区域和各国之间竞争的关键，成为影响经济发展和竞争的重要因素。因此，我们必须提前进行相应的调整和变革，以适应这一全新的时代。

总的来说，在科技飞速发展的今天，Sora无疑是一次革命性的突破。面对这一技术革命，我们不能盲目乐观或过于悲观，而应该保持理性和开放的态度，既要看到Sora带来的机遇，也要看到它带来的挑战。

Sora本身也在发展中，它所带来的不仅仅是一种新的技术工具或平台，更是一次深层次的产业乃至全社会的变革。这一变革的意义不仅仅局限在科技发展和创新领域，而是可能会对整个社会的运行方式和人类的生活产生深远的影响。而今天的我们，正站在人类发展的十字路口。

第1章 Sora：引领视频大模型新纪元