Sora：读懂人工智能新纪元最新章节_陈根著

1.2　从ChatGPT到Sora的大模型技术路线

文能写诗、武能编码，上知天文、下知地理，ChatGPT在多个方面的能力都远超人们的预期。聪明又强大的背后，离不开技术的支撑，那么，支撑ChatGPT及Sora的技术，与过往相比，有什么特殊之处？

1.2.1　ChatGPT是如何炼成的

强悍的功能背后，技术并不神秘。本质上，ChatGPT是一个出色的NLP新模型。说到NLP，大多数人先想到的是Alexa和Siri这样的语音助手，因为NLP的基础功能就是让机器理解人类的输入，但这只是技术的冰山一角。NLP是人工智能和机器学习的子集，专注于让计算机处理和理解人类语言。虽然语音是语言处理的一部分，但NLP更重要的进步在于它对书面文本的分析能力。

ChatGPT是一种基于叫做Transformer的变换器模型的预训练语言模型。它通过庞大的文本语料库进行训练，学习自然语言的知识和语法规则。在被人们询问时，它通过对询问的分析和理解生成回答。Transformer模型提供了一种并行计算的方法，使得ChatGPT能够快速生成回答。

Transformer模型又是什么呢？这就需要从NLP的技术发展历程来看，在Transformer模型出现以前，NLP领域的主流模型是循环神经网络（Recurrent Neural Network，RNN），再加入注意力机制（Attention）。循环神经网络的优点是，能更好地处理有先后顺序的数据，如语言。注意力机制就是将人的感知方式、注意力的行为应用在机器上，让机器学会去感知数据中重要的和不重要的部分。比如，当人工智能产品识别一张动物图片时，最应关注的是图片中动物的面部特征，包括耳朵、眼睛、鼻子、嘴巴，而无须过于关注背景信息。可以说，注意力机制让人工智能拥有了理解的能力。

但是，“RNN+Attention”模式会使整个模型的处理速度非常慢，因为RNN是逐词处理的，并且，在处理较长序列，如长文章、书籍时，存在模型不稳定或者模型过早停止有效训练的问题。

于是，2017年，谷歌大脑团队在神经信息处理系统大会上发表了一篇名为 Attention is All You Need （《自我注意力是你所需要的全部》）的论文，表示“不要RNN，而要Attention”。该论文首次提出了基于自我注意力机制（Self-attention）的（Transformer）模型，并首次将其用于NLP。相较于此前的RNN模型，2017年提出的Transformer模型能够同时进行数据计算和模型训练，训练时长更短，并且训练得出的模型可用语法解释，也就是模型具有可解释性。

这个最初的Transformer模型一共有6500万个可调参数。谷歌大脑团队使用了多种公开的语言数据集来训练这个最初的Transformer模型。这些语言数据集包括2014年英语——德语机器翻译研讨班数据集（有450万组英德对应句组），2014年英语——法语机器翻译研讨班数据集（有3600万组英法对应句组），以及宾夕法尼亚大学树库语言数据集中的部分句组（分别取了库中来自《华尔街日报》的4万个句子，以及另外的1700万个句子）。而且，谷歌大脑团队在文中提供了模型的架构，任何人都可以用其搭建类似架构的模型，并结合自己拥有的数据进行训练。

经过训练后，这个最初的Transformer模型在翻译准确度、英语句子分析等各项评分上都达到了业内第一，成为当时最先进的大语言模型。ChatGPT使用了Transformer模型的技术和思想，并在其基础上进行扩展和改进，以更好地适用于语言生成任务。

1.2.2　大模型技术路线的胜利

正是基于Transformer模型，ChatGPT才有了今天的成功，而ChatGPT的成功，也是大模型技术路线的胜利。

这个只有注意力机制的Transformer模型不再是逐词处理，而是逐序列处理，并且可以并行计算，所以计算速度大大加快，使训练大模型、超大模型、超巨大模型成为可能。

于是，OpenAI公司开发了GPT-1，在当时是前所未有的大语言模型，有1.17亿个参数。其开发目标只有一个，就是预测下一个单词。如果说过去只是遮住句子中的一个词，让AI根据上下文“猜出”那个词，进行完形填空，那么GPT要做的，就是“猜出”后续的词，甚至形成一篇通顺的文章。

事实证明，基于Transformer模型和庞大的数据集，GPT做到了。OpenAI使用了经典的大型书籍文本数据集进行模型预训练。该数据集包含超过7000本从未出版的书，涵盖冒险、奇幻等类别。在预训练之后，OpenAI针对问答、文本相似性评估、语义蕴含判定及文本分类这4种语言场景，使用不同的特定数据集对模型进一步训练。最终形成的模型在这4种语言场景下都取得了比基础Transformer模型更优的结果，成为新的业内第一。

2019年，OpenAI公布了一个具有15亿个参数的模型：GPT-2。该模型架构与GPT-1原理相同，主要区别是GPT-2的规模更大。不出意料，GPT-2模型刷新了大语言模型在多项语言场景中的评分纪录。

而GPT-3的整个神经网络更是达到了惊人的1750亿个参数。除规模大了整整两个数量级外，GPT-3与GPT-2在模型架构上没有本质区别。不过，就是在如此庞大的数据训练下，GPT-3模型已经可以根据简单的提示自动生成完整的、文从字顺的长文章，让人几乎不能相信这是机器的作品。GPT-3还会写程序代码、创作菜谱等几乎所有的文本创作类任务。

特别值得一提的是，在GPT诞生的同期，还有一种火爆的语言模型，即BERT。BERT是谷歌基于Transformer所做的一种双向的语言模型，通过预测屏蔽子词进行训练——先将句子中的部分子词屏蔽，再令模型去预测被屏蔽的子词，这种训练方式在语句级的语义分析中取得了极好的效果。BERT模型还使用了一种特别的训练方式——先预训练，再微调，这种方式可以使一个模型适用于多个应用场景。这使得BERT刷新了11项NLP任务处理的纪录，引发了众多AI研究者的跟随。

面对BERT的火爆，OpenAI依然坚持做生成式模型，而不是去做理解，于是就有了后来的GPT-3和今天的ChatGPT。

从GPT-1到GPT-3，OpenAI用了两年多时间，证明了大模型的可行性，参数规模从1.17亿飙升至1750亿，也似乎证明了参数越多，人工智能的能力越强。因此，在GPT-3成功后，包括谷歌在内的公司竞相追逐大模型，参数量高达惊人的万亿甚至十万亿规模，掀起了一场参数竞赛。

但这个时候，反而是GPT系列的开发者们冷静了下来，没有再推高参数量，而是又用了近两年时间，花费重金，用人工标注大量数据，将人类反馈和强化学习引入大模型，让GPT系列能够按照人类价值观优化数据和参数。

这也让我们看到一点，那就是ChatGPT的突破可以说是偶然的，同时也是必然的。偶然性在于ChatGPT的研发团队并没有预料到自己要研究的技术方向，在经历多次的参数调整与优化之后，模型取得了类人的语言逻辑能力。因此这种偶然性就如同技术的奇点与临界点被突破一样。必然性在于ChatGPT团队在自己所选择的基于NLP神经网络的技术方向上持续地深入与优化，每一次的参数优化都是几何倍数级的，这种量变的积累必然会带来质变的飞跃。

1.2.3　Sora=扩散模型+Transformer模型

对于Sora的工作原理，OpenAI发布了相关的技术报告，标题为《作为世界模拟器的视频生成模型》。可见，OpenAI对于Sora的定位是世界模拟器，也就是为真实世界建模，模拟现实生活中的各种物理状态，而不仅仅是一个简单的文生视频工具。也就是说，Sora模型的本质，是通过生成虚拟视频来模拟现实世界中的各种情境、场景和事件。

技术报告中提到，研究人员在大量的不同持续时间、分辨率和纵横比的视频和图像上联合训练了以文本为输入条件的扩散模型，同时，引入了Transformer模型，该模型对视频的时空序列包和图像潜在编码进行操作。研究结果表明，通过扩大视频生成模型的规模，有望构建出能够模拟物理世界的通用模拟器，这无疑是一条极具前景的发展道路。

简单而言，Sora就是一个基于扩散模型，再加上Transformer模型的视觉大模型——这也是Sora的创新所在。

事实上，过去十年，图像和视频生成领域有了巨大发展，涌现出了多种不同架构的生成方法，其中，生成式对抗网络（Generative Adversarial Network，GAN）、StyleNet框架路线、Diffusion模型（扩散模型）路线以及Transformer模型路线是最突出的4条技术路线。

GAN由两个部分组成：生成器和判别器。生成器的作用是创造出看起来像真实图片的图像，而判别器的作用是区分真实图片和生成器产生的图片。这两者进行竞争，最终生成器能够产生越来越逼真的图片。虽然GAN生成图像的拟真性很强，但是其生成结果的丰富性略有不足，即对于给定的条件和先验，它生成的内容通常十分相似。

StyleNet的框架路线是基于深度学习的方法，使用神经网络架构来学习键入语言和图像或视频特征间关系。通过学习样式和内容的分离，StyleNet能够将不同风格的图像或视频内容进行转换，实现风格迁移、图像/视频风格化等任务。

Diffusion模型（扩散模型）路线则是通过添加噪声并学习去噪过程来生成数据的。连续添加高斯噪声来破坏训练数据，然后通过学习反转的去噪过程来恢复数据，扩散模型就能够生成高质量、多样化的数据样本。举个例子，假如我们现在有一张小狗的照片，可以一步步给这张照片增加噪点，让它变得越来越模糊，最终会变成一堆杂乱的噪点。假如把这个过程倒过来，对于一堆杂乱无章的噪点，我们同样可以一步步将它们去除，把其还原成目标图片，扩散模型的关键就是学会逆向去除噪点。扩散模型不仅可以用来生成图片，还可以用来生成视频。比如，扩散模型可以用于视频生成、视频去噪等任务，通过学习数据分布的方式生成逼真的视频内容，提高生成模型的稳定性。

Transformer模型我们已经很熟悉了，其是一种能够理解序列数据的神经网络架构，通过自我注意力机制来分析序列数据中的关系。在视频领域，Transformer模型可以用于视频内容的理解、生成和编辑等任务，通过对视频帧序列进行建模和处理，实现视频内容的理解和生成。相比传统的循环神经网络，Transformer模型在长序列建模和并行计算方面具有优势，能够更好地处理视频数据中的长期依赖关系，提升生成视频的质量和效率。

Sora采用的其实就是Diffusion模型（扩散模型）和Transformer模型的结合——Diffusion Transformer模型，即DiT。

基于Diffusion和Transformer结合的创新，Sora首先将不同类型的视觉数据转换成统一的视觉数据表示（视觉块），然后将原始视频压缩到一个低维潜在空间，并将视觉表示分解成时空块（相当于Transformer Token），让Sora在这个潜在空间里进行训练并生成视频。接着做加噪去噪，输入噪声视觉块后，Sora通过预测原始“干净”的视觉块来生成视频。

OpenAI发现，训练计算量越大，样本质量就会越高，特别是经过大规模训练后，Sora展现出模拟现实世界某些属性的“涌现”能力。这也是为什么OpenAI把视频生成模型称作“世界模拟器”，并总结说持续扩展视频模型是一条模拟物理和数字世界的希望之路。

1.2 从ChatGPT到Sora的大模型技术路线

1.2.1 ChatGPT是如何炼成的

1.2.2 大模型技术路线的胜利

1.2.3 Sora=扩散模型+Transformer模型

1.2　从ChatGPT到Sora的大模型技术路线

1.2.1　ChatGPT是如何炼成的

1.2.2　大模型技术路线的胜利

1.2.3　Sora=扩散模型+Transformer模型