人工智能Sora：机遇·问题·未来最新章节_陈根著

1.2　从ChatGPT到Sora

从ChatGPT到GPT-4，再到Sora，今天，人工智能早已不再是只会对输入数据进行简单处理的“智障”，而是开始具备了自主学习和推理能力，能够更深入地理解语境、情感以及逻辑关系，从而为人类带来更为精准、智能的辅助和决策支持。从跨越机器逻辑的边界，到模拟并延展人类思维的维度，从被动响应走向主动理解，技术进化的新纪元已然开启。

1.2.1　属于ChatGPT的一年

2023年是属于ChatGPT的一年。作为人工智能的里程碑，ChatGPT诞生的意义不亚于蒸汽机的发明，就像人类第一次登陆月球一样，ChatGPT不仅仅是人工智能发展史的一步，更是人类科技进步的一大步。因为ChatGPT的出现让人工智能从之前的人工“智障”，走向了真正类人的人工智能，也让人类看到了基于硅基训练智能体的这个设想是可行的，是可以被实现的。

在ChatGPT之前，人工智能还是停留在属于自己机器语言逻辑的世界里，并没有掌握与理解人类的语言逻辑习惯。因此，市场上的人工智能在很大程度上还只能做一些数据的统计与分析，包括一些具有规则性的读听写工作，所擅长的工作就是将事物按不同的类别进行分类，与理解真实世界的能力之间，还不具备逻辑性、思考性。因为人体的神经控制系统是一个非常奇妙的系统，是在人类几万年训练下所形成的，可以说，在ChatGPT这种生成式语言大模型出现之前，我们所有的人工智能技术，从本质上来说还不是智能，只是基于深度学习与视觉识别的一些大数据检索而已。但ChatGPT却为人工智能的应用和发展打开了新的想象空间。

作为一种大型预训练语言模型，ChatGPT的出现标志着自然语言处理技术迈上了新台阶，标志着人工智能的理解能力、语言组织能力、持续学习能力更强，也标志着AIGC在语言领域取得了新进展，生成内容的范围、有效性、准确度大幅提升。

ChatGPT整合了人类反馈强化学习和人工监督微调，因此具备了对上下文的理解和连贯性。在对话中，它可以主动记忆先前的对话内容，即上下文理解，从而更好地回应假设性的问题，实现连贯对话，提升我们和机器交互的体验。简单来说，就是ChatGPT具备了类人语言逻辑的能力，这种特性让ChatGPT能够在各种场景中发挥作用——这也是ChatGPT为人工智能领域带来的最核心的进化。

那么，为什么说具备类人的语言逻辑能力、拥有对话理解能力是ChatGPT为人工智能带来的最核心、最重要的进化？因为语言理解不仅能让人工智能帮助我们完成日常的任务，还能帮助人类去直面科研的挑战，比如对大量的科学文献进行提炼汇总，以人类的语言方式，凭借其强大的数据库与人类展开沟通交流。并且基于人类视角的语言沟通方式，就可以让人类接纳与认可机器的类人智能化能力。

尤其是人类进入如今的大数据时代，在一个科技大爆炸时代，无论是谁，仅凭自己的力量，都不可能紧跟科学界的发展速度。如今在地球上一天产生的信息量，就等同于人类有文明记载以来至21世纪的所有知识总量，我们在这个信息大爆炸时代，凭借自身的大脑已经无法应对、处理、消化海量的数据，人类急需一种新的解决方案。

比如，在医学领域，每天都有数千篇论文发表。哪怕是在自己的专科领域内，目前也没有哪位医生或研究人员能将这些论文都读一个遍。但是如果不阅读这些论文，不阅读这些最新的研究成果，医生就无法将最新理论应用于实践，就会导致临床所使用的治疗方法陈旧。在临床中，一些新的治疗手段无法得到应用，有时正是因为医生没时间去阅读相关内容，根本不知道有新手段的存在。如果有一个能对大量医学文献进行自动合成的人工智能，就会掀起一场真正的革命。

ChatGPT就是以人类设想中的智能模样出现了。可以说，ChatGPT之所以被认为具有颠覆性，其中最核心的原因就在于其具备了理解人类语言的能力，这在过去我们是无法想象的。我们几乎想象不到有一天基于硅基的智能能够真正被训练成功，不仅能够理解我们人类的语言，还可以以人类的语言表达方式与人类开展交流。

1.2.2　更强大的GPT版本

ChatGPT开启了人工智能发展的新时代，当然，ChatGPT的开发者们不会止步于此——ChatGPT走火后，所有人都在讨论，人工智能下一步会往哪个方向发展。人们并没有等太久，在ChatGPT发布三个月后，OpenAI就正式推出了新品GPT-4。其中，图像识别、高级推理、庞大的单词掌握能力，是GPT-4的三大特点。

就图像识别功能来说，GPT-4可以分析图像并提供相关信息，必然它可以根据食材照片来推荐食谱，为图片生成图像描述和图注等。

就高级推理功能来说，GPT-4能够针对3个人的不同情况做出一个会议的时间安排，回答存在上下文关联性的复杂问题。再如，你问：剪断图片里的绳子会发生什么。它答：气球会飞走。GPT-4甚至可以讲出一些质量一般、模式化的冷笑话。尽管并不好笑，但至少它已经开始理解“幽默”这一人类特质，要知道，AI的推理能力正是AI向人类思维慢慢进化的标志。

就词汇量来说，GPT-4能够处理2.5万个单词，GPT-4在单词处理能力上是ChatGPT的8倍，并可以用所有流行的编程语言写代码。

其实，在随意谈话中，ChatGPT和GPT-4之间的区别是很微妙的。但在任务的复杂性达到足够的阈值时，差异就出现了：GPT-4比ChatGPT更可靠、更有创意，并且能够处理更细微的指令。

GPT-4还能以高分通过各种标准化考试：GPT-4在模拟律师考试中的成绩超过90%的人类考生，在俗称“美国高考”的SAT阅读考试中超过93%的人类考生，在SAT数学考试中超过89%的人类考生。

同样面对律师资格考试，ChatGPT背后的GPT-3.5排名在倒数10%左右，而GPT-4考到了前10%左右。在OpenAI的演示中，GPT-4还生成了关于复杂税务查询的答案，尽管人们无法对其进行验证。在美国，每个州的律师考试都不一样，但一般都包括选择题和作文两部分，涉及合同、刑法、家庭法等知识。GPT-4参加的律师考试，对于人类来说既艰苦又漫长，而GPT-4却能在专业律师考试中脱颖而出。

此外，2023年11月7日，在OpenAI首届开发者大会上，山姆·奥特曼（Sam Altman）还宣布了GPT-4的大升级，推出了GPT-4 Turbo, GPT-4 Turbo的“更强大”体现在六个方面，包括：上下文长度提升、模型控制、更优质的知识、新的多模态能力、模型自定义能力及更低的价格、更高的使用上限。

其中，对于一般用户体验来讲，上下文长度的增加、更好的知识和新的多模态能力是最核心的体验改善。特别是上下文长度升级，这在过往是GPT-4的一个软肋。它会决定与模型对话过程中能接收和记住的文本长度。如果上下文长度限制较小，面对比较长的文本或长期的对话，模型就会经常“忘记”最近对话的内容，并开始偏离主题。GPT-4基础版本仅提供了8k token（字符）的上下文记忆能力，即便是OpenAI提供的GPT-4扩容版本也仅仅能达到32k token，相比于主要竞品Anthropic旗下Claude 2提供100k token的能力差距明显。这使GPT4在做文章总结等需要长文本输入的操作时常常力不从心。而GPT-4 Turbo直接将上下文长度提升至128k，是GPT-4扩容版本的4倍，一举超过了竞争对手Anthropic的100k上下文长度。128k的上下文大概是什么概念？约等于300页标准大小的书所涵盖的文字量。除了能够容纳更长的上下文外，奥特曼还表示，新模型还能够在更长的上下文中，更能保持连贯和准确。

就模型控制而言，GPT-4 Turbo为开发者提供了几项更强的控制手段，以更好地进行API和函数调用。具体来看，新模型提供了一个JSON Mode，可以保证模型以特定JSON方式提供回答，调用API时也更加方便。另外，新模型还允许同时调用多个函数，同时引入了seed parameter，在需要的时候，可以确保模型能够返回固定输出。

从知识更新来看，GPT-4 Turbo把知识库更新到了2023年4月，不再让用户停留在2年前了。最初版本的GPT-4的网络实时信息调用只能到2021年9月。虽然随着后续插件的开放，GPT-4也可以获得最新发生的事件知识。但相较于融合在模型训练里的知识而言，这类附加信息因为调用插件耗时久，缺乏内生相关知识的效果并不理想。而现在，人们已经可以从GPT-4上获得截止到2023年4月的新信息。

GPT-4 Turbo还具备了更强的多模态能力，新模型支持了OpenAI的视觉模型DALL·E 3，还支持了新的文本到语音模型——开发者可以从六种预设声音中选择所需的声音。现在，GPT-4 Turbo可以以图生图了。同时，在图像问题上，OpenAI推出了防止滥用的安全系统。OpenAI还表示，它将为所有客户提供牵涉的版权问题的法律费用。在语音系统中，OpenAI表示，目前的语音模型远超市场上的同类，并发布了开源语音识别模型Whisper V3。

1.2.3　Sora的真正价值

根据OpenAI官网描述，相较于ChatGPT, GPT-4最大的进化在于：“多模态”和长内容生成。其中的关键，就是“多模态”。

使用过ChatGPT的人们会发现，它的输入类型是纯文本，输出则是语言文本和代码。而GPT-4的“多模态”，意味着用户可以输入不同类型的信息，例如视频、声音、图像和文本。同样地，具备多模态能力的GPT-4可以根据用户提供的信息，来生成视频、音频、图片和文本。哪怕同时将文本和图片发给GPT-4，它也能根据这两种不同类型的信息生出文本。

事实上，这些功能的测试与完善，都是OpenAI在为文生视频功能做准备，也就是在为Sora的推出做准备。也正是因为这些准备，我们才在2024年初看到强大的Sora诞生。

Sora标志着AIGC在内容创造领域的一个重要进步。除了多模态的能力，Sora更重要的突破，则在于其是一个物理世界的模拟器。什么意思呢？就是它能够理解用户的需求，并且还能够理解这种需求在物理世界中的存在方式。简单来说，Sora通过学习视频，来理解现实世界的动态变化，并用计算机视觉技术模拟这些变化，从而创造出新的视觉内容。也就是说，Sora学习的不仅仅是视频，也不仅仅是视频里的画面、像素点，还在学习视频里面这个世界的“物理规律”。

ChatGPT不仅仅是一个聊天机器人，其带来最核心的进化，是让AI拥有了类人的语言逻辑能力。就像ChatGPT一样，Sora最终想做的，也不仅仅是一个“文生视频”的工具，而是一个通用的“现实物理世界模拟器”。也就是世界模型，为真实世界建模。这也是Sora真正的价值和进化所在。刘慈欣在短篇科幻小说《镜子》里面就描绘了一个可以镜像现实世界的“镜子”。Sora就好像是这个构建世界模型的“镜子”。

Sora的视频生成能力再加上为真实世界建模的能力，其实核心很简单：就是基于真实世界物理规律的视频可视化。所谓可视化，其实就是将复杂的文字或数据通过图像化的方式，转变为人们易于感知的图形、符号、颜色、纹理等，以增强文字或数据的识别效率，清晰、明确地向人们传递有效信息。

要知道，在人类的进化过程中，人脑感知能力的发展经历了数百万年，而语言系统则发展未超过15万年。可以说，人脑处理图像的能力要远远高于处理文字语言的能力，也就是说，面对图像，人脑能够比面对文字更快地处理和加工。这一点，在早期的象形文字上就有非常好的印证，当前短视频成为资讯的主流方式也说明人类对于图像有本能的偏好。

究其原因，人类对语言的理解，离不开自己的内部经验。而视觉，则是一种人类感知世界、建立经验的“直接机制”。人类通过视觉看到东西，就能够迅速进行解析和判断、并留下深刻的印象。也就是说通过视觉，人类可以直接建立“经验”。

研究也表明，人体五官获取信息量的比例是视觉87%、听觉7%、触觉3%、嗅觉2%、味觉1%。也就是说，人类的主要信息获取方式是视觉，我们的大脑更擅长处理视觉信息。举个例子，一篇是由文字与字符所构成的数据分析文章，而另外一篇则是把这一堆表格用二维，或者更高阶的三维可视化呈现时，我们会更偏向于哪一种表达与阅读方式呢？我想这个答案显而易见，大部分人会偏向于选择更直观的三维表现方式，或者是二维的图像表现方式，最不受欢迎的则是基于文字与字符表现的文章方式。

从信息加工的角度来看，大量的信息必将消耗我们的注意力，需要我们有效地分配精力。而可视化则能辅助我们处理信息，不仅更加直观，并且可以将数据背后的变化以图像的形式直观的表现出来，让我们透过图像就能一目了然地了解数据背后的关联、变化、趋势，从而在有限的记忆空间中尽量存储信息，提升认知信息的效率。

基于此，特别是在今天信息大爆炸的时代，可视化的表达就显得极为重要。可视化利用图像进行沟通，可以将人脑快速处理图形的特点最大化地发挥出来。这也是Sora的价值所在，我们只要给Sora一个指令，Sora就能够基于现实世界的物理规律将我们想要表达的以视频的方式可视化。因此可以说，哪里需要视频可视化，哪里就需要Sora。

1.2.4　Sora在为GPT-5做准备

就像ChatGPT和GPT-4为Sora做的准备一样，Sora的发布，其实也是为GPT-5来做准备。

自从GPT-4发布后，关于下一代更先进的GPT模型，也就是GPT-5，OpenAI联合创始人兼首席执行官山姆·奥特曼（Sam Altman）对外一直闭口不言。

2023年6月，奥特曼曾表示，GPT-5距离准备好训练还有很长的路要走，还有很多工作要做。他补充到，OpenAI正在研究新的想法，但他们还没有准备好开始研究GPT-5。就连微软创始人比尔·盖茨也预计，GPT-5不会提供比GPT-4重大的性能改进。

然而，到了9月，DeepMind联合创始人、现Inflection AI的首席执行官穆斯塔法·苏莱曼（Mustafa Suleyman），在接受采访时却放出一枚重磅炸弹——据他猜测，OpenAI正在秘密训练GPT-5。苏莱曼认为，奥特曼说他们没有训练GPT-5，可能没有说实话。同月，外媒The Information爆料，一款名为Gobi的全新多模态大模型已经在紧锣密鼓地筹备了。跟GPT-4不同，Gobi从一开始就是按多模态模型构建的。这样看来，Gobi模型不管是不是GPT-5，从多方泄露的信息来看，它都是OpenAI团队正在着手研究的项目之一。

同年11月，在某社交媒体平台上，罗米尔（Roemmele）再爆猛料，OpenAI Gobi，也就是GPT-5多模态模型将在2024年初震撼发布。

根据罗米尔的说法，目前Gobi正在一个庞大的数据集上进行训练。不仅支持文本、图像，还将支持视频。有网友在这条推文下评论，“OpenAI内部员工称下一代模型已经实现了真的AGI，你听说过这件事吗？”罗米尔称，“GPT-5已经会自我纠正，并且具有一定程度的自我意识。我认识的熟人已经看过它的演示，目前，7个政府机构正在测试最新模型。”

12月底，奥特曼在社交平台公布了OpenAI在2024年要实现的计划：包括GPT-5，更好的语音模型、视频模型、推理能力和更高的费率限制等。此外还包括更好的GPTs、对唤醒行为程度的控制、个性化、更好地浏览、开源等等。奥特曼在采访中还表示，GPT-5的智能提升将带来全新的可能性，超越我们之前的想象。GPT-5不仅仅是一次性能的提升，更是新生能力的涌现。

尽管目前GPT-5还没有正式发布，但可以确定的是，GPT-5将会成为比GPT-4更强大的存在，并且我们已经看到了Sora。可以说，Sora就是GPT-5的一个缩影，只是OpenAI对GPT-5采取了更加慎重的态度。Sora的出现，引发了人们对GPT-5的遐想，不难预测，未来，GPT-5或将获得更大的处理各种形式数据的能力，比如音频、视频等，使其在各种工作领域更加有用，而不仅限于作为一个聊天机器人或AI图像生成器。

1.2 从ChatGPT到Sora

1.2.1 属于ChatGPT的一年

1.2.2 更强大的GPT版本

1.2.3 Sora的真正价值

1.2.4 Sora在为GPT-5做准备

1.2　从ChatGPT到Sora

1.2.1　属于ChatGPT的一年

1.2.2　更强大的GPT版本

1.2.3　Sora的真正价值

1.2.4　Sora在为GPT-5做准备