Sora：读懂人工智能新纪元最新章节_陈根著

2.1　ChatGPT的进阶之路

ChatGPT只是通用AI时代的一个起点，显然，ChatGPT的开发者们不会止步于此——ChatGPT爆火后，所有人都在讨论，人工智能下一步会往哪个方向发展。人们并没有等太久，在ChatGPT发布三个月后，OpenAI推出新品GPT-4，再次点燃了人们对人工智能的想象。

2.1.1　更强大的GPT版本

实际上，在大多数人都惊叹于ChatGPT强悍的能力时，却鲜有人知道，ChatGPT其实只是OpenAI匆忙推出的测试品。

据美国媒体报道，2022年11月中旬，OpenAI员工被要求快速上线一款被称为“Chat with GPT-3.5”的聊天工具，时限为两周后免费向公众开放。这与原本的安排不符。此前两年间，OpenAI一直在开发名为“GPT-4”的更强大的语言模型，并计划于2023年发布。2022年，GPT-4一直在进行内部测试和微调，做上线前的准备。但OpenAI的高管改变了主意。

由于担心竞争对手可能会在GPT-4发布之前，抢先发布自己的AI聊天工具，因此，OpenAI拿出了于2020年推出的旧语言模型GPT-3的强化版本GPT-3.5，并在此基础上进行了微调，促成了ChatGPT的诞生。

需要承认的是，虽然ChatGPT已经让我们窥见了通用AI的雏形，但依然面对许多客观的问题，如在一些专业领域，ChatGPT的应用还会出现一些低级错误。当然，这种情况是必然存在的，毕竟ChatGPT开放给公众的时间比较短，接受训练的领域与知识库相对有限，尤其是在有关数学、物理、医学等专业并带有一些公式与运算的方面。

于是，在发布了ChatGPT的三个月后，2023年3月15日，OpenAI正式推出了GPT-4。与ChatGPT的匆忙发布不同，GPT-4的推出是有所准备的。根据内部的消息，GPT-4早在2022年8月就训练完成了，之所以在半年后——2023年3月才面市，是因为OpenAI需要花6个月时间，让它变得更安全。图像识别、高级推理、单词掌握，是GPT-4的三项显著能力。

就图像识别功能来说，GPT-4可以分析图像并提供相关信息。例如，它可以根据食材照片来推荐食谱，为图像生成描述和图注等。

就高级推理功能来说，GPT-4能够针对3个人的不同情况做出一个会议的时间安排，回答存在上下文关联性的复杂问题。GPT-4甚至可以讲出一些质量一般、模式化的冷笑话。虽然并不好笑，但至少它已经开始理解“幽默”这一人类特质，要知道，AI的推理能力正是AI向人类思维逐渐进化的标志。

就单词掌握功能来说，GPT-4能够处理2.5万个单词，单词处理能力是ChatGPT的8倍，并可以用所有流行的编程语言写代码。

其实，在聊天过程中，ChatGPT与GPT-4的区别是很微妙的。当任务的复杂性达到足够的阈值时，差异就出现了，GPT-4比ChatGPT更可靠、更有创意，并且能够处理更细微的指令。

并且，GPT-4还能以高分通过各种标准化考试：GPT-4在模拟美国多州律师资格考试中取得的成绩超过90%的人类考生，在俗称“美国高考”的SAT阅读考试中的成绩排名超过93%的人类考生，在SAT数学考试中的成绩排名超过89%的人类考生。

美国多州律师资格考试一般包括选择题和作文两部分，涉及合同法、刑法、家庭法等，相比GPT-4排在前10%左右的成绩，GPT-3.5的成绩排名在倒数10%左右。在OpenAI的演示中，GPT-4还生成了关于复杂税务查询的答案，尽管无法验证。

2023年11月7日，在OpenAI首届开发者大会上，首席执行官山姆·阿尔特曼宣布了GPT-4的一次大升级，推出了GPT-4 Turbo。GPT-4 Turbo的“更强大”体现为它的六项升级：上下文长度的增加，模型控制，更新的知识，更强的多模态能力，模型自定义能力及更低的价格，更高的使用上限。

对于一般用户体验来讲，上下文长度的增加、更新的知识和更强的多模态能力是核心的改善。特别是上下文长度的增加，这在过往是GPT-4的一个软肋，它决定了与模型对话的过程中能接收和记住的文本长度。如果上下文长度较短，面对比较长的文本或长期的对话，模型就经常会“忘记”最近对话的内容，并开始偏离主题。GPT-4基础版本仅提供了8K的上下文记忆能力，即便是OpenAI提供的GPT-4扩容版本也仅仅能达到32K上下文长度，相比于主要竞品Anthropic旗下的Claude 2提供的100K上下文长度的能力，差距明显。这使得GPT-4在做文章总结等需要长文本输入的操作时常常力不从心。而经过升级的GPT-4 Turbo直接将上下文长度提升至128K，是GPT-4扩容版本的4倍，一举超过了竞品Claude 2的100K上下文长度。128K的上下文长度大概是什么概念？约等于300页标准大小的书所涵盖的文字量。除能够容纳更长的上下文外，山姆·阿尔特曼表示，新模型还能够在更长的上下文中保持连贯和准确。

就模型控制而言，GPT-4 Turbo为产品开发者提供了几项更强的控制手段，以更好地进行API和函数调用。具体来看，新模型提供了一个开源库——JSON Mode，可以保证模型以特定方式提供回答，调用API更加方便。另外，新模型允许同时调用多个函数，并引入了种子参数，在需要的时候，确保模型能够返回固定输出。

从知识更新来看，GPT-4 Turbo把知识库更新到了2023年4月，而最初版本的GPT-4的网络实时信息调用只能到2021年9月。虽然随着后续插件的开放，GPT-4可以获得最新发生的事件知识，但相较于融合在模型训练里的知识，这类附加信息因为调用插件耗时久、缺乏内生相关知识，所以效果并不理想。

GPT-4 Turbo具备更强的多模态能力，支持OpenAI的视觉模型DALL-E 3，还支持新的文本到语音模型——产品开发者可以从六种预设声音中任意选择。现在，GPT-4 Turbo可以图生图了。同时，在图像问题上，OpenAI推出了防止滥用的安全系统。OpenAI还表示，它将为所有客户提供牵涉版权问题的法律费用。在语音系统中，OpenAI表示，目前的语音模型远超市场上的同类产品，并发布了开源语音识别模型Whisper V3。

GPT-4 Turbo还有一个重要的升级就是价格降低。OpenAI表示，GPT-4 Turbo对开发人员来说运行成本更低。与GPT-4的0.03美元相比，每1000个Token［LLM（Large Language Model，大语言模型）读取的基本文本或代码单位］的输入成本仅0.01美元。

2.1.2　ChatGPT与GPT-4的差异

除优于ChatGPT的性能外，GPT-4与ChatGPT还有什么不同呢？

OpenAI声称，他们花费了6个月的时间，让GPT-4比上一代更安全。该公司通过改进监控框架，并与医学、地缘政治等敏感领域的专家进行合作，以确保GPT-4所给答案的准确性和安全性。GPT-4的参数量更多，这意味着它比ChatGPT更接近人类的认知表现。

根据OpenAI官网描述，与ChatGPT相比，GPT-4最大的进化在于“多模态”。多模态，顾名思义，即不同类型数据的融合。使用过ChatGPT的人们会发现，它的输入类型是纯文本，输出的是语言文本和代码。而GPT-4的多模态能力，意味着用户可以输入不同类型的信息，如视频、声音、图像和文本。同样，具备多模态能力的GPT-4可以根据用户提供的信息生成视频、音频、图片和文本。哪怕同时将文本和图片发给GPT-4，它也能根据这两种不同类型的信息生出文本。

GPT-4模型的另一大重点是建立了一个可预测扩展的深度学习栈。因为对于GPT-4展开的大型训练，进行广泛的特定模型调整是不可行的。为了验证可扩展性，通过使用相同的方法训练的模型进行推断，研究人员准确地预测了GPT-4在内部代码库中的“最终损失”。

在具体应用上，ChatGPT已经具备了类人的语言能力、学习能力和通用AI的特性。尤其是ChatGPT开放给大众使用后，数以亿计的人次与ChatGPT进行互动，充实了庞大又宝贵的数据库。作为ChatGPT进一步训练和优化的更强大版本，GPT-4的高级推理技能可以为用户提供更准确、更详细的回答；鉴于GPT-4具备更强大的语言能力和图像识别能力，可以简化市场营销、新闻和社交媒体内容的创建过程；在教育领域，GPT-4可以通过生成内容，以及以类人的方式来回答问题，因此能在一定程度上帮助学生和教育工作者。

尽管GPT-4的功能已经更加强大，但它与早期的GPT模型具有相似的局限性：仍然不是完全可靠的，存在事实性“幻觉”并会出现推理错误。在使用语言模型输出时应格外小心，特别是在高风险上下文中，应使用符合特定用例需求的确切协议。不过，GPT-4相对于以前的模型有显著改善，在OpenAI的“内部对抗性真实性评估”得分方面，GPT-4比GPT-3.5高40%。

2.1.3　从GPT-4到GPT-4o

GPT-4是人工智能技术的一个重要节点，代表着人类朝着通用AI时代大步前进。一方面，当强大的GPT-4甚至GPT-4的下一代的推出，结合OpenAI将其技术打造成通用的底层AI技术开放给各行各业使用之后，GPT就能快速地掌握人类各个专业领域的知识，并进一步加速人工智能在各个领域的应用和发展。另一方面，借助各种国际科研期刊和科研资料，GPT-4可以为科学家提供更深入和全面的支持。通过分析前沿研究成果和趋势，GPT-4可以为科学家提供更准确和及时的分析、建议和模型。此外，结合文生视频的功能，也就是Sora的数字孪生级视频功能，GPT模型可以进行直观的科研模拟推演，帮助科学家预测实验结果及发现新的研究方向。这将大大提高科学研究的效率，推动科学的发展和进步。

在GPT-4之后发布的GPT-4o，则是一个真正的多模态大模型，这意味着它不仅能处理文本，还能理解和生成图片、视频和语音内容。这种“实时对音频、视频和文本进行推理”的能力，使得GPT-4o在应用场景上更加广泛和深入。

比如，在医疗领域，GPT-4o可以同时分析患者的语音描述、医学影像和文字医疗记录，提供更全面的诊断支持；在教育领域，GPT-4o可以结合视频教学内容和书面材料，为学生提供更丰富的学习体验。通过跨模态的数据处理和生成技术，GPT-4o有望为多个行业提供更深入的洞察力，推动决策过程的优化，最终实现更高效、更智能的行业运作模式。

GPT-4及GPT-4o的发展，不仅标志着AI技术在理论和应用层面的飞跃，也展示了AI将在未来社会中扮演越来越重要的角色。

2.1 ChatGPT的进阶之路

2.1.1 更强大的GPT版本

2.1.2 ChatGPT与GPT-4的差异

2.1.3 从GPT-4到GPT-4o

2.1　ChatGPT的进阶之路

2.1.1　更强大的GPT版本

2.1.2　ChatGPT与GPT-4的差异

2.1.3　从GPT-4到GPT-4o