ChatGPT商业应用实操手册（226集视频课+217种场景应用）最新章节_刘明昊著

1.5　ChatGPT更新变动

2024年5月14日凌晨1点，继“文生视频模型”Sora发布后就开始沉寂的OpenAI，在春季发布会上带来新惊喜。首席技术官Mira Murati介绍了多项与ChatGPT相关的最新变动，简要总结为GPT-4o的发布和免费使用，以及产品部分更新的UI设计。

1．发布最新GPT-4o多模态大模型

GPT-4o（o为omni的缩写，意为全能）代表了向更自然的人机交互迈进的重要一步。这个模型可以接收和处理包括文本、音频、图像和视频在内的多种输入形式，并且能够生成包括文本、音频和图像的多种输出。在响应音频输入时，GPT-4o能够在短至232ms、平均320ms内完成反应，这与人类在对话中的反应速度类似。在技术性能方面，它在处理英语文本和代码方面的能力与GPT-4 Turbo不相上下，而在处理非英语文本上则有显著提升。此外，相比之前的模型，GPT-4o在视觉和音频理解方面特别优秀，其API的响应速度更快，成本也减少了50%。这些特性使GPT-4o在实际应用中吸引力更强、效率更高。

在发布会的演示中，OpenAI员工与ChatGPT进行了快速、流畅的对话，ChatGPT用活泼、富有表现力的女性声音进行了回应。即使中途被打断，ChatGPT也能很快作出反应。在对话过程中，ChatGPT用各种情绪语气说话，有时反应就像是其本身的“情绪”。例如，当告诉它，一名OpenAI员工一直在谈论聊天机器人如何“有用且美妙”时，它友好地回应说：“请停下来，你让我感到尴尬。”

在OpenAI官网给出的模型文本能力评分中，GPT-4o在MMLU（常识问题）中的评分创下88.7%的新纪录，其他各方面也都占据领先地位，如图1-32所示。

图1-32　各模型文本评分对比

目前Plus用户可以在GPT模型选择列表中勾选GPT-4o进行使用，如图1-33所示。使用GPT-4o可以实时对音频、视觉和文本进行处理，在实用性上向前迈进了一大步。

图1-33　Plus用户的GPT模型选择列表

当然，从日常生活使用的角度来讲，如果没有大量语音视频的理解需求，不用过于执着如何选择GPT-4和GPT-4o。除了反应速度变快，用户很难准确地识别出GPT-4和GPT-4o的差别，具体使用对比如图1-34所示。

图1-34　GPT-4和GPT-4o使用对比

2．GPT-4o模型对ChatGPT的免费用户开放

OpenAI宣布，ChatGPT的免费用户也能使用最新发布的GPT-4o模型（更新前只能使用GPT-3.5）进行数据分析、图像分析、互联网搜索、访问应用商店等操作。这也意味着GPT应用商店将面对海量的新增用户。

当然，付费用户将会获得更高的消息数量限制（OpenAI说至少是5倍）。当免费用户用完消息数量后，ChatGPT将自动切换到GPT-3.5。另外，OpenAI将在未来1个月左右向Plus用户推出基于GPT-4o改进的语音体验，目前GPT-4o的API并不包含语音功能。

截至2024年5月15日，免费用户还不能使用除ChatGPT-3.5外的其他模型，免费用户的GPT模型选择列表如图1-35所示。

图1-35　免费用户的GPT模型选择列表

3．ChatGPT网页布局更新调整

页面左上角新增展开／收起工具栏的按钮，单击该按钮可以控制左侧深色列表部分的显示或隐藏，原页面左下角的个人信息头像转移到页面右上角，其单击功能不变，如图1-36所示。

图1-36　ChatGPT网页布局更新调整

1.5 ChatGPT更新变动

1．发布最新GPT-4o多模态大模型

2．GPT-4o模型对ChatGPT的免费用户开放

3．ChatGPT网页布局更新调整

1.5　ChatGPT更新变动