购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.5 ChatGPT更新变动

2024年5月14日凌晨1点,继“文生视频模型”Sora发布后就开始沉寂的OpenAI,在春季发布会上带来新惊喜。首席技术官Mira Murati介绍了多项与ChatGPT相关的最新变动,简要总结为GPT-4o的发布和免费使用,以及产品部分更新的UI设计。

1.发布最新GPT-4o多模态大模型

GPT-4o(o为omni的缩写,意为全能)代表了向更自然的人机交互迈进的重要一步。这个模型可以接收和处理包括文本、音频、图像和视频在内的多种输入形式,并且能够生成包括文本、音频和图像的多种输出。在响应音频输入时,GPT-4o能够在短至232ms、平均320ms内完成反应,这与人类在对话中的反应速度类似。在技术性能方面,它在处理英语文本和代码方面的能力与GPT-4 Turbo不相上下,而在处理非英语文本上则有显著提升。此外,相比之前的模型,GPT-4o在视觉和音频理解方面特别优秀,其API的响应速度更快,成本也减少了50%。这些特性使GPT-4o在实际应用中吸引力更强、效率更高。

在发布会的演示中,OpenAI员工与ChatGPT进行了快速、流畅的对话,ChatGPT用活泼、富有表现力的女性声音进行了回应。即使中途被打断,ChatGPT也能很快作出反应。在对话过程中,ChatGPT用各种情绪语气说话,有时反应就像是其本身的“情绪”。例如,当告诉它,一名OpenAI员工一直在谈论聊天机器人如何“有用且美妙”时,它友好地回应说:“请停下来,你让我感到尴尬。”

在OpenAI官网给出的模型文本能力评分中,GPT-4o在MMLU(常识问题)中的评分创下88.7%的新纪录,其他各方面也都占据领先地位,如图1-32所示。

图1-32 各模型文本评分对比

目前Plus用户可以在GPT模型选择列表中勾选GPT-4o进行使用,如图1-33所示。使用GPT-4o可以实时对音频、视觉和文本进行处理,在实用性上向前迈进了一大步。

图1-33 Plus用户的GPT模型选择列表

当然,从日常生活使用的角度来讲,如果没有大量语音视频的理解需求,不用过于执着如何选择GPT-4和GPT-4o。除了反应速度变快,用户很难准确地识别出GPT-4和GPT-4o的差别,具体使用对比如图1-34所示。

图1-34 GPT-4和GPT-4o使用对比

2.GPT-4o模型对ChatGPT的免费用户开放

OpenAI宣布,ChatGPT的免费用户也能使用最新发布的GPT-4o模型(更新前只能使用GPT-3.5)进行数据分析、图像分析、互联网搜索、访问应用商店等操作。这也意味着GPT应用商店将面对海量的新增用户。

当然,付费用户将会获得更高的消息数量限制(OpenAI说至少是5倍)。当免费用户用完消息数量后,ChatGPT将自动切换到GPT-3.5。另外,OpenAI将在未来1个月左右向Plus用户推出基于GPT-4o改进的语音体验,目前GPT-4o的API并不包含语音功能。

截至2024年5月15日,免费用户还不能使用除ChatGPT-3.5外的其他模型,免费用户的GPT模型选择列表如图1-35所示。

图1-35 免费用户的GPT模型选择列表

3.ChatGPT网页布局更新调整

页面左上角新增展开/收起工具栏的按钮,单击该按钮可以控制左侧深色列表部分的显示或隐藏,原页面左下角的个人信息头像转移到页面右上角,其单击功能不变,如图1-36所示。

图1-36 ChatGPT网页布局更新调整 06YWSDdUWRk1IEHN8bw3GY6M63d8K7QG/PJOn/LN8VdwDL0388JgaaBydZzBgMMa

点击中间区域
呼出菜单
上一章
目录
下一章
×