购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.1 ChatGPT的进阶之路

ChatGPT只是通用AI时代的一个起点,显然,ChatGPT的开发者们不会止步于此——ChatGPT爆火后,所有人都在讨论,人工智能下一步会往哪个方向发展。人们并没有等太久,在ChatGPT发布三个月后,OpenAI推出新品GPT-4,再次点燃了人们对人工智能的想象。

2.1.1 更强大的GPT版本

实际上,在大多数人都惊叹于ChatGPT强悍的能力时,却鲜有人知道,ChatGPT其实只是OpenAI匆忙推出的测试品。

据美国媒体报道,2022年11月中旬,OpenAI员工被要求快速上线一款被称为“Chat with GPT-3.5”的聊天工具,时限为两周后免费向公众开放。这与原本的安排不符。此前两年间,OpenAI一直在开发名为“GPT-4”的更强大的语言模型,并计划于2023年发布。2022年,GPT-4一直在进行内部测试和微调,做上线前的准备。但OpenAI的高管改变了主意。

由于担心竞争对手可能会在GPT-4发布之前,抢先发布自己的AI聊天工具,因此,OpenAI拿出了于2020年推出的旧语言模型GPT-3的强化版本GPT-3.5,并在此基础上进行了微调,促成了ChatGPT的诞生。

需要承认的是,虽然ChatGPT已经让我们窥见了通用AI的雏形,但依然面对许多客观的问题,如在一些专业领域,ChatGPT的应用还会出现一些低级错误。当然,这种情况是必然存在的,毕竟ChatGPT开放给公众的时间比较短,接受训练的领域与知识库相对有限,尤其是在有关数学、物理、医学等专业并带有一些公式与运算的方面。

于是,在发布了ChatGPT的三个月后,2023年3月15日,OpenAI正式推出了GPT-4。与ChatGPT的匆忙发布不同,GPT-4的推出是有所准备的。根据内部的消息,GPT-4早在2022年8月就训练完成了,之所以在半年后——2023年3月才面市,是因为OpenAI需要花6个月时间,让它变得更安全。图像识别、高级推理、单词掌握,是GPT-4的三项显著能力。

就图像识别功能来说,GPT-4可以分析图像并提供相关信息。例如,它可以根据食材照片来推荐食谱,为图像生成描述和图注等。

就高级推理功能来说,GPT-4能够针对3个人的不同情况做出一个会议的时间安排,回答存在上下文关联性的复杂问题。GPT-4甚至可以讲出一些质量一般、模式化的冷笑话。虽然并不好笑,但至少它已经开始理解“幽默”这一人类特质,要知道,AI的推理能力正是AI向人类思维逐渐进化的标志。

就单词掌握功能来说,GPT-4能够处理2.5万个单词,单词处理能力是ChatGPT的8倍,并可以用所有流行的编程语言写代码。

其实,在聊天过程中,ChatGPT与GPT-4的区别是很微妙的。当任务的复杂性达到足够的阈值时,差异就出现了,GPT-4比ChatGPT更可靠、更有创意,并且能够处理更细微的指令。

并且,GPT-4还能以高分通过各种标准化考试:GPT-4在模拟美国多州律师资格考试中取得的成绩超过90%的人类考生,在俗称“美国高考”的SAT阅读考试中的成绩排名超过93%的人类考生,在SAT数学考试中的成绩排名超过89%的人类考生。

美国多州律师资格考试一般包括选择题和作文两部分,涉及合同法、刑法、家庭法等,相比GPT-4排在前10%左右的成绩,GPT-3.5的成绩排名在倒数10%左右。在OpenAI的演示中,GPT-4还生成了关于复杂税务查询的答案,尽管无法验证。

2023年11月7日,在OpenAI首届开发者大会上,首席执行官山姆·阿尔特曼宣布了GPT-4的一次大升级,推出了GPT-4 Turbo。GPT-4 Turbo的“更强大”体现为它的六项升级:上下文长度的增加,模型控制,更新的知识,更强的多模态能力,模型自定义能力及更低的价格,更高的使用上限。

对于一般用户体验来讲,上下文长度的增加、更新的知识和更强的多模态能力是核心的改善。特别是上下文长度的增加,这在过往是GPT-4的一个软肋,它决定了与模型对话的过程中能接收和记住的文本长度。如果上下文长度较短,面对比较长的文本或长期的对话,模型就经常会“忘记”最近对话的内容,并开始偏离主题。GPT-4基础版本仅提供了8K的上下文记忆能力,即便是OpenAI提供的GPT-4扩容版本也仅仅能达到32K上下文长度,相比于主要竞品Anthropic旗下的Claude 2提供的100K上下文长度的能力,差距明显。这使得GPT-4在做文章总结等需要长文本输入的操作时常常力不从心。而经过升级的GPT-4 Turbo直接将上下文长度提升至128K,是GPT-4扩容版本的4倍,一举超过了竞品Claude 2的100K上下文长度。128K的上下文长度大概是什么概念?约等于300页标准大小的书所涵盖的文字量。除能够容纳更长的上下文外,山姆·阿尔特曼表示,新模型还能够在更长的上下文中保持连贯和准确。

就模型控制而言,GPT-4 Turbo为产品开发者提供了几项更强的控制手段,以更好地进行API和函数调用。具体来看,新模型提供了一个开源库——JSON Mode,可以保证模型以特定方式提供回答,调用API更加方便。另外,新模型允许同时调用多个函数,并引入了种子参数,在需要的时候,确保模型能够返回固定输出。

从知识更新来看,GPT-4 Turbo把知识库更新到了2023年4月,而最初版本的GPT-4的网络实时信息调用只能到2021年9月。虽然随着后续插件的开放,GPT-4可以获得最新发生的事件知识,但相较于融合在模型训练里的知识,这类附加信息因为调用插件耗时久、缺乏内生相关知识,所以效果并不理想。

GPT-4 Turbo具备更强的多模态能力,支持OpenAI的视觉模型DALL-E 3,还支持新的文本到语音模型——产品开发者可以从六种预设声音中任意选择。现在,GPT-4 Turbo可以图生图了。同时,在图像问题上,OpenAI推出了防止滥用的安全系统。OpenAI还表示,它将为所有客户提供牵涉版权问题的法律费用。在语音系统中,OpenAI表示,目前的语音模型远超市场上的同类产品,并发布了开源语音识别模型Whisper V3。

GPT-4 Turbo还有一个重要的升级就是价格降低。OpenAI表示,GPT-4 Turbo对开发人员来说运行成本更低。与GPT-4的0.03美元相比,每1000个Token[LLM(Large Language Model,大语言模型)读取的基本文本或代码单位]的输入成本仅0.01美元。

2.1.2 ChatGPT与GPT-4的差异

除优于ChatGPT的性能外,GPT-4与ChatGPT还有什么不同呢?

OpenAI声称,他们花费了6个月的时间,让GPT-4比上一代更安全。该公司通过改进监控框架,并与医学、地缘政治等敏感领域的专家进行合作,以确保GPT-4所给答案的准确性和安全性。GPT-4的参数量更多,这意味着它比ChatGPT更接近人类的认知表现。

根据OpenAI官网描述,与ChatGPT相比,GPT-4最大的进化在于“多模态”。多模态,顾名思义,即不同类型数据的融合。使用过ChatGPT的人们会发现,它的输入类型是纯文本,输出的是语言文本和代码。而GPT-4的多模态能力,意味着用户可以输入不同类型的信息,如视频、声音、图像和文本。同样,具备多模态能力的GPT-4可以根据用户提供的信息生成视频、音频、图片和文本。哪怕同时将文本和图片发给GPT-4,它也能根据这两种不同类型的信息生出文本。

GPT-4模型的另一大重点是建立了一个可预测扩展的深度学习栈。因为对于GPT-4展开的大型训练,进行广泛的特定模型调整是不可行的。为了验证可扩展性,通过使用相同的方法训练的模型进行推断,研究人员准确地预测了GPT-4在内部代码库中的“最终损失”。

在具体应用上,ChatGPT已经具备了类人的语言能力、学习能力和通用AI的特性。尤其是ChatGPT开放给大众使用后,数以亿计的人次与ChatGPT进行互动,充实了庞大又宝贵的数据库。作为ChatGPT进一步训练和优化的更强大版本,GPT-4的高级推理技能可以为用户提供更准确、更详细的回答;鉴于GPT-4具备更强大的语言能力和图像识别能力,可以简化市场营销、新闻和社交媒体内容的创建过程;在教育领域,GPT-4可以通过生成内容,以及以类人的方式来回答问题,因此能在一定程度上帮助学生和教育工作者。

尽管GPT-4的功能已经更加强大,但它与早期的GPT模型具有相似的局限性:仍然不是完全可靠的,存在事实性“幻觉”并会出现推理错误。在使用语言模型输出时应格外小心,特别是在高风险上下文中,应使用符合特定用例需求的确切协议。不过,GPT-4相对于以前的模型有显著改善,在OpenAI的“内部对抗性真实性评估”得分方面,GPT-4比GPT-3.5高40%。

2.1.3 从GPT-4到GPT-4o

GPT-4是人工智能技术的一个重要节点,代表着人类朝着通用AI时代大步前进。一方面,当强大的GPT-4甚至GPT-4的下一代的推出,结合OpenAI将其技术打造成通用的底层AI技术开放给各行各业使用之后,GPT就能快速地掌握人类各个专业领域的知识,并进一步加速人工智能在各个领域的应用和发展。另一方面,借助各种国际科研期刊和科研资料,GPT-4可以为科学家提供更深入和全面的支持。通过分析前沿研究成果和趋势,GPT-4可以为科学家提供更准确和及时的分析、建议和模型。此外,结合文生视频的功能,也就是Sora的数字孪生级视频功能,GPT模型可以进行直观的科研模拟推演,帮助科学家预测实验结果及发现新的研究方向。这将大大提高科学研究的效率,推动科学的发展和进步。

在GPT-4之后发布的GPT-4o,则是一个真正的多模态大模型,这意味着它不仅能处理文本,还能理解和生成图片、视频和语音内容。这种“实时对音频、视频和文本进行推理”的能力,使得GPT-4o在应用场景上更加广泛和深入。

比如,在医疗领域,GPT-4o可以同时分析患者的语音描述、医学影像和文字医疗记录,提供更全面的诊断支持;在教育领域,GPT-4o可以结合视频教学内容和书面材料,为学生提供更丰富的学习体验。通过跨模态的数据处理和生成技术,GPT-4o有望为多个行业提供更深入的洞察力,推动决策过程的优化,最终实现更高效、更智能的行业运作模式。

GPT-4及GPT-4o的发展,不仅标志着AI技术在理论和应用层面的飞跃,也展示了AI将在未来社会中扮演越来越重要的角色。 dJJz7m8eBTabbAxEjp9p4hKmKnwlgpf2gt9IGyyZT03QykUAPuBIMGsCtu778Kc9

点击中间区域
呼出菜单
上一章
目录
下一章
×