AIGC商业宝典最新章节_邢杰著

第四节
GPT-4的历史性突破

一、GPT的发展历史

2018年，OpenAI发布了GPT-1，这一年也被誉为NLP（自然语言处理）的预训练模型元年。

GPT-1是由OpenAI开发的一种大型语言模型。它是一种预训练模型，意味着它已经通过学习大量文本数据捕捉了自然语言的结构和特征。这使得它能够在被提供一个小规模的提示时，生成自然语言文本，并且能够像人类一样表达复杂的思想和情感（图1-16）。

它使用了数以百万计的句子来训练，是有史以来最大的语言模型，并且能够生成高质量的文本。GPT-1的成功展现了预训练语言模型在自然语言生成中的潜力，并为后来的模型（如GPT-2和GPT-3）开发奠定了基础。它使用一种叫做“Transformer”的深度神经网络架构，这种架构能够处理长距离依赖关系，这在自然语言处理中是非常重要的。

GPT-1也引入了一种新的语言模型评估方法，叫作“语言模型语义偏差”（LMSD）。这种方法通过测量模型生成的文本与人类生成的文本之间的相似度来评估模型的质量。GPT-1的LMSD分数在当时是最高的，这表明它能够生成非常自然的文本。

图1-16 GPT改造下游任务的流程图

2019年OpenAI发布了GPT-2，它是在GPT-1的基础上进行的升级版本。GPT-2最大模型共计48层，参数量达15亿。它的准确度和灵活性在当时是最高的。在性能方面，除了理解能力外，GPT-2在生成方面第一次表现出了强大的天赋：阅读摘要、聊天、续写、编故事，甚至生成假新闻、钓鱼邮件或在网上进行角色扮演通通不在话下。它与GPT-1的不同之处在于，它使用了更大规模的数据来训练，并且在生成文本方面有了更好的表现。

2020年，OpenAI发布了GPT-3。它是当时规模最大的语言模型，作为一个自监督模型，可完成自然语言处理的绝大部分任务，比如阅读理解、自动问答、面向问题的搜索、语义推断、机器翻译和文章生成等。并且，该模型在诸多任务上表现卓越，如在机器翻译任务上达到当前最佳水平，甚至还可以依据任务描述自动生成代码。

GPT-3的成功展现了预训练语言模型在自然语言处理领域的潜力，并为人工智能在这一领域的发展做出了重大贡献，也为人工智能在自然语言处理领域的未来发展奠定了基础。

GPT-3为许多应用提供了新的可能性。例如，GPT-3可以用于生成文章、翻译、编写摘要、问答、对话等多种任务，并且能够在这些任务中有出色的表现。此外，GPT-3还能够在没有人工干预的情况下学习新的知识，从而能够应对更加复杂的语言任务。

随着GPT-3的发展，人们开始探索更多的应用场景。例如，一些研究人员利用GPT-3来解决自然语言处理相关的难题，如文本分类和命名实体识别。此外，GPT-3也被用于推荐系统、机器翻译和对话系统等领域。

GPT-3也引发了一些争议和担忧。例如，有人担心GPT-3的强大能力会导致人工智能的失控，或者会被用来达成不良目的。此外，由于GPT-3的训练过程涉及大量的语料数据，所以也有人担心它会过度依赖这些数据，从而导致偏差和不公平。

尽管如此，GPT-3仍然是一个重要的科学成果，它为人工智能领域的发展做出了重要贡献。在未来，我们相信OpenAI能够通过合理的监管和政策来确保GPT-3发挥其优势，同时避免出现不良后果。

2022年火爆全球互联网的ChatGPT，就是基于GPT-3模型的人工智能语言模型。它能够进行自然语言理解和生成，并且具有高度的智能化和可训练性。由于其出色的性能，ChatGPT被认为是人工智能领域的重要发展方向。

ChatGPT能够根据上下文和输入的语句，进行自然语言理解和生成，并且能够模仿人类的语言行为。

ChatGPT的出色表现使它迅速成为“网红”，无数自媒体开始了对ChatGPT的调侃，ChatGPT的应用被互联网迅速传播，汇集了人们对AIGC的又一次集中关注。

但ChatGPT仍然不是最完美的，它还存在着许多缺陷。如，ChatGPT不能在线学习新信息，因为它是一个预先训练好的模型，不能接收新的输入数据。这就意味着它不能适应新的语境和新的对话情境，可能会产生不准确或不合适的回答。

另外，由于ChatGPT是基于大量已有文本进行训练的，它可能会受到这些文本中的偏见和错误的影响。例如，如果训练数据中存在性别歧视或种族歧视的内容，那么ChatGPT可能会在回答相关问题时表现出这种偏见。

ChatGPT也可能会产生不太流畅或不太通顺的语句，这可能会让它的回答看起来不那么人性化。此外，ChatGPT也不能处理复杂的语言结构或逻辑关系。它可能无法理解复杂的句子或段落，并且可能无法提供准确的回答。

最后，ChatGPT也有一些技术上的限制。例如，它的语言生成能力受到它的规模和参数数量的限制，它的运行速度也可能不是最快的。

推理是人类智能中一个基本的方面，在解决问题、做出决策和进行批判性思考等活动中至关重要。近年来，如上述这些大型语言模型在自然语言处理领域取得了重大进展。有人发现，当这些模型足够大的时候，它们可能具有推理能力。

推理是一种运用逻辑和系统方式来思考、分析和研究问题，以便得出结论或做出决策的过程。它综合运用举证、观察、分析、比较等方法，将确定的事实应用于实际问题，并结合过去的经验、推导出可信的结论或决策。推理在文学、艺术、科学、技术及日常生活中都大量使用，是一种抽象的概念，可以应用于各种各样的情况。

虽然GPT-3可以通过上下文学习在各种任务中表现出样本性能。但在需要多个步骤推理来解决的任务方面仍然不理想。2023年3月14日OpenAI发布的GPT-4已经初步解决了上述问题并拥有了一定的推理能力。

虽然GPT-4没有公布具体的参数规模，但可以预计在未来的GPT-N中，参数规模必将超过人类大脑的突触规模。我们知道人类大脑有800—1000亿个神经元（GPT-3的数量级）和大约100万亿个突触。

未来，人类的自然语言模型有望通过图灵测试，并且能够先进到和人类没有区别。

这真的很令人期待。可以想象一下，当你和一个AI创造的“真人”对话时，是一种什么样的感觉。那时的互联网或许才是真正的丰富多彩吧！

二、自然语言处理发展简史

自然语言处理是人工智能的重要分支之一。在过去的十多年里，从机器翻译到文本理解再到计算机视觉，NLP在许多领域取得了重大进展。

1947年，英国工程师布斯（A.D. Booth）和美国工程师威弗（W. Weaver）提出了利用计算机进行自动翻译。这是最早的自然语言处理概念，但直到1976年机器翻译研究才走上了实用化的道路。后来，随着人工智能领域的飞速发展，NLP被引入更多不同的领域中，包括语音识别、聊天机器人、语言处理等。

翻译是自然语言处理的重要任务之一，也是NLP领域非常具有挑战性的任务。在机器翻译领域，最具代表性的模型是Transformer，由研究人员阿希什·瓦斯瓦尼（Ashish Vaswani）等在2017年提出。它是一种非常有效的序列到序列（seq2seq）模型，广泛用于自然语言处理中的任务，如语言翻译和文本生成（图1-17）。Transformer模型的优势在于它不依赖于循环神经网络（RNN）或卷积神经网络（CNN）等传统模型，而是使用注意力机制来捕获序列中的长距离依赖关系。这使得Transformer模型在处理长序列时具有更高的效率和准确性。Transformer模型在NLP领域的成功应用促进了该领域的发展，并引起了学术界和工业界的广泛关注。

目前，优秀的人工智能翻译系统有很多，其中一些知名的系统包括谷歌翻译、Bing翻译、有道翻译、百度翻译等。这些系统都采用了机器学习和人工智能技术，并结合了大量的语言数据和翻译规则，能够提供高质量的翻译服务。此外，一些专业的翻译工具，如SDL翻译工具和CAT翻译工具，它们主要用于专业领域的翻译工作。当然，还有一些开源的翻译系统，如OpenNMT和Moses，它们也可以提供高质量的翻译服务。

图1-17 Transformer模型架构

当然，除了翻译领域，自然语言处理技术在很多行业也开始有不可或缺的作用。自然语言处理技术能够处理自然语言文本和语音信息，并进行语言模型的建立、词法分析、句法分析、语义分析、情感分析等，帮助计算机理解人类语言。例如，在聊天机器人领域，自然语言处理技术能够帮助机器人理解用户说的话，并根据语义分析进行合理的回复。在智能搜索引擎领域，自然语言处理技术能够帮助搜索引擎理解用户查询的语句，并进行语义分析和搜索匹配，以提供更准确、更友好的搜索结果。在文本分类领域，自然语言处理技术能够帮助系统自动对文本进行分类，比如根据文本内容将文章分为科技、体育、政治等不同的类别。

随着语言模型的不断发展，自然语言处理在可以想象的未来中，还可能应用在以下领域。

（一）元宇宙

自然语言处理在未来的元宇宙将扮演一个重要的组成部分。元宇宙中的智能NPC、搜索引擎、AIGC模型创建、翻译等都离不开自然语言处理的技术支持。

（二）数字人

数字人将通过自然语言处理彻底告别“中之人”，使用全智能的语言模型进行交互，也可以成为真正的虚拟偶像。

（三）医疗

自然语言处理可以用于处理医学文献，以便快速提取信息并为医生提供帮助。它还可以用于语音识别，协助医生记录病人的病历。

（四）教育

自然语言处理可以用于分析学生的作业，帮助教师评估学生的学习进度。它还可以用于生成课程材料，帮助教师更有效地教授知识。

（五）军事

自然语言处理可以用于分析情报，以提高军事决策的准确性。它还可以用于语音识别，帮助军队进行通信。

（六）新闻媒体

自然语言处理可以用于分析新闻报道，帮助媒体公司更快地提供新闻。它还可以用于生成新闻报道，帮助记者更有效地撰写文章。

（七）法律

自然语言处理可以用于帮助律师快速查找法律文件中的信息，也可以用于生成法律文件的摘要。

（八）金融

自然语言处理可以用于分析客户的金融交易记录，以便为客户提供个性化建议。它还可以用于监测金融市场，帮助投资者做出决策。

（九）社交媒体

自然语言处理可以用于分析社交媒体用户的评论和反馈，以便为品牌提供有价值的信息。它还可以用于过滤网络垃圾信息，让用户能够更好地使用社交媒体平台。

当然，这里只是为读者进行了部分举例，未来，自然语言处理的发展空间将变得更加庞大和难以想象。

三、商业与非营利组织的杂交新物种OpenAI

近期，刚刚问世数月的ChatGPT智能聊天机器人火爆全网，它能够学习和理解人类语言，以更加真实的方式与人类进行对话，甚至能够完成邮件、视频脚本、文案、翻译、代码、论文等文字撰写工作，ChatGPT是AIGC技术发展的里程碑。

然而，聊到ChatGPT，就不得不提它的开发者OpenAI。OpenAI是一家在美国成立的人工智能研究公司，其愿景是建立一个普惠、开放、协作的人工智能社区，以便于促进全球范围内的创新和发展。OpenAI的核心技术是机器学习，其著名的成果之一是GPT系列模型。其中GPT-3模型拥有1750亿个参数，可以进行自然语言生成、自动问答、语言翻译、文本摘要等任务，取得了非常显著的成果。同时，OpenAI在计算机视觉领域也有很多的研究成果，如通过深度学习技术开发的图像分类、目标检测、图像生成等模型。

2015年12月，一群科技领袖，包括山姆·阿尔特曼、彼得·泰尔（Peter Thiel）、里德·霍夫曼（Reid Hoffman）和埃隆·马斯克（Elon Musk）等人聚集在美国旧金山。他们相信，人工智能技术将改变社会的许多方面，但如果不负责任地开发和使用，将会带来重大风险，迫切需要一个专注于人工智能的道德和负责任发展的组织。在这样的愿景下，OpenAI正式成立。

OpenAI成立早期是一家NGO（非营利）组织，它的所有权和控制权都属于其成员，没有股东或投资者，这意味着OpenAI不需要为股东或投资者谋取利益，可以专注于其使命和目标，这是为了回应人们对人工智能技术的潜在风险和危险的担忧，并促进人工智能的负责任发展。

OpenAI开展了大量人工智能技术研究，并开发人工智能算法和模型，参与了促进人工智能负责任发展的举措，与技术公司和政策制定者合作制定人工智能使用的标准和法规等。同时，OpenAI的研究成果和开源工具为人工智能技术的应用提供了很多有用的支持和帮助。在OpenAI发展中，切实为人工智能技术的研究和应用做出了以下重要贡献。

2016年4月27日发布OpenAI Gym Beta；

2016年12月5日发布Universe；

2017年7月20日发布Proximal Policy Optimization算法；

2017年8月11日发布dota 2；

2018年2月20日研究防止恶意使用AI；

2018年4月9日发布OpenAI宪章；

2018年7月30日强化学习技巧；

2019年2月14日提升语言模型GPT-2模型；

2019年3月11日开放人工智能有限合伙人；

2019年4月15日OpenAI五人击败Dota 2世界冠军；

2019年4月25日发布深度神经网络MuseNet。

在OpenAI的不断发展中，各种丰富资源的加入，使得OpenAI在人才和资源方面有着非常强大的支持，同时也为其带来了商业化发展的潜力。OpenAI逐渐开始打造自己的商业化战略。

值得一提的是，OpenAI也培养了很多人才，从OpenAI走出去的人才已遍布硅谷，在一些大型企业和初创公司中都能看到他们的身影（表1-2）。

2019年，微软向OpenAI投资10亿美元，双方将携手合作为Azure云端平台服务开发人工智能技术，解决更多科学难题，共同实现人工智能技术的民主化。这笔投资后，未来微软就会成为OpenAI的独家云供应商，同时OpenAI也会和微软合作开发Azure AI超级计算技术，并授权微软使用其部分技术进行商业化。这意味着OpenAI正式开启了转型，把自己打造成了一个NGO与商业行为并行的混合企业。

表1-2 OpenAI培养的科技精英

（2017年到2022年，有超过30位员工退出OpenAI创办了自己的AI公司，不计未披露的基金，他们创办的公司已获得总计超过10亿美元的融资。）

事实上，OpenAI的半商业化之路并非毫无征兆。首先，OpenAI早期就成立了名为“OpenAI LP”的子公司，目的就是更好地筹集资金，吸引人才，继续与谷歌、Amazon等这些大公司在AI领域进行竞争。其次，GPT系列模型已经被用于许多商业应用中，如自然语言处理、智能客服等，这些应用为OpenAI带来了商业收益，同时也为商业领域带来了巨大的经济效益。最后，OpenAI考虑到了未来商业竞争的优势，为自己的技术和研究成果快速地申请了专利和保护知识产权，并一直在这个领域进行开发和探索。

值得一提的是，OpenAI投资了多家AI初创公司，继续增加着公司的商业竞争力（图1-18）。

图1-18 OpenAI投资路线图

2019年7月22日微软投资OpenAI并与其合作；

2019年8月20日跟进GPT-2；

2019年9月17日研究多代理交互中的紧急工具使用；

2019年10月15日研究用机械手解魔方；

2019年11月5日发布GPT-2∶1.5B版本；

2020年4月30日发布神经网络Jukebox；

2020年6月11日开放人工智能应用程序接口；

2021年1月5日研究连接文本和图像神经网络CLIP；

2021年1月5日研究从文本创建图像神经网络DALL·E；

2021年3月4日研究人工神经网络中的多模式神经元；

2021年8月10日发布开放人工智能法典；

2022年4月6日发布新的人工智能系统DALL·E 2；

2022年11月30日研究ChatGPT这一优化对话的语言模型。

今天，OpenAI仍然是一个非常重要的人工智能研究机构，其在人工智能技术、应用和社会责任方面的努力对人工智能的未来发展产生了深远的影响。作为商业和非营利的组合体，OpenAI既有商业化的潜力和战略，同时也承诺为全人类带来更多的福利和效益。这种商业和非营利的混合模式，在OpenAI的研究和应用方面发挥了巨大的作用，也为其未来的发展和成功奠定了基础（图1-19）。

图1-19 OpenAI发展历史

四、惊艳世界的ChatGPT

2022年11月30日，美国OpenAI公司发布了以人工智能技术驱动的自然语言处理工具——ChatGPT，它能够学习和理解人类语言，以更加真实的方式与人类进行对话，甚至能够完成邮件、视频脚本、文案、翻译、代码、论文等文字撰写工作。ChatGPT的发布，是AIGC技术发展的里程碑，是一种基于互联网可用数据训练的文本生成深度学习模型，使用多层变换器（Transformer）预测下一个单词的概率分布，在大规模语言训练数据的基础上生成语言文本。

2019年，OpenAI过渡到“封顶盈利”后发展迅速，三年后的2023年2月，OpenAI开启了ChatGPT Plus的商业化模式探索，采用了付费会员制模式，每月20美元，提供高峰时段免排队、快速响应以及优先获得新功能和改进等会员服务（图1-20）。OpenAI预测，随着ChatGPT成为吸引客户的重要工具，公司收入将会快速增长，预计2023年收入2亿美元，2024年收入预计超过10亿美元。这一系列的探索不仅让人们看到了To C人工智能盈利的可能性，更让人们看到了一片属于AIGC的商业蓝海。

图1-20 全球范围内ChatGPT日活用户数与照片墙（Instagram）第一年日活用户的比较

五、ChatGPT引发的搜索引擎大战

ChatGPT的出现，带来了一种全新的搜索模式。首先，ChatGPT能够根据用户输入的搜索内容，分析语义和意图，使得搜索结果更加精准，搜索效率得到进一步的提升；其次，ChatGPT能够对用户的搜索习惯进行分析，让搜索结果满足使用者个性化的需求；再次，ChatGPT的搜索内容输入不再拘泥于关键词，交互形式更加人性化，使得搜索引擎更加便捷易用；最后，ChatGPT能够处理和分析多语种的语言文字数据，跨语种搜索将能够获取更多的有效内容。随着ChatGPT在全球范围内的火爆，各家科技巨头都希望借助这一技术打造全新的搜索引擎。

2023年2月7日，微软正式发布了集成ChatGPT的搜索引擎，之后还为安卓和iOS系统提供集成ChatGPT的Edge浏览器，值得注意的是，微软还将为移动和桌面设备的Bing聊天添加语音界面。此外，微软还宣布在其Skype通信软件中增加基于Bing的聊天功能，并表示最终将把类似的功能添加到其他应用程序中，包括通信服务的Teams套件。

为应对ChatGPT搜索引擎带来的挑战，谷歌也推出了类ChatGPT产品——Bard, Bard基于谷歌研发的大型语言模型LaMDA，目前向值得信赖的测试人员开放，但未明确说明何时向公众开放提供这一服务。受限于数据集的ChatGPT无法回答2021年后的信息，而谷歌Bard可以利用互联网上的最新信息，回答拥有明确答案的问题。此外，一些海外初创公司推出了带有与该机器人类似聊天界面的搜索引擎，包括You.com、Perplexity AI和Neeva。

在国内方面，百度也于2月7日官宣了类ChatGPT产品——文心一言（英文名：ERNIE Bot）。百度创始人、董事长兼首席执行官李彦宏在内部信中介绍，百度计划将多项主流业务与文心一言整合：文心一言与搜索整合，将引领搜索体验的代际变革；文心一言将通过百度智能云对外提供服务，根本性地改变云计算市场的游戏规则。此外，文心一言大模型还将搭载到Apollo智舱系列产品，并与小度进行集成。

360公司也于7日晚间在投资者平台回应称，公司的人工智能研究院从2020年开始一直在包括类ChatGPT技术在内的AIGC技术上有持续性的投入，但截至目前仅作为内部业务自用的生产力工具使用，且投资规模及技术水平与当前的ChatGPT-3相比还有较大差距，各项技术指标只能做到略强于ChatGPT-2。

六、ChatGPT的能力边界

ChatGPT强大的能力不仅体现在对各种文字工作的胜任，而且还体现在轻松通过难度较高的专业级测试。在实验中，ChatGPT通过了谷歌编码L3级（入门级）工程师测试；在美国宾夕法尼亚大学沃顿商学院MBA期末考试和明尼苏达大学四门课程的研究生考试中分别取得了B和C+的成绩；甚至还通过了美国执业医师资格考试等。

ChatGPT的诞生，被业界誉为AIGC领域的“iPhone时刻”，人工智能自此迎来革命性的新发展阶段。任何新技术的应用都是一把“双刃剑”, ChatGPT强大的能力也引发了社会各方面的担忧，对ChatGPT的能力边界的认知几乎决定了人类未来如何使用这把“双刃剑”。

（一）ChatGPT面临的道德伦理和法律问题

在ChatGPT的开发过程中，尽管开发者已经对其设置了一定的道德伦理规则，并使用人工进行标记，但事实上，其算法设计依然存在大量的“漏洞”。在实测过程中，通过变相提问、改变话术的方式，依然可以“蒙骗”AI生成违规内容。

ChatGPT的滥用也可能导致这样的情形：通过ChatGPT生成的内容本身不存在违规问题，但相关内容被用于违背公序良俗或违法犯罪。法律是有滞后性的，先有新事物的诞生，才会有与之相关的立法。目前，关于ChatGPT这样的AIGC应用的立法仍然处于真空期，ChatGPT的使用底线应当维持在不会侵犯任何第三方的合法权益之上。

（二）ChatGPT不具备真正的识别能力

ChatGPT对采集的文字数据的甄别和筛选不具备真正的主观能动性和价值观判断，一些谣言和垃圾信息同样会影响AI的判断，从而导致生成错误的内容。一旦AI普及而这种错误无法得到及时纠正，一般人使用AI参与的搜索引擎无法意识到自己获取了错误的信息，从而使分辨信息真假的成本进一步增加，不利于网络环境的健康发展。

（三）ChatGPT面临的版权和信息安全隐患

包括ChatGPT在内的生成式AI，其训练模型都是直接从互联网获取的数据资料，ChatGPT是否有权获取和使用这些数据，目前仍然是存疑的；而利用AIGC创作的内容，也可能被他人侵权。此外，利用AIGC剪辑视频或合成视频也存在侵犯原作品的版权、修改权、演绎权的可能。因此，国外艺术平台上有众多画师联合抵制AI创作（图1-21）。

另外，大规模的数据采集离不开对用户个人信息以及本身就存在问题的信息的采集，在使用ChatGPT应用的过程中，应当注意规避个人隐私、数据权益、国家信息安全等方面的风险。

图1-21 某国外艺术平台的画师们抵制AI创作

（四）ChatGPT对社会就业的冲击

ChatGPT一旦应用普及，对就业带来的冲击显然易见，最直接的就是语言文字类工作，ChatGPT可以胜任大部分常见的语言文字的处理工作；而从社会劳动的整体维度来看，ChatGPT的大规模数据训练可以轻而易举地打败个人在劳动过程中的经验积累。

那么，ChatGPT真的会让很多职工失业吗？不可否认的是，ChatGPT类AI的应用，对于中低级别的岗位会产生一定程度的压缩。但是，ChatGPT等AIGC技术依然是基于人类现有的劳动创作成果去完成任务，不具备真正的创新思维能力，ChatGPT的应用可以让人类从简单琐碎的工作中解放出来，投入更高质量的有思想、有创新、有价值的劳动中去。

（五）ChatGPT对教育领域的影响

ChatGPT对于教育的影响同样具有两面性。一方面，教师和学生充分利用ChatGPT作为辅助教学的手段，有利于提高教学效率，同时也是对社会教育资源的另一种调剂，有利于推动教育公平的实现；另一方面，ChatGPT使用不当，会让学生依赖于通过AI获取答案和结果，丧失了钻研学术和独立思考的能力，带来抄袭、学术剽窃、学术舞弊等负面影响。这不仅违背教育的本质，也不利于人才培养和社会文明的延续。

综上所述，ChatGPT等AIGC技术的应用，需要社会、企业和个人三方面共同明确边界共识，通过立法监管、技术监管和自我监管来善用这把“双刃剑”，让科技向善。

七、GPT-4的新飞跃

2023年3月14日，人工智能研究公司OpenAI公布了其大型语言模型的最新版本——GPT-4。GPT-4是OpenAI开发的第四代大型自然语言处理模型，模型参数达到了1万亿，是GPT-3的6倍。

GPT-4不仅精通语言，还能在数学、编程、视觉、医学、法律、心理学等多样化和高难度的任务中表现出色，而且还能够将上述多个领域的技能和概念统一起来，并能理解其复杂概念。GPT-4是一个大型多模态模型，它接受图像和文本输入、进行文本输出，虽然在许多现实场景中它尚且不如人类，但在各种专业和学术基准上表现出与人类相当的性能，已经接近人类水平。

根据OpenAI公布的实验数据，GPT-4通过模拟律师考试且分数在应试者的前10%左右，相较之下，GPT-3.5版本大模型的成绩是倒数10%。做美国高考SAT试题，GPT-4也在阅读写作中拿下710分高分、数学700分（满分800），可见GPT-4的强大之处（图1-22）。

相较于此前的GPT模型而言，GPT-4的突破之一是在文本之外还能够处理图像内容。OpenAI表示，用户同时输入文本和图像的情况下，它能够生成自然语言和代码等文本。

图1-22 GPT-4与GPT-3.5性能对比的实验数据

除了普通图片，GPT-4还能处理更复杂的图像信息，包括表格、考试题目截图、论文截图、漫画等。此外，在多语种方面，GPT-4也体现出优越性。在测试的26种语言中，GPT-4在24种语言方面的表现均优于GPT-3.5等其他大语言模型的英语语言性能，其中包括部分低资源语言如拉脱维亚语、威尔士语等。在中文语境中，GPT-4能够达到80.1%的准确性。

鉴于GPT-4在广度和深度上的能力，它可以被视为通用人工智能的早期版本。它基于GPT-3进行了进一步的优化，提供了更高的性能和功能。GPT-4的核心技术主要包括以下几个方面。

（一）Transformer架构

GPT-4沿用了Transformer架构，这是一种自注意力（Self-attention）机制的深度学习模型。Transformer架构能有效地处理长距离依赖，提高了序列处理任务的性能，如机器翻译、文本生成等。

（二）自注意力（Self-Attention）

自注意力机制使得模型在处理序列时能关注到与当前位置相关的其他位置的信息。通过这种方式，模型能够捕捉到序列内的长距离依赖关系。

（三）预训练和微调

GPT-4首先在大量的无标签文本数据上进行预训练，学习到丰富的语言知识。之后，模型会在特定任务的有标签数据集上进行微调，以适应具体任务需求。

（四）大规模模型

GPT-4使用了大量的神经元和层数，构建了一个大规模的模型。这使得模型能够学习到更多的知识和复杂的模式，从而提高性能。

（五）数据增强

GPT-4在训练过程中使用了数据增强技术，如动态数据生成、反向翻译等。这些方法有助于提高模型的泛化能力。

（六）零样本学习

GPT-4能够在没有见过特定任务样例的情况下，直接利用预训练知识进行推理。这使得GPT-4能够在很多情况下直接应用于新任务，而无须进行任务特定的微调。

（七）分布式训练

GPT-4采用了分布式训练策略，在多个GPU和计算节点上进行并行训练，以加速模型训练过程。

另外相较于前代GPT-3, GPT-4在多个方面都有显著的改进。主要更新内容和优势有以下几个方面。

（一）更大的模型规模

GPT-4相较于GPT-3拥有更多的参数，使其在处理各种任务时具有更强大的学习和推理能力。这使得GPT-4在理解复杂的语境、生成更准确的回答以及处理多种任务时表现得更出色。

（二）更精细的预训练数据

GPT-4使用了更新、更全面的预训练数据集，提高了模型的知识覆盖范围。这使得GPT-4能更好地理解和回答与各种领域相关的问题。

（三）优化的训练技术

GPT-4采用了最新的训练技术，例如更有效地优化算法、更大的Batch Size以及改进的正则化方法。这些技术的应用有助于提高模型在各种任务上的性能。

（四）提升了多模态能力

GPT-4在处理多模态任务时的表现得到了提升，如处理图像和文本结合的任务，使得模型在更多场景下能够更好地发挥作用。

（五）更强的零样本和少样本学习能力

GPT-4在零样本（即无须微调即可解决问题）和少样本（只需要很少量的示例即可进行微调）学习任务上的表现相较于GPT-3有显著提升。这使得模型在应对实际问题时更具灵活性。

（六）更好的安全性和可解释性

GPT-4针对生成结果的安全性和可解释性进行了改进，减少了不恰当或误导性输出的风险。此外，GPT-4在用户提供的指导下能够更好地产生满足特定需求的输出。

（七）提高模型的可扩展性

为了满足不同应用场景的需求，GPT-4采用了模块化的设计，使其更易于扩展和自定义。用户可以根据实际需求选择不同规模的GPT-4模型，以平衡计算资源和性能。

（八）降低环境影响

为减轻大型模型对环境的影响，GPT-4在训练过程中采用了更为高效的硬件和算法，降低了能耗。此外，通过优化部署策略，GPT-4在实际应用中的能源消耗也得到了控制。

（九）增强多语言支持

GPT-4在多语言任务上的表现得到了提升，使其能够更好地理解和生成非英语文本。这意味着GPT-4可以为更广泛的用户群体提供高质量的自然语言处理服务。

（十）更强的领域适应性

GPT-4在特定领域的知识理解和生成能力方面得到了提升，这意味着模型在处理行业特定问题时表现得更为准确和专业。

（十一）优化的API

OpenAI为GPT-4提供了更加友好、灵活的API，使开发者能更容易地将模型集成到各种应用中。这使得GPT-4能够更广泛地应用于聊天机器人、文本生成、自动问答、语义分析等多种场景。

（十二）社区参与

OpenAI鼓励社区参与GPT-4的开发，以便收集更多有关模型性能、安全性和可用性的反馈。这有助于进一步优化和改进GPT-4，使其更好地满足实际需求。

GPT-4的这些改进和优势使其在自然语言处理领域具有巨大的潜力，将继续推动AI应用的创新和发展。

不过，由于GPT-4依赖于生成下一个词的局部贪婪过程，而没有对任务或输出的全局产生深入的理解。因此，GPT-4擅长生成流畅且连贯的文本，但不擅长解决无法以顺序方式处理的复杂或创造性问题。

八、Auto-GPT与GPT插件对人工智能的深远影响

不仅仅是GPT4大模型让AI进入快车道，Auto-GPT和GPT插件两个GPT增强工具，让GPT如虎添翼。Auto-GPT是ChatGPT的增强版，是一个免费开源项目，可以帮助开发者快速建立自己的个性化的AI工具，可以应用到各行各业，大大的降低了GPT应用的开发成本。GPT插件是为网页、文档浏览器提供的Plugin插件，不仅可以在浏览器上为用户提供ChatGPT插件，最关键是解决的大模型训练数据源的问题，用户所浏览器的网页、文件可被用于GPT的数据库用于最新的训练学习，解决ChatGPT的训练学习的数据都是来自2021年9月之前的数据。

（一）Auto-GPT

Auto-GPT是由开发者Significant Gravitas托管在Github上的一个免费开源项目，结合了GPT-4和GPT-3.5技术，通过API创建完整的项目，第三方开发者可以免费使用Significant Gravitas提供的Auto-GPT源码编译自己的GPT应用，Auto-GPT的官网是https://github.com/Significant-Gravitas/Auto-GPT。目前Auto-GPT最高版本是v0.2.2, Significant Gravitas从3月12日开始共发布Auto-GPT的v.0.1.0、v0.1.1、v0.1.2、v0.1.3、v0.2.0、v0.2.1总共6个版本，在发布v0.2.2后，提到很快会发布v0.3.0版本。目前Auto-GPT已经配备的功能包括：联网搜集信息、存储信息、生成用于文本生成的GPT-4实例、使用GPT-3.5总结信息。

Auto-GPT目标是能够以最少的人工输入执行任务，它在共享ChatGPT框架作为其基础的同时，通过拥有自主决策的能力而与众不同。自我提示并生成所有必要的提示以完成任务的能力使Auto-GPT真正独一无二。

Auto-GPT与ChatGPT不同的是，用户不需要不断对AI提问以获得对应回答，在Auto-GPT中只需为其提供一个AI名称、描述和五个目标，然后Auto-GPT就可以自己完成项目。它可以读写文件、浏览网页、审查自己提示的结果，以及将其与所说的提示历史记录相结合。

Auto-GPT相当于给基于GPT的模型一个内存和一个身体。有了它，你可以把一项任务交给AI智能体，让它自主地提出一个计划，然后执行计划。此外其还具有互联网访问、长期和短期内存管理、用于文本生成的GPT-4实例以及使用GPT-3.5进行文件存储和生成摘要等功能。

Auto-GPT的核心操作类似于ChatGPT，但它比ChatGPT多个了一个AI代理的强大附加功能。它可以对这些代理进行编程，以根据预先确定的规则和目标做出决策和执行操作。想象一下，它就是一个能够代表你执行特定任务的个人助理，例如安排约会或撰写电子邮件。AI代理的操作取决于有限访问的原则。就像只能在其访问范围内执行任务的个人助理一样，AI代理的能力取决于它通过API获得的访问权限。

例如，具有互联网访问权限的AI代理可以搜索信息，但无法代表你进行购买。但是，如果AI代理可以访问你计算机的终端，则它可能会搜索并安装其认为实现其目标所必需的应用程序。

Auto-GPT和ChatGPT都是使用OpenAI共享的的GPT3.5和GPT4的相同的AI大模型，但它们的应用功能在显着方面存在差异。两者之间的主要区别在于Auto-GPT能够在没有人类代理的情况下自主运行，而ChatGPT依赖于人类提示来操作，或者是Auto-GPT比ChatGPT多了个AI外壳而更加智能有自主性。

例如，如果你想使用ChatGPT计划妈妈的生日派对，则需要提供特定的提示，例如“帮助我为70岁的妈妈计划生日派对”。然后，ChatGPT将生成要考虑的方面列表，包括生日主题、场地、客人名单、礼物、食物和装饰品。但是，你需要提示ChatGPT进行后续的每个步骤，例如购买礼物或发送邀请。

从ChatGPT到Auto-GPT, AI应用在快速迭代，人工智能领域有望发生巨大转变。拥抱自主性，这项突破性的创新重新定义了人工智能的能力，并挑战了我们对人工智能可以实现什么的看法。未来在招手，Auto-GPT随时准备引领潮流。

（二）GPT插件（Plugins）

2023年3月24日，OpenAI正式宣布ChatGPT开始支持外部GPT Plugin功能，解锁了大量用例。一方面，通过集成对外部数据的显式访问，拓展了模型的知识来源；另一方面，GPT Plugin向用户提供生成答案的相关参考信息，提高了输出的可信度和透明度。目前ChatGPT支持的GPT Plugin包括11款第三方以及3款官方插件，均可直接从对话窗口调用。用户可以加入GPT Plugin的等待名单，OpenAI将优先从少数开发人员和GPT Plus会员用户开始，逐步扩大插件使用和开发权限范围。

GPT插件的上线意味着ChatGPT真正将解除数据源的封印，因为在之前的版本中，ChatGPT仅仅能查询到2021年9月之前的数据消息。GPT插件应该到浏览器等各种应用，经过不断的学习数据源，但现在不仅能直接检索到最新新闻，还能帮你查询航班、酒店信息，甚至帮你规划差旅访问各大电商数据，帮你比价甚至直接下单。

OpenAI不仅提供一些GPT插件，你还可以通过它生成一些新的插件。如果你想要某一个插件功能，你可以用你的自然语言描述，然后GPT来帮你生成这个插件。这就说明你不需要懂编程，一样可以开发自己想用的插件。

1. OpenAI出品的3款官方GPT插件

OpenAI提供的官方GPT Plugin包括网页浏览器、代码解释和开源检索三种。

网页浏览器GPT插件基于Bing搜索的API，为语言模型提供了访问网络浏览器的权限，解决了ChatGPT训练数据过时的问题。

代码解释器GPT插件使用Python处理上传和下载操作，能够解决定性和定量的数学问题，进行数据分析和可视化操作，以及转换文件格式等。

开源检索器GPT插件使ChatGPT能够访问和检索经许可的个人或组织信息源，允许用户通过用自然语言提问或表达需求的方式，从数据源中获取最相关的文档片段。

2. OpenAI支持的11款第三方应用GPT插件

OpenAI支持合作应用GPT插件的直接使用和用户插件的导入ChatGPT能够在会话中调用合作的第三方GPT插件。目前支持四类共11款应用GPT插件。

（1）旅行与餐饮类：

①KAYAK美国机票酒店租车预订平台kayak.com的GPT插件

②Expedia全球最大在线旅游旅游平台expedia.com的GPT插件

③OpenTable美国领先网上订餐平台opentable.com的GPT插件

（2）购物类

④Shop美国新型的购物比较平台shop.com的GPT插件

⑤Klarna Shopping瑞典消费信贷电商平台klarna.com的GPT插件

⑥Instacart美国生鲜电商领导者instacart.com的GPT插件

（3）知识类

⑦Wolfram大型计算型引擎平台wolfram.com的GPT插件

⑧Speak人工智能语言学习平台speak.com的GPT插件

⑨FiscalNote全球政策和市场情报平台fiscalNote.com的GPT插件

（4）其他类

⑩Milo Family AI家庭AI助理的joinmilo.com的GPT插件

⑪Zapier办公流程AI自动化平台zapier.com的GPT插件

GPT插件大大扩展了ChatGPT使用场景。同时，ChatGPT支持开发人员创建自己的GPT Plugin，并通过API实现Plugin调用。目前，Plugin仅支持调用后端API, OpenAI指出能够调用客户端API的Plugin也正在探索过程中。

第四节 GPT-4的历史性突破