GPT图解大模型是怎样构建的最新章节_黄佳著

从初代GPT到ChatGPT，再到GPT-4

刚才我们说了，初代的GPT和BERT几乎是同时出现的，GPT比BERT出现得稍早一些。GPT的全称是Generative Pre-Training, 和之后的BERT模型一样，它的基本结构也是Transformer。GPT的核心思想是利用Transformer模型对大量文本进行无监督学习，其目标就是最大化语句序列出现的概率。

GPT作为生成式模型的天然优势

小冰：咖哥，BERT和GPT这两个模型都是“预训练”模型，它们到底怎么训练出来的，有什么不同呢？

咖哥：嗯，知道它们之间的不同点，对你理解语言模型的本质很有好处。鉴于你是初学者，我将用你能够理解的方式来讲解二者的异同，你看看下面这张图。

BERT和GPT的预训练过程比较

BERT的预训练过程就像是做填空题。在这个过程中，模型通过大量的文本数据来学习，随机地遮住一些单词（或者说“挖空”），然后尝试根据上下文来预测被遮住的单词是什么（这是双向的学习）。这样，模型学会了理解句子结构、语法及词汇之间的联系。

GPT的预训练过程则类似于做文字接龙游戏。在这个过程中，模型同样通过大量的文本数据来学习，但是它需要预测给定上文的下一个单词（这是单向的学习）。这就像是在一个接龙游戏中，你需要根据前面的单词来接龙后面的单词。通过这种方式，GPT学会了生成连贯的文本，并能理解句子结构、语法及词汇之间的关系。

上面两个预训练模型实现细节上的区别，我们留待后续实战部分中详述。不过，我要强调一点，就是二者相比较， GPT更接近语言模型的本质，因为它的预训练过程紧凑且有效地再现了自然语言生成的过程。

所以，虽然BERT模型比较“讨巧”，通过双向的上下文学习增强了语言模型的理解能力，但是语言模型的核心任务是为给定的上下文生成合理的概率分布。在实际应用中，我们通常需要模型根据给定的上下文生成接下来的文本，而不是填充已有文本中的空白部分。

而GPT正是通过从左到右逐个预测单词，使得模型在生成过程中能够学习到自然语言中的连贯表达、句法和语义信息。在大规模预训练模型发展的初期，它没有BERT那么耀眼，不过，它后来居上，为ChatGPT的横空出世打下了强大的基础。

ChatGPT背后的推手——OpenAI

咖哥：简单讲解了ChatGPT的原始模型GPT的天然优势之后，我们再来谈它背后的公司——OpenAI的起步和发展。OpenAI是个非常年轻的公司，比你小冰还要小得多。

OpenAI成立于2015年，由众多知名创业者和科技领域的引领者共同发起，包括埃隆·马斯克、PayPal联合创始人彼得·蒂尔（Peter Thiel）和美国科技孵化器Y Combinator总裁萨姆·阿尔特曼等。OpenAI的宗旨是通过与其他研究机构和研究人员的开放合作，将其专利和研究成果公之于众，从而推动人工智能技术的发展和进步。

不过，今天的OpenAI已经不再是一个纯粹提供开源模型的公司。ChatGPT、GPT-4训练成本高昂，OpenAI已经逐渐走向盈利模式，使用这些模型的人需要为此支付一定的费用。

下图所示是OpenAI成立以来的大事记。

OpenAI成立以来的大事记

■ 2015年，埃隆·马斯克、彼得·蒂尔、萨姆·阿尔特曼等人联合创立OpenAI。

■ 2018年，OpenAI研发出了名为Five的人工智能选手，成功在Dota 2游戏中战胜了人类选手。同年，自然语言处理模型初代GPT发布。

■ 2019年，微软向OpenAI投资了10亿美元，并获得了OpenAI技术的商业化授权。

■ 2020年，发布OpenAI API，通过向外界提供AI能力，开始实施商业化运营。

■ 2022年11月30日，OpenAI发布了ChatGPT，一鸣惊人。

■ 2023年1月中旬，微软再次向OpenAI投资100亿美元。紧随其后的2月8日，微软发布了集成了ChatGPT的新一代搜索引擎Bing。

■ 2023年4月，GPT-4问世，把大型预训练模型的能力推到新高度，我们直奔AGI而去……

未完，待续……

从初代GPT到ChatGPT，再到GPT-4的进化史

ChatGPT是从初代GPT逐渐演变而来的。在进化的过程中，GPT系列模型的参数数量呈指数级增长，从初代GPT的1.17亿个参数，到GPT-2的15亿个参数，再到GPT-3的1750亿个参数。模型越来越大，训练语料库越来越多，模型的能力也越来越强。GPT的发展过程如下图所示。

GPT的进化史

最早发布的ChatGPT是在GPT-3.5的基础上训练出来的。在从GPT-3迈向ChatGPT的过程中，技术进展主要集中在基于聊天场景的微调、提示工程、控制性能（Controllability，控制生成文本的长度、风格、内容等），以及安全性和道德责任等方面。这些进步使得ChatGPT在聊天场景中表现得更加出色，能够为用户提供更好的交互体验。

在大型预训练模型的发展过程中，研究人员发现随着模型参数数量的增加和训练语料库的扩充，大模型逐渐展现出一系列新的能力。这些能力并非通过显式编程引入的，而是在训练过程中自然地呈现出来的。研究人员将这种大模型逐步展示出新能力的现象称为“涌现能力”（Emergent Capabilities）。

发展到GPT-4这个版本后，大模型的能力更是一发不可收拾，它能够理解图像，能够接受图像和文本输入，也就是多模态输入，输出正确的文本回复；它具有超长文本的处理分析能力，甚至能够理解2.5万字的长文本；它能够进行艺术创作，包括编歌曲、写故事，甚至学习特定用户的创作风格；GPT-4在多项考试中也展现出了强大的实力，其在模拟律师资格考试中的成绩位于前10%，这比起GPT-3.5的成绩（后10%）有了大幅度的提高。

好了小冰，说到这里，你已经从宏观上对NLP的发展、大型预训练模型的发展，甚至从ChatGPT到GPT-4的发展有了一定的理解，而我们这个课程的框架也呼之欲出了。在后面的课程中，我要循着自然语言处理技术的演进过程，给你讲透它的技术重点，并和你一起实际操练一番，一步一步带你学透GPT。

那么，精彩即将开始……