刚才我们说了,初代的GPT和BERT几乎是同时出现的,GPT比BERT出现得稍早一些。GPT的全称是Generative Pre-Training, 和之后的BERT模型一样,它的基本结构也是Transformer。GPT的核心思想是利用Transformer模型对大量文本进行无监督学习,其目标就是最大化语句序列出现的概率。
小冰:咖哥,BERT和GPT这两个模型都是“预训练”模型,它们到底怎么训练出来的,有什么不同呢?
咖哥:嗯,知道它们之间的不同点,对你理解语言模型的本质很有好处。鉴于你是初学者,我将用你能够理解的方式来讲解二者的异同,你看看下面这张图。
BERT和GPT的预训练过程比较
BERT的预训练过程就像是做填空题。在这个过程中,模型通过大量的文本数据来学习,随机地遮住一些单词(或者说“挖空”),然后尝试根据上下文来预测被遮住的单词是什么(这是双向的学习)。这样,模型学会了理解句子结构、语法及词汇之间的联系。
GPT的预训练过程则类似于做文字接龙游戏。在这个过程中,模型同样通过大量的文本数据来学习,但是它需要预测给定上文的下一个单词(这是单向的学习)。这就像是在一个接龙游戏中,你需要根据前面的单词来接龙后面的单词。通过这种方式,GPT学会了生成连贯的文本,并能理解句子结构、语法及词汇之间的关系。
上面两个预训练模型实现细节上的区别,我们留待后续实战部分中详述。不过,我要强调一点,就是二者相比较, GPT更接近语言模型的本质,因为它的预训练过程紧凑且有效地再现了自然语言生成的 过程 。
所以,虽然BERT模型比较“讨巧”,通过双向的上下文学习增强了语言模型的理解能力,但是语言模型的核心任务是为给定的上下文生成合理的概率分布。在实际应用中,我们通常需要模型根据给定的上下文生成接下来的文本,而不是填充已有文本中的空白部分。
而GPT正是通过从左到右逐个预测单词,使得模型在生成过程中能够学习到自然语言中的连贯表达、句法和语义信息。 在大规模预训练模型发展的初期,它没有BERT那么耀眼,不过,它后来居上,为ChatGPT的横空出世打下了强大的 基础 。
咖哥:简单讲解了ChatGPT的原始模型GPT的天然优势之后,我们再来谈它背后的公司——OpenAI的起步和发展。OpenAI是个非常年轻的公司,比你小冰还要小得多。
OpenAI成立于2015年,由众多知名创业者和科技领域的引领者共同发起,包括埃隆·马斯克、PayPal联合创始人彼得·蒂尔(Peter Thiel)和美国科技孵化器Y Combinator总裁萨姆·阿尔特曼等。OpenAI的宗旨是通过与其他研究机构和研究人员的开放合作,将其专利和研究成果公之于众,从而推动人工智能技术的发展和进步。
不过,今天的OpenAI已经不再是一个纯粹提供开源模型的公司。ChatGPT、GPT-4训练成本高昂,OpenAI已经逐渐走向盈利模式,使用这些模型的人需要为此支付一定的费用。
下图所示是OpenAI成立以来的大事记。
OpenAI成立以来的大事记
■ 2015年,埃隆·马斯克、彼得·蒂尔、萨姆·阿尔特曼等人联合创立OpenAI。
■ 2018年,OpenAI研发出了名为Five的人工智能选手,成功在Dota 2游戏中战胜了人类选手。同年,自然语言处理模型初代GPT发布。
■ 2019年,微软向OpenAI投资了10亿美元,并获得了OpenAI技术的商业化授权。
■ 2020年,发布OpenAI API,通过向外界提供AI能力,开始实施商业化运营。
■ 2022年11月30日,OpenAI发布了ChatGPT,一鸣惊人。
■ 2023年1月中旬,微软再次向OpenAI投资100亿美元。紧随其后的2月8日,微软发布了集成了ChatGPT的新一代搜索引擎Bing。
■ 2023年4月,GPT-4问世,把大型预训练模型的能力推到新高度,我们直奔AGI而去……
未完,待续……
ChatGPT是从初代GPT逐渐演变而来的。在进化的过程中,GPT系列模型的参数数量呈指数级增长,从初代GPT的1.17亿个参数,到GPT-2的15亿个参数,再到GPT-3的1750亿个参数。模型越来越大,训练语料库越来越多,模型的能力也越来越强。GPT的发展过程如下图所示。
GPT的进化史
最早发布的ChatGPT是在GPT-3.5的基础上训练出来的。在从GPT-3迈向ChatGPT的过程中,技术进展主要集中在基于聊天场景的微调、提示工程、控制性能(Controllability,控制生成文本的长度、风格、内容等),以及安全性和道德责任等方面。这些进步使得ChatGPT在聊天场景中表现得更加出色,能够为用户提供更好的交互体验。
在大型预训练模型的发展过程中,研究人员发现随着模型参数数量的增加和训练语料库的扩充,大模型逐渐展现出一系列新的能力。这些能力并非通过显式编程引入的,而是在训练过程中自然地呈现出来的。研究人员将这种大模型逐步展示出新能力的现象称为“涌现能力”(Emergent Capabilities)。
发展到GPT-4这个版本后,大模型的能力更是一发不可收拾,它能够理解图像,能够接受图像和文本输入,也就是多模态输入,输出正确的文本回复;它具有超长文本的处理分析能力,甚至能够理解2.5万字的长文本;它能够进行艺术创作,包括编歌曲、写故事,甚至学习特定用户的创作风格;GPT-4在多项考试中也展现出了强大的实力,其在模拟律师资格考试中的成绩位于前10%,这比起GPT-3.5的成绩(后10%)有了大幅度的提高。
好了小冰,说到这里,你已经从宏观上对NLP的发展、大型预训练模型的发展,甚至从ChatGPT到GPT-4的发展有了一定的理解,而我们这个课程的框架也呼之欲出了。在后面的课程中,我要循着自然语言处理技术的演进过程,给你讲透它的技术重点,并和你一起实际操练一番,一步一步带你学透GPT。
那么,精彩即将开始……