购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

3.1 ChatGPT的由来

原始的Transformer模型无法实现当前如ChatGPT等对话式大语言模型的效果。那么,ChatGPT是如何从Transformer模型演化而来的呢?本章将从Transformer模型的基本原理出发,逐步引入ChatGPT的基本原理,最后介绍如何使用ChatGPT模型进行对话生成任务。

Transformer模型最初由谷歌提出,旨在解决机器翻译问题。该模型基于大量平行语料(如英法句对),通过最小化预测序列与真实序列之间的差异来实现学习。OpenAI在此基础上提出了GPT模型,将Transformer模型扩展至更广泛的自然语言处理任务。GPT模型全称为Generative Pre-trained Transformer,即生成式预训练Transformer模型。GPT模型同样基于Transformer的架构,但其核心理念是通过大规模语料库的无监督预训练,学习深层语言表示,并通过少量的适应性训练完成特定下游任务。GPT与Transformer在结构上有所不同,GPT仅使用了Transformer的解码器部分,主要用于生成式任务,如文本生成、对话生成等。

初版的Transformer模型使用一对一的平行语料库进行训练,数据量有限,且仅能应用于机器翻译任务。为突破这一局限,OpenAI提出了一种新的预训练方法,即通过自回归方式训练模型,并结合掩码预测与下一句预测两种策略,实现无监督地挖掘语言本身的深度表达与识别能力。自回归预训练的核心思想是,给定一个序列,逐步生成序列中的元素。这一方法可利用大规模文本数据,并应用于多种自然语言处理任务。掩码预测指随机遮蔽文本序列中的部分词语,要求模型预测被遮蔽的词语,以学习词语间的上下文关系。下一句预测则是给定一个文本序列,让模型判断下一句是否与该文本相关,以帮助模型学习句子间的逻辑关系。GPT模型是首个采用自回归预训练方法的模型,并取得了优异成绩。此后,BERT、RoBERTa等改进模型也采用了类似的预训练方法。

本章重点讲述GPT及ChatGPT模型,基于以下几个方面进行分析。

❑ 微调预训练模型是当前大模型应用中的常见方法。GPT模型采用了预训练加微调的范式,这一方法随后被广泛应用于多种自然语言处理任务。预训练模型在大规模语料库上学习语言的普遍特性,随后在特定任务上进行微调,显著提升了模型的性能与效率。

❑ 大模型的应用范围十分广泛。GPT及其后续版本在多种自然语言处理任务上展现了卓越的性能,包括文本生成、翻译、摘要、问答等。这表明单一的预训练模型能够通过微调适用于多种任务,显著提升了模型的通用性和灵活性。

❑ 参数越大,能力越强已成为共识。GPT-3通过其庞大的规模(1750亿参数)展示了大模型在理解和生成自然语言方面的潜力,推动了大规模语言模型研究的发展,并引发了对大模型可能带来影响的广泛讨论。

下面将介绍二元语法模型,以它作为语言模型训练的起点,然后介绍GPT模型的基本原理,包括GPT的结构、预训练方法等。 SAcn3WTg/3Bs1GmauCuA8MWSd5AmyEkpss8enhAymTpIyvM56ASR0/1fXdTn5YmN

点击中间区域
呼出菜单
上一章
目录
下一章
×