购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.1 大模型概念

本章聚焦基于Transformer [1] 架构的大语言模型和多模态大模型。鉴于多模态大模型可以视为大语言模型在模态上的扩展,二者在定义大模型的一些关键因素上是一致的,因此本章的讨论将以大语言模型为出发点。

大语言模型是在互联网量级的文本数据上训练的,具有庞大参数量的自回归语言模型。首先,它是一个语言模型,以自回归方式进行训练。其次,它的参数规模和训练数据规模都很大。

自然语言处理(Natural Language Processing,NLP)领域的研究者对语言模型并不陌生。它是一种统计模型,用于评估一段文本在语法上构成连贯句子的可能性。发展到深度学习阶段,语言模型开始采用深度神经网络计算文本序列的概率。目前,主流的语言模型建模策略包括掩码语言模型(Masked Language Modeling,MLM)和因果语言模型(Causal Language Modeling,CLM)。GPT系列模型的成功展示了因果语言模型在语言建模上的优势。因此,大多数大语言模型都采用了因果语言模型作为其核心策略。因果语言模型也称为自回归模型,其基本任务是:在给定一段文本的条件下,预测下一个词元(token),并以此方式连续预测出整个文本序列。

大语言模型与传统语言模型的主要区别在于其规模。首先,规模指的是神经网络的规模,换言之,其参数数量极为庞大,通常达到数十亿、数百亿甚至数万亿量级。其次,规模也涉及训练数据的体量,即训练数据的规模同样巨大,达到互联网量级。目前主流的大语言模型训练数据量为数万亿量级的词元。

规模大是大语言模型的一个关键特性。然而,这仅是模型和训练数据层面的考量。例如,GPT-3以及ChatGPT、GPT-4等模型的开发都离不开一系列技术的支撑,包括预训练、有监督微调、偏好对齐等。只有将这些技术整合在一起,大语言模型的能力才能得到有效利用。接下来简要介绍这些技术,以便读者对大语言模型的技术体系有总体的认识。

1.1.1 预训练

大语言模型是在互联网量级的文本数据上训练出来的,训练以自回归的方式进行。训练得到的大语言模型就是所谓的基础大语言模型。自回归的建模方式让大语言模型学习到文本数据中的内容和逻辑结构。由于训练数据中包含各个领域的大量知识,基础大语言模型具有很强的理解各个领域问题的基本能力。预训练是非常关键的一步,它决定了大语言模型的能力天花板。目前的一些研究表明,大语言模型无法在预训练时没有包含的知识上做出有效的泛化。

1.1.2 有监督微调

有监督微调指大语言模型的指令微调。预训练让大语言模型掌握了大量的知识,不过在面对具体任务时,基础大语言模型还不知道如何运用这些知识完成任务。指令微调针对每个任务设计一批指令。为大量的任务设计指令并给出任务的解决方案,就得到大量的<指令,解决方案>对。基础大语言模型在这个数据集上做进一步的训练,它就学会了如何处理这些任务。指令微调相当于“解锁”了基础大语言模型的指令遵循(或者说任务处理)能力。只有经过指令微调,大语言模型才能帮助人类切实处理各种任务。

1.1.3 偏好对齐

经过微调的大语言模型已经能够帮助人类处理各种任务。不过,从人类的偏好角度看,有些解决方案还有问题。例如,有些解决方案可能是对人类有害的,我们希望大语言模型应该拒绝给出这样的方案。再例如,有些解决方案可能看起来是对的,但太泛泛而谈,我们希望解决方案包含更多可执行的操作细节,对人类更有帮助。在这种情况下,我们可以通过强化学习实现大语言模型与人类偏好对齐。 xffoD2+fVLFMhkdCnNoQbDeLYNXCrVUmdK6NHedIttJX0IfAf7lCByksiwd7csg7

点击中间区域
呼出菜单
上一章
目录
下一章
×

打开