● 大语言模型彻底革新了自然语言处理领域。在此之前,自然语言处理领域主要采用基于明确规则的系统和较为简单的统计方法。而如今,大语言模型的兴起为这一领域引入了基于深度学习的新方法,在理解、生成和翻译人类语言方面取得了显著的进步。
● 现代大语言模型的训练主要包含两个步骤。
● 大语言模型采用的是基于 Transformer 的架构。这一架构的核心组件是注意力机制,它使得大语言模型在逐词生成输出时,能够根据需要选择性地关注输入序列中的各个部分。
● 原始的 Transformer 架构由两部分组成:一个是用于解析文本的编码器,另一个是用于生成文本的解码器。
● 专注于生成文本和执行指令的大语言模型(如 GPT-3 和 ChatGPT)只实现了解码器部分,从而简化了整个架构。
● 由数以亿计的语料构成的大型数据集是预训练大语言模型的关键。
● 尽管类 GPT 大语言模型的常规预训练任务是预测句子中的下一个词,但它们展现出了能够完成分类、翻译或总结文本等任务的“涌现”特性。
● 当一个大语言模型完成预训练后,该模型便能作为基础模型,通过高效的微调来适应各类下游任务。
● 在自定义数据集上进行微调的大语言模型能够在特定任务上超越通用的大语言模型。