AIGC原理与实践：零基础学大语言模型、扩散模型和多模态模型最新章节_吴茂贵著

1.1 AIGC的主要技术

AIGC的发展源于早期基于概率模型和规则系统的方法，但受规则的限制。随着深度学习的兴起，深度神经网络和变分自编码器等模型取得重要突破。然后，生成对抗网络（Generative Adversarial Network, GAN）引入对抗训练机制，实现了更逼真的生成样本。Transformer模型通过自注意力机制改进了序列数据建模，开创了新思路。接着，生成式预训练Transformer（Generative Pre-trained Transformer, GPT）基于Transformer模型，通过预训练和微调解决了自然语言处理（Natural Language Processing, NLP）任务，ChatGPT扩展了GPT。最后，ChatGPT和稳定扩散（Stable Diffusion）等模型进一步推动了AIGC的发展，取得了新突破。总体而言，AIGC在各个领域都取得了显著进展，并展现了巨大的潜力。AIGC相关技术的发展历程如图1-1所示。

图1-1 AIGC相关技术的发展历程

1.1.1 语言生成方面的技术

在自然语言处理中，最早的生成句子的方法是使用N-gram语言模型学习词的分布，然后搜索最佳序列。但这种方法不能有效地适应长句子。为了解决这个问题，循环神经网络（Recurrent Neural Network, RNN）被引入语言建模任务中，它允许对相对较长的依赖关系进行建模。尤其是长短期记忆（Long Short-Term Memory, LSTM）和门控循环单元（Gated Recurrent Unit, GRU），在训练中它们利用门控机制来控制记忆，极大地提升了长距离依赖效率。不过，训练时只能从左到右或从右到左，无法并行处理，此外，词之间的距离稍长一些，它们之间的依赖性也将大大降低。

2017年由谷歌研发团队提出的Transformer模型，解决了循环神经网络的问题。Transformer模型基于一种自注意力机制，使模型能够注意到输入序列中的不同部分。它能够更好地处理长期的依赖关系，因此，在广泛的NLP任务中提高了性能。Transformer模型的另一个特性是具有高度并行性，并允许数据有效规避归纳偏置（Inductive Bias）。这些特性使得Transformer非常适合作为大规模的预训练模型，并能够适应不同的下游任务。

Transformer模型自引入NLP以来，由于其并行性和学习能力，成为自然语言处理的主流选择。一般来说，基于Transformer的预训练语言模型可以根据其训练任务分为两类：遮掩语言模型和自回归语言模型。

1）遮掩语言模型。遮掩语言模型（Masked Language Model, MLM）是指在训练过程中，随机遮掩一部分输入文本中的单词或字符，让模型预测被遮掩部分的单词或字符。遮掩语言模型的输入是整个句子，而遮掩部分的位置是通过特殊的遮掩标记表示的。通过预测被遮掩位置的单词或字符，模型能够学习到文本中不同位置之间的依赖关系和语义信息。BERT就是典型的遮掩语言模型。

2）自回归语言模型。自回归语言模型（Autoregressive Language Model, ALM）通过计算给定前文条件下当前词的概率，生成下一个可能的词或序列，它是从左到右的语言模型。与遮掩语言模型不同，自回归语言模型更适用于生成式任务。GPT就是典型的自回归语言模型。

1.1.2 视觉生成方面的技术

在计算机视觉（Computer Vision, CV）中，在深度学习算法出现之前，传统的图像生成算法使用了纹理合成和纹理映射等技术。这些算法基于手工设计的特征，并且在生成复杂多样的图像方面能力有限。随着卷积神经网络（Convolutional Neural Network, CNN）的引入，CV领域迎来爆发式增长。

2013年，提出变分自编码器，尤其是2014年提出生成对抗网络，它们在各种应用中取得了令人瞩目的成绩，成为人工智能领域的里程碑。

随后生成扩散模型如去噪扩散概率模型（Denoising Diffusion Probabilistic Model，DDPM）、DALL·E、Stable Diffusion等也被开发出来，这些模型对图像生成过程进行更细粒度的控制，并能够生成高质量的图像。

Transformer后来应用于CV领域，Vision Transformer（ViT）和Swin Transformer进一步发展了这一概念，将Transformer体系结构与视觉组件相结合，使Transformer能够应用于基于图像的下游系统。

1.1.3 多模态方面的技术

生成模型在不同领域的发展遵循不同的路径，但最终出现了交集——Transformer模型。

除了对单模态的优化外，这种交叉也使来自不同领域的模型能够融合在一起，以执行多模态任务。多模态领域的进展得益于扩散模型（Diffusion Model）的应用，以DALL·E 2、DALL·E 3、Stable Diffusion 2.0、Stable Diffusion XL等模型为代表。扩散模型是一种从噪声中生成图像的深度学习技术。该技术的背后，是更精准理解人类语义的预训练模型以及文本与图像统一表示模型CLIP（Contrastive Language-Image Pre-training，对比学习语言-图像预训练）的支撑。

CLIP、DALL·E、Stable Diffusion等模型为多模态模型，如图1-2所示。这些模型将Transformer模型与视觉组件相结合，允许在大量文本和图像数据上进行训练。由于在预训练中结合了视觉和语言知识，可以说，Transformer的出现让图像生成变得更具想象力。

图1-2 AIGC中的多模态模型