AIGC的发展源于早期基于概率模型和规则系统的方法,但受规则的限制。随着深度学习的兴起,深度神经网络和变分自编码器等模型取得重要突破。然后,生成对抗网络(Generative Adversarial Network, GAN)引入对抗训练机制,实现了更逼真的生成样本。Transformer模型通过自注意力机制改进了序列数据建模,开创了新思路。接着,生成式预训练Transformer(Generative Pre-trained Transformer, GPT)基于Transformer模型,通过预训练和微调解决了自然语言处理(Natural Language Processing, NLP)任务,ChatGPT扩展了GPT。最后,ChatGPT和稳定扩散(Stable Diffusion)等模型进一步推动了AIGC的发展,取得了新突破。总体而言,AIGC在各个领域都取得了显著进展,并展现了巨大的潜力。AIGC相关技术的发展历程如图1-1所示。
图1-1 AIGC相关技术的发展历程
在自然语言处理中,最早的生成句子的方法是使用N-gram语言模型学习词的分布,然后搜索最佳序列。但这种方法不能有效地适应长句子。为了解决这个问题,循环神经网络(Recurrent Neural Network, RNN)被引入语言建模任务中,它允许对相对较长的依赖关系进行建模。尤其是长短期记忆(Long Short-Term Memory, LSTM)和门控循环单元(Gated Recurrent Unit, GRU),在训练中它们利用门控机制来控制记忆,极大地提升了长距离依赖效率。不过,训练时只能从左到右或从右到左,无法并行处理,此外,词之间的距离稍长一些,它们之间的依赖性也将大大降低。
2017年由谷歌研发团队提出的Transformer模型,解决了循环神经网络的问题。Transformer模型基于一种自注意力机制,使模型能够注意到输入序列中的不同部分。它能够更好地处理长期的依赖关系,因此,在广泛的NLP任务中提高了性能。Transformer模型的另一个特性是具有高度并行性,并允许数据有效规避归纳偏置(Inductive Bias)。这些特性使得Transformer非常适合作为大规模的预训练模型,并能够适应不同的下游任务。
Transformer模型自引入NLP以来,由于其并行性和学习能力,成为自然语言处理的主流选择。一般来说,基于Transformer的预训练语言模型可以根据其训练任务分为两类:遮掩语言模型和自回归语言模型。
1)遮掩语言模型。遮掩语言模型(Masked Language Model, MLM)是指在训练过程中,随机遮掩一部分输入文本中的单词或字符,让模型预测被遮掩部分的单词或字符。遮掩语言模型的输入是整个句子,而遮掩部分的位置是通过特殊的遮掩标记表示的。通过预测被遮掩位置的单词或字符,模型能够学习到文本中不同位置之间的依赖关系和语义信息。BERT就是典型的遮掩语言模型。
2)自回归语言模型。自回归语言模型(Autoregressive Language Model, ALM)通过计算给定前文条件下当前词的概率,生成下一个可能的词或序列,它是从左到右的语言模型。与遮掩语言模型不同,自回归语言模型更适用于生成式任务。GPT就是典型的自回归语言模型。
在计算机视觉(Computer Vision, CV)中,在深度学习算法出现之前,传统的图像生成算法使用了纹理合成和纹理映射等技术。这些算法基于手工设计的特征,并且在生成复杂多样的图像方面能力有限。随着卷积神经网络(Convolutional Neural Network, CNN)的引入,CV领域迎来爆发式增长。
2013年,提出变分自编码器,尤其是2014年提出生成对抗网络,它们在各种应用中取得了令人瞩目的成绩,成为人工智能领域的里程碑。
随后生成扩散模型如去噪扩散概率模型(Denoising Diffusion Probabilistic Model,DDPM)、DALL·E、Stable Diffusion等也被开发出来,这些模型对图像生成过程进行更细粒度的控制,并能够生成高质量的图像。
Transformer后来应用于CV领域,Vision Transformer(ViT)和Swin Transformer进一步发展了这一概念,将Transformer体系结构与视觉组件相结合,使Transformer能够应用于基于图像的下游系统。
生成模型在不同领域的发展遵循不同的路径,但最终出现了交集——Transformer模型。
除了对单模态的优化外,这种交叉也使来自不同领域的模型能够融合在一起,以执行多模态任务。多模态领域的进展得益于扩散模型(Diffusion Model)的应用,以DALL·E 2、DALL·E 3、Stable Diffusion 2.0、Stable Diffusion XL等模型为代表。扩散模型是一种从噪声中生成图像的深度学习技术。该技术的背后,是更精准理解人类语义的预训练模型以及文本与图像统一表示模型CLIP(Contrastive Language-Image Pre-training,对比学习语言-图像预训练)的支撑。
CLIP、DALL·E、Stable Diffusion等模型为多模态模型,如图1-2所示。这些模型将Transformer模型与视觉组件相结合,允许在大量文本和图像数据上进行训练。由于在预训练中结合了视觉和语言知识,可以说,Transformer的出现让图像生成变得更具想象力。
图1-2 AIGC中的多模态模型