商用级AIGC绘画创作与技巧（Midjourney+Stable Diffusion）最新章节_菅小冬著

2.3　新技术的发展（21世纪10年代）

21世纪10年代，经过多年的积累，AI绘画技术进入了一个快速发展期。

ImageNet ^② 是一个庞大的视觉数据库项目，致力于推动视觉对象识别研究。该项目已经对超过1400万张图像进行了手工标注，描述图像内容，其中至少有100万张图像的标注还带有边界框。自2010年以来，ImageNet每年都会举办一次计算机视觉竞赛，以推动图像识别和分类技术的进步。

②扫码查看

在2012年的比赛中，一个名为AlexNet的深度卷积神经网络（Convolutional Neural Network, CNN）的算法表现卓越，远超其他参赛作品，赢得了冠军。这一成就被视为计算机视觉领域的一个重要里程碑，引起了广泛关注。

AlexNet主要应用于计算机视觉领域，特别是图像分类任务。然而，它的成功也对AI绘画领域产生了深远影响，许多研究人员受到启发，开始探索AI在视觉艺术领域的潜力，为后续研究和应用奠定了基础。

很快，AI从图像中识别事物的能力得到了很大提升，研究人员继续探索使用神经网络来生成图片的能力，但收效甚微，AI在创造上仍然困难重重。

2014年的一天，伊恩·古德费罗（Ian Goodfellow）和一群博士生在喝酒庆祝时，有人向他提到了一个在实验中遇到的问题：他们向算法提供了数千张人脸照片，然后要求算法利用从这些照片中学到的东西生成一张新面孔（生成建模），这个算法偶尔会奏效，但结果不是很好，也不可靠。

伊恩听后，突然想到一个绝妙的主意：既然使用一个神经网络效果不佳，那么让两个神经网络相互对抗会怎样？即为两个算法提供相同的人脸照片基础集，然后要求一个算法生成新面孔，另一个算法则对结果进行判别（生成与判别建模）。

伊恩很快完成了技术上的原型，证明了这个想法的确是可行的。这种技术如今被称为生成对抗网络（Generative Adversarial Networks, GAN） ^① ，被认为是过去20年人工智能历史上最大的进步。AI领域杰出人物、百度前首席科学家吴恩达曾如此评价：GAN代表着“一项重大而根本性的进步”。

①扫码查看

GAN的核心理念在于让两个神经网络展开激烈竞争，这两个网络分别是生成器（Generator）和判别器（Discriminator）。生成器致力于制作尽可能逼真的图像，为此，工程师们在特定的数据集（例如人脸图片）上训练算法，直到它能够可靠地识别人脸，再根据算法对人脸的理解，让生成器创造一个全新的人脸图像。而判别器则专注于识别真实图像与生成图像的差异，这个算法同样经过充分训练，可以区分人类拍摄的图像和机器生成的图像。

在训练过程中，生成器与判别器互相较量，以提升各自的性能。简单来说，生成器的目标是使产生的图像能够欺骗判别器，让判别器将生成的伪图认作真实图像；而判别器的目标则是不断提高自己的辨别能力，避免被骗过。两个模型相互对抗，共同进步，最终实现了高质量的图片生成。

GAN取得了前所未有的突破，经过良好训练的GAN能生成非常高质量的新图像，这些图像对于人类观察者来说极具真实感，几乎无法区分是真实图像还是AI生成的图像。正是因为如此，这个算法一度成为AI绘画的主流研究方向。

使用GAN生成的作品中最有名的应该是《埃德蒙德·德·贝拉米肖像》（Portrait de Edmond de Belamy，如图2-6所示），2018年该作品以432500美元的价格被售出。

图2-6　《埃德蒙德·德·贝拉米肖像》（Portrait de Edmond de Belamy），由GAN生成

为了创作这幅作品，艺术家们使用了15000幅14世纪至20世纪的肖像画对算法进行了训练，然后再让算法生成新的肖像。

这幅肖像酷似弗朗西斯·培根，引发了关于其美学和概念意义的争论，其高昂的售价也使其成为人工智能艺术史上的一个里程碑。

GAN获得了巨大的成功与关注，但也存在一些问题。例如它的生成器和判别器有时会不稳定，输出大量相似的作品；同时，GAN需要大量数据和计算能力来训练和运行，这使得它成本较高，难以推广；除此之外，由于GAN的判别器的工作原理主要是判断生成图片与输入图片是否属于同一类别，因此，从理论上来说，GAN输出的图像只是对输入图片的模仿，没有创新。

2015年，人工智能在图像识别方向上再一次取得重大进展。算法可以识别并标记图像中的对象，例如标识出图片中的人物性别、年龄、表情等。一些研究者想到，这个过程是否可以反过来呢？即通过文字来生成图像是否可以实现呢？

很快，他们迈出了第一步，算法的确可以根据输入的文字生成不同的图像。虽然在最初的实验中，这些生成的图像分辨率都极低（只有32×32像素），几乎完全看不清细节，但这已是一个让人激动的开始。

2016年，一个名为扩散模型（Diffusion Models）的新方法被提出，它的灵感来自非平衡统计物理学，通过研究随机扩散过程来生成图像。如果可以建立一个学习模型来学习由于噪声引起的信息系统衰减，那么也可以逆转这个过程，从噪声中恢复信息。

简单来说，扩散模型的原理为：首先向图片添加噪声（正向扩散），让算法在此过程中学习图像的各种特征，然后，通过消除噪声（反向扩散）来训练算法恢复原始图片。这种方法与GAN的思路截然不同，它很快便在图像生成方面取得了优于GAN的效果，同时，在视频和音频生成等领域也展现出不俗的潜力。

图2-7所示为扩散模型从噪声生成图片的过程 ^① 。

图2-7

①扫码查看

使用扩散模型，可以有条件或无条件地生成图像。

无条件生成是指算法从一张噪声图像开始，完全随机地将它转换为另一张图像，生成过程不受控制。有条件生成则是指通过文本、类标签等为算法提供额外的信息，引导或控制图像的生成。通过这些额外信息，可以通过模型来生成用户期望的图像。

目前，扩散模型是最主流的AI图片生成方法，很多著名的平台或工具都基于它。

2.3 新技术的发展（21世纪10年代）

2.3　新技术的发展（21世纪10年代）