AIGC设计创意新未来最新章节_Nolibox计算美学著

第3节
GAN：在自我对抗中成长

虽然VAE从理论上已经解决了不少问题，但在实际应用时（正如上一节最后两张图所示），大家还是发现了它能力上的局限性：无法生成高清的图片，或者说生成的图片往往比较小、比较糊。这可以说是“成也VAE、败也VAE”：因为VAE比起AE最大的改进就是对AI的理解进行了约束，但这种约束虽然能带来更强的稳定性，却也限制了AI的发挥，导致它有些“保守”，或者说“缚手缚脚”。

事实上，仅从清晰度来说，AE是要比VAE好一些的。也正因为如此，后面学者们取长补短，研发出了VQ-VAE模型，这一模型兼顾了清晰度与约束性。不过由于VQ-VAE和本章主干不甚相关，故在此略去不表。

回顾VAE的重要思想，我们发现主要有两个：

采用“先模仿，再创作”的学习路径。

采用“标准正态分布”去约束AI的理解。

由于“对AI的理解做约束”这种思想是具有普适性的，所以除了开发出VAE的学者之外，也有另一部分学者在该思想的引导下进行研究。但是，与AE→VAE这种路线不同，这些学者并没有继续沿用“先模仿，再创作”的思路，而是另辟蹊径，尝试让AI进行自我对抗。

在这种自我对抗的思想下，学者们于2014年提出了“生成对抗网络”（Generative Adversarial Networks, GAN），它由生成器（Generator）和判别器（Discriminator）两部分组成。其中，生成器的作用是直接生成图像，而判别器的作用则是判断图像是真实的还是虚假的。如此，生成器和判别器在不断对抗中互相学习和优化，从而不断提高生成器生成图像的质量。需要注意的是，这里的生成器也是从“标准正态分布”出发去生成图像的，所以也可以认为生成器学会了如何把“标准正态分布”中的一个数据，转换成真实世界中的一张图片。

经过学者们的研究与优化，时至今日，GAN模型已经可以生成非常逼真的图像了，因此它被广泛应用于各种AI绘画领域，如人脸生成、艺术风格转换、图像修复等任务中。

图2-7 基于GAN的风格迁移效果

（资料来源：https://github.com/junyanz/CycleGAN）

图2-8 基于GAN的图像修复的效果图

（资料来源：https://github.com/TencentARC/GFPGAN）

图2-9 基于StyleGAN的人脸生成效果

（资料来源：https://github.com/NVlabs/stylegan）

需要指出的是，GAN模型的训练过程是非常复杂的，要通过一定的技巧才能得到较好的效果。此外，GAN模型还存在一些问题，比如模型稳定性、生成多样性等方面的问题。针对这些问题，学者们提出了一些改进方法，如WGAN、CycleGAN、StyleGAN等。这些模型的提出进一步推动了AI绘画领域的发展，特别是StyleGAN（以及后面持续更新优化的StyleGAN2、StyleGAN3），它已经可以生成非常逼真的图片，所以被视为是 GAN里程碑式的模型之一。

第3节 GAN：在自我对抗中成长

回顾VAE的重要思想，我们发现主要有两个：

第3节
GAN：在自我对抗中成长