购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第3节
GAN:在自我对抗中成长

虽然VAE从理论上已经解决了不少问题,但在实际应用时(正如上一节最后两张图所示),大家还是发现了它能力上的局限性:无法生成高清的图片,或者说生成的图片往往比较小、比较糊。这可以说是“成也VAE、败也VAE”:因为VAE比起AE最大的改进就是对AI的理解进行了约束,但这种约束虽然能带来更强的稳定性,却也限制了AI的发挥,导致它有些“保守”,或者说“缚手缚脚”。

事实上,仅从清晰度来说,AE是要比VAE好一些的。也正因为如此,后面学者们取长补短,研发出了VQ-VAE模型,这一模型兼顾了清晰度与约束性。不过由于VQ-VAE和本章主干不甚相关,故在此略去不表。

回顾VAE的重要思想,我们发现主要有两个:

采用“先模仿,再创作”的学习路径。

采用“标准正态分布”去约束AI的理解。

由于“对AI的理解做约束”这种思想是具有普适性的,所以除了开发出VAE的学者之外,也有另一部分学者在该思想的引导下进行研究。但是,与AE→VAE这种路线不同,这些学者并没有继续沿用“先模仿,再创作”的思路,而是另辟蹊径,尝试让AI进行自我对抗。

在这种自我对抗的思想下,学者们于2014年提出了“生成对抗网络”(Generative Adversarial Networks, GAN),它由生成器(Generator)和判别器(Discriminator)两部分组成。其中,生成器的作用是直接生成图像,而判别器的作用则是判断图像是真实的还是虚假的。如此,生成器和判别器在不断对抗中互相学习和优化,从而不断提高生成器生成图像的质量。需要注意的是,这里的生成器也是从“标准正态分布”出发去生成图像的,所以也可以认为生成器学会了如何把“标准正态分布”中的一个数据,转换成真实世界中的一张图片。

经过学者们的研究与优化,时至今日,GAN模型已经可以生成非常逼真的图像了,因此它被广泛应用于各种AI绘画领域,如人脸生成、艺术风格转换、图像修复等任务中。

图2-7 基于GAN的风格迁移效果

(资料来源:https://github.com/junyanz/CycleGAN)

图2-8 基于GAN的图像修复的效果图

(资料来源:https://github.com/TencentARC/GFPGAN)

图2-9 基于StyleGAN的人脸生成效果

(资料来源:https://github.com/NVlabs/stylegan)

需要指出的是,GAN模型的训练过程是非常复杂的,要通过一定的技巧才能得到较好的效果。此外,GAN模型还存在一些问题,比如模型稳定性、生成多样性等方面的问题。针对这些问题,学者们提出了一些改进方法,如WGAN、CycleGAN、StyleGAN等。这些模型的提出进一步推动了AI绘画领域的发展,特别是StyleGAN(以及后面持续更新优化的StyleGAN2、StyleGAN3),它已经可以生成非常逼真的图片,所以被视为是 GAN里程碑式的模型之一。 Va8oCnqoEofDrvKtCO49BYVen/UCbLsuhM1BiXXe4l7BTe1rQMyXPk0aEEOzw9bW

点击中间区域
呼出菜单
上一章
目录
下一章
×