随着大型文字到图像模型的兴起,通过AI作图的门槛越来越低,但是单纯通过提示词生成图像有着一定的局限性,使用提示词进行控制会受到token数量和提示词复杂度的限制。随着提示词变得越来越复杂,生成图像的要求也就越来越高,可控性则变得更差。对于某些特定任务,更精细的控制是必需的。单纯的大型模型可能面临过拟合和泛化能力不足的问题,这在特定任务面前尤为显著。因此,我们需要进一步探索和发展用于图像生成的更高级技术和方法,以克服这些问题并提升模型的性能和可控性。
为了应对这些问题,研究人员提出了一种名为ControlNet的框架。该框架可以根据用户提供的提示词和控制生成高质量的图像,并且可以通过微调在特定任务中提高性能。通过这种方式,我们可以更好地满足特定任务的需求,并充分利用大型模型的潜力。
ControlNet是一种控制Stable Diffusion模型的神经网络模型,目前已经以插件的形式内嵌在Stable Diffusion Web UI中,我们可以在任何基于Stable Diffusion 1.5或者2.0的模型上使用ControlNet来进一步控制图像的输出。这种输出不限于通过OpenPose控制人物的姿态,通过Canny等模型获取物体的边缘以便进行新纹理的填充,并且可以使用Depth maps模型来获取深度信息以便生成更有立体空间的图像,从而控制前景和背景的生成。