AI创意绘画与视频制作：基于Stable Diffusion和ControlNet最新章节_马健健著

4.1　ControlNet的基本概念

随着大型文字到图像模型的兴起，通过AI作图的门槛越来越低，但是单纯通过提示词生成图像有着一定的局限性，使用提示词进行控制会受到token数量和提示词复杂度的限制。随着提示词变得越来越复杂，生成图像的要求也就越来越高，可控性则变得更差。对于某些特定任务，更精细的控制是必需的。单纯的大型模型可能面临过拟合和泛化能力不足的问题，这在特定任务面前尤为显著。因此，我们需要进一步探索和发展用于图像生成的更高级技术和方法，以克服这些问题并提升模型的性能和可控性。

为了应对这些问题，研究人员提出了一种名为ControlNet的框架。该框架可以根据用户提供的提示词和控制生成高质量的图像，并且可以通过微调在特定任务中提高性能。通过这种方式，我们可以更好地满足特定任务的需求，并充分利用大型模型的潜力。

ControlNet是一种控制Stable Diffusion模型的神经网络模型，目前已经以插件的形式内嵌在Stable Diffusion Web UI中，我们可以在任何基于Stable Diffusion 1.5或者2.0的模型上使用ControlNet来进一步控制图像的输出。这种输出不限于通过OpenPose控制人物的姿态，通过Canny等模型获取物体的边缘以便进行新纹理的填充，并且可以使用Depth maps模型来获取深度信息以便生成更有立体空间的图像，从而控制前景和背景的生成。

4.1 ControlNet的基本概念

4.1　ControlNet的基本概念