AI绘画工坊：Stable Diffusion从入门到实践（68集视频课+40个绘画案例）最新章节_罗巨浪著

1.3　Stable Diffusion的界面简介

进入Stable Diffusion主界面后，用户可以看到界面布局大致分成4个部分：菜单栏界面、提示词输入区、参数设置区和图像生成区。

1.3.1　菜单栏界面

如图1.3-1所示，用户可以在菜单栏界面中设置模型类型，并选择自己想用的功能。

图1.3-1

Stable Diffusion模型：用于大模型的切换，在安装模型的步骤中，将下载的模型放入指定的文件夹后，该模型就会出现在这里的下拉列表中。右击，在弹出的下拉菜单栏中选择自己想用的模型，即可完成模型的切换。

小贴士

大模型是指通过大量的图像训练出来的成熟的绘画模型，又称基础模型、底模型或者主模型。具体模型类型详见1.4节。

外挂VAE模型：VAE（Variational AutoEnconder，变分自编码器）类似于一个有滤镜和微调功能的小模型或插件，在出图时，会对画面的颜色和线条产生影响。可以根据具体需求决定模型是否与VAE配合使用。不加VAE和加了VAE的图像的对比如图1.3-2和图1.3-3所示。

图1.3-2

图1.3-3

功能选项卡：每个选项卡中的选项对应了不同的功能，常用的选项卡包括文生图、图生图、后期处理和模型融合等。

●　文生图： 根据文本提示生成图像（具体操作详见第2章）。

●　图生图： 在提供的图像基础上，结合文本提示生成新图像（具体操作详见第3章）。

●　后期处理： 优化、清晰、扩展图像。

● PNG图片信息： 导入图像后，可以显示出提示词和模型等基本信息。

●　模型融合： 将多个模型按不同的比例进行合并，从而生成新模型。

●　训练： 根据提供的图像数据训练某种特定风格的模型。

● OpenPose编辑器： 实现定制化的人物姿势绘画。

● 3D骨架模型编辑： 在3D环境下，根据自身需求变换人物骨骼位置，从而实现更精准的人物姿势绘画。

● isnet_Pro： 实现视频帧的批量处理。

● Additional Networks： 控制多个LoRA模型生成的混合风格的图像。

● mov2mov： 动画插件之一，提取原视频的帧，并将每一帧按照设置的模型和提示词进行重绘，组合输出新视频。

●　图库浏览器： 查看之前创作的图像，并进行各种操作，如添加到收藏夹、再次生成、删除等。

● WD1.4标签器： 反向解析图像，倒推提示词。

●　设置： Stable Diffusion的各项设置。

●　扩展： 插件的安装与更新。

1.3.2　提示词输入区

如图1.3-4所示，提示词输入区分为正向提示词填写栏和反向提示词填写栏，分别用来控制画面中需要出现的元素和画面中不需要出现的元素（具体详见2.1节）。

图1.3-4

1.3.3　参数设置区

如图1.3-5所示，不同的参数设置会影响Stable Diffusion最后生成的画面。下面简单介绍各项参数的功能及设置。

图1.3-5

●　采样方法（Sampler）： 图像去噪、提升画面质量的方法。

如图1.3-6所示，采样方法有很多种，但常用的采样方法有Euler a和DPM++系列。它们的区别见表1.3-1。不同的采样方法生成的效果分别如图1.3-7~图1.3-9所示。

表1.3-1　采样方法的区别

图1.3-6

图1.3-7

图1.3-8

图1.3-9

●　迭代步数： 程序的运行时间和计算次数，用于控制生成图像的精细程度。通常来说，迭代步数越大，画面的精细度就越高。但数值越大，对计算机显卡的要求就越高，出图速度就越慢。超过一定迭代步数后，对图像的提升效果也非常有限，可能会发生边境效应，造成画面扭曲。所以并不是迭代步数越大越好，默认设置为20，一般设置范围在20~30。不同的迭代步数生成的效果分别如图1.3-10~图1.3-15所示。

图1.3-10

图1.3-11

图1.3-12

图1.3-13

图1.3-14

图1.3-15

●　面部修复： 修复人像的面部细节。

●　平铺图（Tiling）： 对有规律、重复度较高的图像进行无缝拼接，并将接缝处进行较好的融合。

●　高分辨率修复（Hires.fix）： 在不改变构图的情况下改进图像中的细节，将生成的图像进一步放大。

在勾选“高分辨率修复（Hires.fix）”选项后，会弹出图1.3-16所示的选项区。在该选项区中包括以下参数。

■　放大算法： 放大算法有很多种，如图1.3-17所示。一般情况下，动漫风格图像推荐使用R-ESRGAN 4x+放大算法，写实风格图像推荐使用R-ESRGAN 4x+Anime6B放大算法。

图1.3-16

图1.3-17

■　高分迭代步数： 高质量、高分辨率的迭代次数，通常设置为0，即采用原图像。

■　重绘幅度： 对原图像内容的保留程度。数值越高，放大后的图像和原图像之间的差别就越大。通常情况下设置为0.3~0.7，超过0.7之后，新图像和原图像基本无关，小于0.3则差别不明显。不同的重绘幅度生成的效果分别如图1.3-18~图1.3-21所示。

图1.3-18

图1.3-19

图1.3-20

图1.3-21

■　放大倍数： 通常设置为2倍。

●　宽度和高度： 即分辨率，其数值越高，像素就越高。但同样会影响画面的生成结果，分辨率越高，生成图像的时间也相对延长。

●　总批次数和单批数量： 总批次数是指生成几批图像，单批数量是指一次运行生成的图像数量。

●　提示词引导系数（CFG Scale）： 提示词对生成的图像的影响程度。数值较低的情况下，生成的图像会更随机，与提示词之间的关联不大；较高的数值将提高生成结果与提示词的匹配度。通常情况下，建议参数设置为7~12。例如，输入提示词：1 girl, wearing a blue Hanfu, wearing an elaborate headdress（一个女孩，穿着蓝色的汉服，头上戴着精致的头饰）。不同的提示词引导系数值生成的效果分别如图1.3-22~图1.3-24所示。