进入Stable Diffusion主界面后,用户可以看到界面布局大致分成4个部分:菜单栏界面、提示词输入区、参数设置区和图像生成区。
如图1.3-1所示,用户可以在菜单栏界面中设置模型类型,并选择自己想用的功能。
图1.3-1
Stable Diffusion模型:用于大模型的切换,在安装模型的步骤中,将下载的模型放入指定的文件夹后,该模型就会出现在这里的下拉列表中。右击,在弹出的下拉菜单栏中选择自己想用的模型,即可完成模型的切换。
大模型是指通过大量的图像训练出来的成熟的绘画模型,又称基础模型、底模型或者主模型。具体模型类型详见1.4节。
外挂VAE模型:VAE(Variational AutoEnconder,变分自编码器)类似于一个有滤镜和微调功能的小模型或插件,在出图时,会对画面的颜色和线条产生影响。可以根据具体需求决定模型是否与VAE配合使用。不加VAE和加了VAE的图像的对比如图1.3-2和图1.3-3所示。
图1.3-2
图1.3-3
功能选项卡:每个选项卡中的选项对应了不同的功能,常用的选项卡包括文生图、图生图、后期处理和模型融合等。
● 文生图: 根据文本提示生成图像(具体操作详见第2章)。
● 图生图: 在提供的图像基础上,结合文本提示生成新图像(具体操作详见第3章)。
● 后期处理: 优化、清晰、扩展图像。
● PNG图片信息: 导入图像后,可以显示出提示词和模型等基本信息。
● 模型融合: 将多个模型按不同的比例进行合并,从而生成新模型。
● 训练: 根据提供的图像数据训练某种特定风格的模型。
● OpenPose编辑器: 实现定制化的人物姿势绘画。
● 3D骨架模型编辑: 在3D环境下,根据自身需求变换人物骨骼位置,从而实现更精准的人物姿势绘画。
● isnet_Pro: 实现视频帧的批量处理。
● Additional Networks: 控制多个LoRA模型生成的混合风格的图像。
● mov2mov: 动画插件之一,提取原视频的帧,并将每一帧按照设置的模型和提示词进行重绘,组合输出新视频。
● 图库浏览器: 查看之前创作的图像,并进行各种操作,如添加到收藏夹、再次生成、删除等。
● WD1.4标签器: 反向解析图像,倒推提示词。
● 设置: Stable Diffusion的各项设置。
● 扩展: 插件的安装与更新。
如图1.3-4所示,提示词输入区分为正向提示词填写栏和反向提示词填写栏,分别用来控制画面中需要出现的元素和画面中不需要出现的元素(具体详见2.1节)。
图1.3-4
如图1.3-5所示,不同的参数设置会影响Stable Diffusion最后生成的画面。下面简单介绍各项参数的功能及设置。
图1.3-5
● 采样方法(Sampler): 图像去噪、提升画面质量的方法。
如图1.3-6所示,采样方法有很多种,但常用的采样方法有Euler a和DPM++系列。它们的区别见表1.3-1。不同的采样方法生成的效果分别如图1.3-7~图1.3-9所示。
表1.3-1 采样方法的区别
图1.3-6
图1.3-7
图1.3-8
图1.3-9
● 迭代步数: 程序的运行时间和计算次数,用于控制生成图像的精细程度。通常来说,迭代步数越大,画面的精细度就越高。但数值越大,对计算机显卡的要求就越高,出图速度就越慢。超过一定迭代步数后,对图像的提升效果也非常有限,可能会发生边境效应,造成画面扭曲。所以并不是迭代步数越大越好,默认设置为20,一般设置范围在20~30。不同的迭代步数生成的效果分别如图1.3-10~图1.3-15所示。
图1.3-10
图1.3-11
图1.3-12
图1.3-13
图1.3-14
图1.3-15
● 面部修复: 修复人像的面部细节。
● 平铺图(Tiling): 对有规律、重复度较高的图像进行无缝拼接,并将接缝处进行较好的融合。
● 高分辨率修复(Hires.fix): 在不改变构图的情况下改进图像中的细节,将生成的图像进一步放大。
在勾选“高分辨率修复(Hires.fix)”选项后,会弹出图1.3-16所示的选项区。在该选项区中包括以下参数。
■ 放大算法: 放大算法有很多种,如图1.3-17所示。一般情况下,动漫风格图像推荐使用R-ESRGAN 4x+放大算法,写实风格图像推荐使用R-ESRGAN 4x+Anime6B放大算法。
图1.3-16
图1.3-17
■ 高分迭代步数: 高质量、高分辨率的迭代次数,通常设置为0,即采用原图像。
■ 重绘幅度: 对原图像内容的保留程度。数值越高,放大后的图像和原图像之间的差别就越大。通常情况下设置为0.3~0.7,超过0.7之后,新图像和原图像基本无关,小于0.3则差别不明显。不同的重绘幅度生成的效果分别如图1.3-18~图1.3-21所示。
图1.3-18
图1.3-19
图1.3-20
图1.3-21
■ 放大倍数: 通常设置为2倍。
● 宽度和高度: 即分辨率,其数值越高,像素就越高。但同样会影响画面的生成结果,分辨率越高,生成图像的时间也相对延长。
● 总批次数和单批数量: 总批次数是指生成几批图像,单批数量是指一次运行生成的图像数量。
● 提示词引导系数(CFG Scale): 提示词对生成的图像的影响程度。数值较低的情况下,生成的图像会更随机,与提示词之间的关联不大;较高的数值将提高生成结果与提示词的匹配度。通常情况下,建议参数设置为7~12。例如,输入提示词:1 girl, wearing a blue Hanfu, wearing an elaborate headdress(一个女孩,穿着蓝色的汉服,头上戴着精致的头饰)。不同的提示词引导系数值生成的效果分别如图1.3-22~图1.3-24所示。
图1.3-22
图1.3-23
图1.3-24
● 随机数种子(Seed): 每张图像的唯一编码。如图1.3-25所示,当单击右侧的骰子图标,将种子数值设置为-1时,图像将随机生成。如果遇到喜欢的图像,可以单击绿色循环图标,将自动填入图像的种子数值,保证后续生成的图像与原图相似。
图1.3-25
在输入提示词并设置好参数后,单击右侧的“生成”按钮,就可以生成图像了,如图1.3-26所示。
图1.3-26
“生成”按钮下的5个图标的功能从左至右分别为:读取上一次生成的图像的提示词;清除输入的提示词;显示或隐藏扩展模型;读取保存的提示词;保存提示词。
如图1.3-27所示,最后生成的图像会出现在下方的图像展示区。用户可以根据生成的图像质量和自身需求决定是否要进行后期处理(继续图生图或无损放大等)。
图1.3-27