购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.1 常用Stable Diffusion界面的优缺点

1 WebUI

我们在计算机上使用各种软件时,通常与软件的界面打交道,很少关心这些软件的实现原理以及底层代码如何运作。然而,Stability AI公司起初只发布了Stable Diffusion的代码,甚至没有提供任何交互界面。普通用户下载这些代码后只能望洋兴叹。直到开源社区中的一位ID为Automatic1111的用户把模型代码打包成图形界面,我们才能通过命令和选项的方式指挥Stable Diffusion生成图片。因为这个图形界面在网页浏览器中运行,所以被称作WebUI。同时,Automatic1111这个ID也成了WebUI的代名词。在ComfyUI中经常可以看到名称为Automatic1111或1111的选项,这些选项基本上都代表着兼容WebUI的运行机制。

因为没有选择的余地,所以Stable Diffusion的早期用户都是从WebUI开始接触AI绘图的。WebUI采用了常规软件的界面布局和控件类型,虽然初看略显简陋,但胜在直观明了,而且符合大多数人的操作习惯,如图1-1所示。

图1-1

WebUI的最大优点是操作起来比较简单。当然,这里的“简单”是相对的,很多新用户仍然会被层出不穷的名词和大量参数选项难住。但是,当你使用过ComfyUI后,回头再看WebUI,就会深刻感受到WebUI的简洁。

WebUI的另一个优点是成熟的开源生态。因为具有先发优势,所以WebUI的插件数量众多,而且网络上的学习资料丰富,新用户的学习门槛相对较低。然而,WebUI在显存调度方面存在问题。众所周知,AI绘图对显存的要求较高,单单载入一个SDXL版的大模型就需要8GB以上的显存,再加上高清修复和各种插件的使用,低容量显存的用户可能会频繁遭遇显存溢出报错的困扰。尽管WebUI和后来的ForgeUI在显存调度方面付出过很多努力,但由于底层架构的原因,仍然无法达到ComfyUI的使用体验。

2 ForgeUI

ForgeUI的开发者是张吕敏,他也是著名插件ControlNet、Layer Diffusion、ICLight和AI绘图工具Fooocus的开发者。ForgeUI在WebUI的基础上进行了一系列的底层代码优化,可以有效降低显存的占用率,减少因显存不足导致的报错或性能下降问题,提升了低显存用户的使用体验。

ForgeUI的界面和WebUI完全一致,大部分插件也是通用的,WebUI用户可以无缝迁移到ForgeUI。另外,ForgeUI还集成了一些WebUI中没有的功能,很多最前沿的插件,例如生成透明图层的Layer Diffusion、制作动画的SVD等,都能第一时间在ForgeUI中使用,如图1-2所示。

图1-2

ForgeUI通过代码优化、分块生成和显存释放等手段,虽然改善了显存溢出的问题,但是对于配备了6GB和8GB显存的显卡来说,这种程度的改善只是让其“可以”生成图片。一旦涉及高清重绘和超清放大,就只能在降速模式下勉强运行。低显存用户要想获得更高画质或者体验前沿功能和新模型,要么换显卡,要么转移到ComfyUI。

3 ComfyUI

WebUI和ForgeUI就像是已经出厂的汽车,用户只需要学会如何驾驶即可。而ComfyUI采用了点式的界面设计,相当于只提供了各种各样的零部件,用户不仅要学习驾驶,还要像技师那样掌握一定的装配技能,如图1-3所示。

图1-3

ComfyUI的优势主要体现在4个方面。首先,ComfyUI的灵活度非常高,用户可以自由组合节点,就像拼装乐高玩具那样,把各种各样的节点组装成自行车、汽车、拖拉机,甚至是火车,从而实现不同的任务目标。更重要的是,每个工作流都可以打造成自动运行的“小程序”,只需输入一段文字或者上传一张图片,就能实现一键换装、卡通头像生成、老照片修复等效果。

其次,ComfyUI只需在界面中拖入工作流文件或生成的图片,就能完美还原所有节点体系和设置参数,轻松实现工作流的重复使用。这就意味着初学者不仅可以通过“抄作业”的方式学习其他用户分享的工作流,还能随时从网络上调用数以千计的“成品”资源,如图1-4所示。

图1-4

再次,ComfyUI更节省显存,生成图片的速度也更快。WebUI相当于一个必须加载所有节点的工作流,而ComfyUI可以自由选配组件,不需要的就不添加,即使添加了节点,不运行时也不会载入显存,而且只要不更改设置参数,运行过的节点就不需要重新计算。因此,可以大幅度减少显存溢出报错的问题,同样的显卡可以生成分辨率更高的图片。

最后,ComfyUI的架构比较开放,很多最新、最前沿的模型和插件都会首先应用到ComfyUI中,而WebUI的用户需要等待一段时间后才能体验。

ComfyUI的缺点是学习门槛较高。以汽车举例,WebUI的用户只需负责开车,记住常用的参数和操作即可。而ComfyUI的用户既要学会开车又要掌握组装技能,没有一定的理论功底很难驾驭复杂的流程。此外,在一些比较简单的应用场景中,由于需要搭建和改造工作流的过程,ComfyUI在操作方面比WebUI烦琐得多。

当然,WebUI和ComfyUI不是非此即彼的关系,因为最占用磁盘空间的模型文件大部分可以共享,所以很多用户会同时安装两套界面。普通的任务可以在自己更熟悉或者实现起来更方便的界面中进行,遇到需要自动运行或者WebUI无法实现的任务时,再使用ComfyUI。

有时,我们还可以把两者的优势结合起来。例如,在WebUI中可以非常方便地使用ControlNet的Tile模型来修复图片,手部的修复效果也更好。要想在ComfyUI中实现从图片生成到手部修复,再到全图重绘的完整流程,需要创建非常多的节点,且效果可能还比不上WebUI。如果只从效率和实用性的角度出发,完全可以让WebUI接力完成这部分的后期处理工作。

4 SwarmUI

SwarmUI是Stability AI官方发布的界面。第一眼看上去,这个界面和WebUI差别不大,都是通过现成的参数选项生成图片,如图1-5所示。

图1-5

切换到“Comfy工作流编辑器”选项卡后,我们会发现这里原封不动地复刻了ComfyUI,如图1-6所示。由此可知,SwarmUI的目标是把WebUI和ComfyUI结合起来,分别执行简单的任务和复杂的流程。

图1-6

可惜的是,这个界面似乎有些“生不逢时”,未能引起Stable Diffusion用户太大的兴趣。原因很简单,从本质上讲,SwarmUI的核心还是ComfyUI。许多用户之所以保留WebUI和ComfyUI两套体系,是因为看重各自的生态,而不仅仅是依赖两套界面的简单结合。此外,更换新界面意味着需要重新下载和配置各种插件和模型,同时还面临不确定性的风险。只是增加一个集成窗口,很难说服用户放弃更为成熟的体系。 ivLv9HdVKxwxpUg1NOP4H3cXzw5rfMXIgR03eITosgWFUOepL5omyImgyuVbWTBJ

点击中间区域
呼出菜单
上一章
目录
下一章
×