商用级AIGC绘画创作与技巧（Midjourney+Stable Diffusion）最新章节_菅小冬著

2.4　现代AI绘画（21世纪20年代）

21世纪10年代AI绘画领域取得了很多突破性的进展，但由于成本高昂、输出不稳定等，影响范围主要还是在学术界。直到21世纪20年代，随着一些关键技术的发明和改进，AI绘画迎来了“一日千里”的飞速发展，并且终于“破圈”，开始进入大众的视野。一件有点巧合的事是，现在最流行的几个AI绘画工具或平台都是2020年之后诞生的。

2.4.1　DALL·E 2

2020年，OpenAI推出了具有突破性的深度学习算法CLIP（Contrastive Language-Image Pretraining，对比语言—图像预训练）。这一算法在人工智能领域产生了深远影响，对人工智能艺术的发展也带来了重大变革。CLIP将自然语言处理和计算机视觉相结合，能够有效地理解和分析文本与图像之间的关系，例如把“猫”这个词和猫的图像联系起来，这就为构建基于文本提示进行艺术创作的AI提供了可能。

2021年，OpenAI推出了名为DALL·E的产品，它能根据任意文字描述生成高质量图像。在此之前，虽然已经存在许多神经网络算法能够生成逼真的高质量图像，但这些算法通常需要复杂精确的设置或者输入，相较之下，DALL·E通过纯文本描述即可生成图像，这一突破性的改进极大降低了AI绘画的门槛，并迅速成为流行的标准。

2022年4月，OpenAI又发布了DALL·E 2，这个功能更为强大的版本，生成的很多图片已经基本无法与人类的作品区分。

图2-8所示是DALL·E 2官网上的一个示例。

图2-8　An astronaut riding a horse in photorealistic style一位宇航员骑着马，照片般的真实感风格

从图中可以看出，虽然细节上或多或少还有一些问题，但已经实现了从文本到图像的飞跃。

不仅如此，DALL·E 2还能扩展已有的图像。如图2-9和图2-10所示，分别为名画《戴珍珠耳环的少女》以及DALL·E 2扩展之后的效果。

图2-9　戴珍珠耳环的少女

图2-10　DALL·E 2扩展后的效果

除此之外，DALL·E 2还能编辑已有的图片，给它添加或删除元素，或者对输入图片做一些改动并保持风格。

2.4.2　Imagen

2022年4月，就在DALL·E 2发布之后不久，谷歌发布了基于扩散的图像生成算法Imagen，也是一个通过文字生成图像的工具。

图2-11～图2-14是Imagen官网上展示的一些示例。

图2-11　A photo of a raccoon wearing an astronaut helmet, looking out of the window at night
戴着宇航员头盔的浣熊在晚上望向窗外的照片

图2-12　A blue jay standing on a large basket of rainbow macarons
一只蓝鸟站在一大篮子彩虹马卡龙上

图2-13　A transparent sculpture of a duck made out of glass
一个由玻璃制成的透明的鸭子雕塑

图2-14　Sprouts in the shape of text ‘Imagen’ coming out of a fairytale book
从童话书里长出的新芽，显示为文字“Imagen”的形状

目前，谷歌的Imagen尚不向公众开放，只能通过邀请访问。

2.4.3　Stable Diffusion

2022年7月，一家创始于英国的名为StabilityAI的公司开始内测他们所开发的AI绘画产品Stable Diffusion，这是一个基于扩散模型的AI绘画产品。人们很快发现，它生成的图片质量可以媲美DALL·E 2，更关键的是，内测不到1个月，Stable Diffusion就正式宣布开源，这意味着如果有计算资源，就可以让Stable Diffusion在自己的系统上运行，还可以根据自己的需求修改代码或者训练模型，打造专属的AI绘画工具。

开源这一决策让Stable Diffusion获得了大量关注和好评，更多的人加入了它的社区，协作开发出了多个开源模型，针对各种不同的艺术风格数据集进行了精细调整。

Stable Diffusion并不是第一个采用扩散模型的产品，在它之前，有一个名为Disco Diffusion的产品曾引起过业界的关注，它也是第一个基于CLIP+Diffusion的实用化AI绘画产品。然而，Disco Diffusion存在一些较为严重的缺陷，其中最主要的两个问题是作品细节不够精细以及渲染图片所需时间过长（以小时计），不过这两个问题在Stable Diffusion中都基本得到了解决。

图2-15所示是Stable Diffusion生成的一些图像。

图2-15

可以看到，它能处理各种不同的风格，一些图片几乎与人类拍摄的照片一样真实。

2.4.4　Midjourney

Midjourney是由同名公司开发的另一种基于扩散模型的图像生成平台，于2022年7月进入公测阶段，面向大众开放。

与大部分同类服务不同，Midjourney选择在Discord平台上运行，用户无须学习各种烦琐的操作步骤，也无须自行部署，只要在Discord中用聊天的方式与Midjourney的机器人交互就能生成图片。这一平台上手门槛极低，但其生成的图片效果却不输于DALL·E和Stable Diffusion，于是很快赢得了大量用户。据Midjourney的创始人大卫·霍尔兹（David Holz）介绍，仅在发布一个月之后，Midjourney就已经盈利。

和Stable Diffusion不同，Midjourney是一个完全闭源的项目。自发布以来，Midjourney公司一直在改进算法，每隔几个月就会发布新的模型版本，截至本书编写完成，已经推出了第5版模型。

2022年9月5日，在美国科罗拉多州博览会的年度美术比赛中，一张名为《太空歌剧院》的画作获得了第一名，然而这幅画并非出自人类画家之手，而是由游戏设计师杰森·艾伦（Jason Allen）使用Midjourney生成，再经Photoshop润色而来。它是首批获得此类奖项的人工智能生成图像之一，如图2-16所示。

图2-16　Midjourney生成的作品：太空歌剧院

此事经过新闻报道之后，引起了很大的反响。一些人类艺术家为此感到愤怒，还有人认为使用AI作画并参加比赛是在作弊，就如同让机器人去参加体育竞赛一样。不过作者艾伦回应：“我不会为此道歉。我赢了，我没有违反任何规则。”两个类别的评委之前并不知道艾伦使用Midjourney来生成图像，但后来他们都说如果他们知道这一点，他们同样会授予艾伦最高奖项。

2.4 现代AI绘画（21世纪20年代）

2.4.1 DALL·E 2

2.4.2 Imagen

2.4.3 Stable Diffusion

2.4.4 Midjourney

2.4　现代AI绘画（21世纪20年代）

2.4.1　DALL·E 2

2.4.2　Imagen

2.4.3　Stable Diffusion

2.4.4　Midjourney