购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第2节
AI绘画的前世今生

2022年8月,在美国科罗拉多州博览会举办的一场艺术博览会上,一幅名为《太空歌剧院》的画作获得了数字艺术奖项类的一等奖。画面展现的场景相当震撼,几个穿着复古长裙的女人站在华丽的宫殿之中,背后是宏大广袤的宇宙。获奖之后,“原作者”贾森·艾伦公开承认,《太空歌剧院》这幅画作是通过AI绘图软件制作的,整个过程耗时80个小时,调整了近千版。但伴随而来的,除了大家对生成式AI技术能力的惊叹以外,还有全球设计创意从业者针对AI绘画这种创作形式的各类争议。

图1-5 知名AI绘画作品《太空歌剧院》

(资料来源:https://www.nytimes.com/2022/09/02/technology/ai-artificial-intelligence-artists.html)

绘画一直以来都被认为是人类独有的一种艺术创作形式,是一种基于“非线性的直觉思维”对于客观世界的主观表达,这种表达形式伴随着我们“从人猿进化到现代人类”的漫漫历史长河,也是在早期AI浪潮席卷全球的情况下被认为“最不可能被替代”的创造性工作。当AI技术不断赋能自动驾驶、工业安防、金融反欺诈等领域时,我们普遍会认为AI替代的是一些相对“结构化”的、以“重复劳动”为显著特征的工作场景。但现实给了大家一记响亮的耳光,在AIGC底层技术的爆发下,2022年起,以Stable Diffusion、OpenAI、DALL·E2为代表的文本生成图像(Text2Img)模型让“AI绘画品”以一种无限接近“人类创作表达的手段”出现在大家面前。虽然很多人发表观点说,“目前AI绘画只是基于不同视觉艺术家的绘画作品进行拟合,算不上真正的创作”“AI绘画只是抄袭临摹,它没有灵魂”,对这些观点我们持保留意见,此时距离“AI绘画的惊艳效果”受到大家认可仅过去了一年时间,这只是AI在艺术创作领域从“量变到质变”的奇点事件开端。结合AI绘画的标志性事件——作品《太空歌剧院》获奖,绘画艺术也被AI赋予了新的生命形态。

图1-6 AI产出的各种绘画作品

(资料来源:Nolibox画宇宙)

图1-7 AI绘画技术的发展流程图

图1-8 AI绘画发展大事记

图1-8 AI绘画发展大事记(续)

其实学界对于AI绘画的研究及关注远比我们想象的要早很多,其中最早的研究可以追溯到20世纪60年代,那时研究人员开始尝试使用计算机生成图案和几何形状。但是由于当时计算机技术水平还不够先进,因此上述方法生成的作品缺乏艺术性和创造性。随着计算机技术的快速发展,AI绘画的研究也取得了很大的进展。

我们基于AI绘画的不同发展阶段特征,系统地把AI绘画整理归纳为“初创阶段(1960年代—1980年代、探索阶段(1990年代—2010年代)、突破阶段(2010年代—2020年代)、革命阶段(2020年至今)”四个阶段并给出初步定义。

AI绘画从初创阶段的简单图形生成,到探索阶段的复杂系统与虚拟生物,再到深度学习革命阶段的神经网络与生成对抗网络的突破,最后发展到智能创作阶段的个性化艺术生成,不断地拓展着人工智能在艺术领域的应用范围和可能性。

一、初创阶段(1960年代—1980年代)

在1963年,A.迈克·诺尔(A. Michael Noll)开发了一个名为“Gaussian-Quadratic”的程序,这是一个基于算法的计算机绘画程序,旨在模拟手绘效果。诺尔和他在贝尔实验室的同事贝拉·朱尔斯(Bela Julesz)于1965年4月在纽约的霍华德·怀斯(Howard Wise)画廊联合举办了他们的作品展。该展览名为“计算机生成图片”,也是世界上最早的数字图像展览之一。诺尔还尝试为Gaussian-Quadratic注册版权,但最初被拒绝,其理由是“机器已经生成了作品”。正如诺尔解释的那样,“如果版权最终被接受,那么Gaussian-Quadratic可能成为是第一个使用数字计算机制作的受版权保护的艺术作品。”但由于Gaussian-Quadratic只能完成相对抽象的随机几何图形的阵列,没有办法对更加具象、成熟的艺术风格进行表达,因此很多学者并不认可该系统为最早的计算机绘画系统。

图1-9 Gaussian-Quadratic计算机生成系列图片1964—1965

〔资料来源:维多利亚和阿尔伯特博物馆(Victoria and Albert Museum, London )https://www.vam.ac.uk/〕

时间来到1973年,来自美国的艺术家、画家——加利福尼亚大学圣地亚哥分校教授哈罗德·科恩(Harold Cohen)开发了一种名为“AARON”的计算机绘画系统,该系统使用基于符号规则的方法来生成图像。科恩开发AARON的目标是能够对绘画行为进行编码。不同于现在AI作画是输出数字化图像,AARON真的是用计算机控制机械臂使用画笔和颜料在现实中完成绘画。

图1-10 哈罗德·科恩1974—1982 年绘制的计算机生成手绘着色图

〔资料来源:维多利亚和阿尔伯特博物馆(Victoria and Albert Museum, London )https://www.vam.ac.uk/〕

科恩对AARON的改进一直持续了几十年,直到他离世。在20世纪80年代,ARRON“掌握”了三维物体的绘制;20世纪90年代,AARON能够使用多种颜色进行绘画。直到今天,ARRON据称仍然在创作。不过,AARON的代码没有开源,所以其作画的细节无人知晓,但可以猜测,ARRON只是以一种复杂的编程方式描述了作者科恩本人对绘画的理解——这也是为什么ARRON经过几十年的学习迭代,最后仍然只能产出色彩艳丽的抽象派风格画作,这正是哈罗德·科恩本人的抽象色彩绘画风格。科恩用了几十年时间,把自己对艺术的理解和表现方式通过程序指导机械臂呈现在了画布上。尽管AARON是一个比较早期的尝试,但是它打开了AI绘画的新篇章,也是真正意义上的第一个计算机绘画系统。

图1-11 哈罗德·科恩

图1-12 1995 年,AARON的彩色版本在计算机博物馆创建的第一张图像的细节。

〔资料来源:美国计算机历史博物馆举办的“机器人艺术家:活色彩的亚伦”专题展(The Computer History Museum' s exhibition "The Robotic Artist: AARON in Living Color")〕

二、探索阶段(1990年代—2010年代)

时间快进到1991年,计算机图形学家、程序员和艺术家卡尔·西姆斯(Karl Sims)利用遗传算法创建了一种名为“Evolved Virtual Creatures”的虚拟生物,这是一种基于计算机模拟的演化艺术形式。在这个项目中,西姆斯通过计算机程序模拟生物演化的过程,创造出了一系列具有独特形态和行为的虚拟生物。

这些虚拟生物是通过一种名为遗传算法的优化方法生成的。遗传算法受到自然界生物进化机制的启发,通过模拟基因突变、重组和自然选择等过程,逐步优化和改进解决方案。在“Evolved Virtual Creatures”项目中,遗传算法被用来优化虚拟生物的形状、结构和行为,以适应特定的虚拟环境和任务。“Evolved Virtual Creatures”的成功实验展示了计算机科学、遗传算法和艺术之间的紧密联系,为后来的计算机生成艺术和AI绘画的发展奠定了基础。通过模拟生物演化的过程,艺术家和研究者们可以探索新的艺术形式和创作方法,从而拓宽艺术创作的视野。

图1-13 卡尔·西姆斯利用遗传算法创建的虚拟生物

时间很快来到一年后的1992年,拥有计算机科学家和艺术家双重身份的斯科特·德拉维斯(Scott Draves)提出了一种名为“Flame”的算法,通过数学公式生成具有抽象艺术效果的图像。Flame算法是一种基于分形和迭代函数系统(IFS)的计算机生成艺术技术,它将复杂的数学变换应用于图像空间,从而产生独特的视觉效果和形状。

Flame算法的核心思想是将多个简单的数学变换组合在一起,形成一种非线性迭代过程。通过反复迭代这些变换,算法可以生成具有丰富细节和自相似性质的分形图像。这些图像通常具有柔和的曲线、流动的形状和独特的纹理,类似于火焰、烟雾或水墨画等自然现象,因此得名“Flame”。

自从斯科特·德拉维斯在1992年首次提出Flame算法以来,该技术已经在计算机生成艺术领域得到了广泛的应用和认可。许多艺术家和设计师使用Flame算法创作了令人惊叹的抽象艺术作品,这些作品在画廊、博物馆和数字媒体上都得到了高度赞誉。Flame算法的成功实践证明了计算机科学和数学在艺术领域的巨大潜力,为后续的AI绘画和计算机生成艺术研究提供了有力的支持。

图1-14 斯科特·德拉维斯通过Flame算法生成抽象艺术作品

三、突破阶段(2010年代—2020年代)

上文提到的两个阶段可以被视为比较“古典”方式的电脑自动绘画,相当于一个学步的婴儿,只能勉强达到相似的效果。而现在我们所说的“AI绘画”概念,更多是指基于本阶段“深度学习模型”来进行自动作图的计算机程序。然而,这种绘画方式的发展相对较晚。2012年,吴恩达和杰夫·迪恩(Jeff Dean)用谷歌大脑(Google Brain)的1.6万个CPU所打造的大型神经网络,在被1000万油管(YouTube)视频中的猫图像训练3天后,自己绘制出了一张模糊的猫脸图。这是一项前所未有的尝试,也是普通公众第一次领略到深度学习的威力。虽然在当今看来,生成结果无论是产出效果还是训练效率都不尽如人意,但对于当时的AI图像生成研究领域,这是一次具有突破性意义的尝试,正式开启了深度学习模型支持的AI绘画这个全新的研究方向。

图1-15 AI绘制的模糊的猫脸图

1. AlexNet

2012年,这是AI发展历史上值得被铭记的一年!因为深度学习领域的一场革命席卷而来。AlexNet的问世,让整个科技界为之震撼。这个由亚历克斯·克里泽夫斯基(Alex Krizhevsky)、伊尔亚·苏茨克维(Ilya Sutskever,伊尔亚是深度学习开创者杰弗里·辛顿的得意弟子,现任OpenAI首席科学家)和杰弗里·辛顿(Geoffrey Hinton)共同开发的卷积神经网络在ImageNet图像分类竞赛中一鸣惊人,AlexNet的核心结构是卷积神经网络,这是一种模拟人类视觉系统的机器学习模型。卷积神经网络由多层卷积层、池化层和全连接层组成,能够自动学习图像中的特征表示和层次结构。与传统的手工特征提取方法相比,卷积神经网络具有更高的精度、鲁棒性和泛化能力。AlexNet揭开了深度学习在计算机视觉和AI绘画领域的新篇章。

图1-16 伊尔亚·苏茨克维(左)、亚历克斯·克里泽夫斯基(中)和杰弗里·辛顿(右)

(图片来源:University of Toronto)

图1-17 知名论文《基于深度卷积神经网络的Imagenet分类》

2.对抗生成网络GAN(Generative Adverserial Network)

基于深度学习模型的AI绘画究竟有多麻烦呢,为什么在2012年,已经具备现代水平的大规模计算机集群耗时多天的训练只能得出一点儿可怜的结果?读者或许有个基本概念,深度学习模型的训练简单来说就是利用外部大量标注好的训练数据输入,根据输入和所对应的预期输出,反复调整模型内部参数加以匹配的过程。

那么让AI学会绘画的过程,就是构建已有画作的训练数据,输入AI模型进行参数迭代调整的过程。一幅画带有多少信息呢?首先就是长×宽个RGB像素点。让计算机学绘画,最简单的出发点是得到一个输出有规律像素组合的AI模型。但RGB像素组合在一起的并非都是画作,也可能只是噪点。一副纹理丰富、笔触自然的画作有很多笔画完成,涉及绘画中每一笔的位置、形状、颜色等多个方面的参数,这里涉及的参数组合是非常庞大的,而深度模型训练的计算复杂度随着参数输入组合的增加而急剧增加,大家可以理解这个事情为什么不简单了。

在吴恩达和杰夫·迪恩开创性的猫脸生成模型之后,AI科学家开始前仆后继地投入到这个新的充满挑战性的领域里。在2014年,AI学术界提出了一个非常重要的深度学习模型,这就是大名鼎鼎的对抗生成网络GAN。GAN的出现极大地推动了AI绘画的发展,并成为很多AI绘画模型的基础框架。随之而来的是越来越多的艺术家和科学家开始尝试将深度学习技术运用于艺术创作中,谷歌的DeepDream项目等一系列后续项目都基于此开发。例如可以把用户上传的照片转换成各种著名画家的风格,相信读者或多或少都在一些手机修图应用中体验过。至此,AI绘画正式进入深度学习的革命性阶段。

3. DeepDream

2015年,谷歌推出了名为DeepDream的计算机视觉项目,该项目由谷歌工程师亚历山大·莫尔德温采夫(Alexander Mordvintsev)负责。它利用卷积神经网络将图像中的特征进行放大和重组,生成具有辨识度的奇特视觉效果的图像。

DeepDream由于其猎奇的风格在网络上引起了广泛关注,很多人纷纷尝试用它来处理自己的照片。例如有人将风景照片经过DeepDream处理后,发现照片中出现了许多奇妙的动物形象。在2016年8月,谷歌与灰色地带艺术与研究基金会(Gray Area Foundation)联手,在旧金山教会区为DeepDream举办了一场名为“深度梦境:神经元网络的艺术”(DeepDream:The Art of Neural Network)的艺术展。

图1-18 “深度梦境:神经网络的艺术”艺术展作品

(资料来源:谷歌)

但我们普遍认为,DeepDream更像是一个尴尬的高级版“AI滤镜”,而非真正的AI绘画。谷歌在AI绘画方面更靠谱的尝试是在2017年发表的一篇论文《简笔画绘图的神经表征》(A Neural Representation of Sketch Drawings),通过训练大量手绘简笔画图片,训练出一个能够自动绘制简笔画的深度学习模型。这个模型能够根据输入的简单草图,生成更为真实的简笔画作品。

图1-19 sketch-rnn生成效果示意图

〔资料来源:Ha, D.R., & Eck, D.(2017). A Neural Representation of Sketch Drawings. ArXiv, abs/1704.03477.〕

虽然这个模型的输出仍然只能算是简单的手绘画,但它却是深度学习模型在AI绘画方面的一个重要的里程碑,同时它的开源属性也为全球的第三方研究机构、开发者带来了各种二次产品化的机会。

4.神经风格迁移(Neural Style Transfer)

到了2015年,莱昂·盖提斯等人提出了一种名为神经风格迁移(Neural Style Transfer)的技术,它使用卷积神经网络将一幅图像的风格迁移到另一幅图像上。神经风格迁移的核心思想是将风格图像的风格特征和内容图像的内容特征结合起来,生成一幅新的图像。除了盖提斯等人的研究之外,还有许多其他研究者对这个领域做出了重要贡献。2017年,Fast Neural Style Transfer算法被提出,其与神经风格迁移的不同之处在于它不需要对每张图像进行一次网络的优化,而是通过对网络进行一次训练,可以实现风格的快速迁移,这项技术不仅可以应用于艺术领域,还可以用于图像处理、视觉效果等方面。

图1-20 神经风格迁移原理示意图

(资料来源:基于https://www.tensorflow.org/tutorials/generative/style_transfer自绘)

由于这项技术独特的视觉效果及较好的用户参与体验性,为后期引发全球性“照片风格迁移”热潮提供了基础。在神经风格迁移技术的早期应用中,最著名的案例之一就是把一幅普通照片变成了具有达·芬奇及凡·高风格的名画。

图1-21 基于艺术风格的名画《蒙娜丽莎》神经风格迁移

(资料来源:https://en.wikipedia.org/wiki/Neural_style_transfer)

产业界对于这项技术的响应速度非常快,2016年6月,一支由15人组成的俄罗斯研发团队发布了一款名为Prisma的iOS手机应用程序,这款应用程序利用机器学习算法和从世界名画中提取的艺术风格,为用户提供了40多种艺术滤镜,包括立体主义、抽象主义、波普风格等,使用户可以自由创作出“大师定制”的世界名画。这一应用的发布引起了轰动,很快在全球范围内受到欢迎。紧随其后的是国内外的各类P图、修图应用软件,也陆续推出了一系列的风格迁移的修图滤镜。例如美图影像实验室(MT Lab)于2017年11月发布了一款基于影像生成技术的绘画机器人Andy,通过深度学习对海量的插画数据进行分析和学习,构建了多重场景艺术效果风格库,也就是大家熟悉的“艺术版本风格滤镜”。紧接着,绝大多数大家熟悉的主流的移动端修图应用,如海外市场的Photoroom、Enlight,国内市场的Versa马卡龙玩图、醒图等也迅速推出了具有一定差异化的类似功能。

图1-22 Prisma APP生成效果展示

(资料来源:https://prisma-ai.com/prisma)

优质的创意往往来自民间,发烧友们基于这项技术开始了各类组合式创新,一些艺术家利用神经风格迁移技术将博物馆中的名画风格应用到自己的照片上,这些照片看起来就像是名画一样,引起了很多人的关注。此外,这项技术还可以应用于视频的风格迁移,让视频看起来就像是由某一艺术家创作的一样。神经风格迁移技术的发展,让人们再一次重新思考了艺术创作的方式。

5. StyleGAN

2018年,NVIDIA发布了一种名为StyleGAN的生成对抗网络。StyleGAN通过对抗性训练生成极其逼真的图像,并能够控制图像的风格、内容和细节。其中最令人惊叹的就是其人脸生成的效果及自主艺术创作,基于StyleGAN生成的人脸图像非常逼真,甚至有些难以区分是真实的人脸还是由AI生成的。StyleGAN一经问世,瞬间在人脸识别和虚拟人物创作等应用场景上催生了大量初创公司。

图1-23 基于StyleGAN创造出的不存在的人脸

(资料来源:NVLabs Github https://github.com/NVlabs/stylegan)

由于StyleGAN在控制图像的风格、内容和细节上优于传统模型,这使得它在AI自主艺术创作领域大放异彩,AI绘画项目Artbreeder就是基于StyleGAN实现的,它允许用户上传自己的图像和选择艺术风格。

时间来到2018年10月,艺术圈里发生了一件大事。巴黎艺术家团队奥布韦斯(Obvious)使用GAN学习分析1.5万张经典肖像后,生成了一系列新的肖像画。这组系列作品包括11幅肖像,这些人物组成了一个被虚构的贝拉米家族,同时也向提出“生成对抗网络”(GAN)模型的人工智能研究学者伊恩·古德费洛(Ian Goodfellow)致敬。该作品画面呈现出一种未完成的感觉,暗色双排扣长礼服和白色领子似乎隐约揭示出人物的清教徒身份,而脸部特征则是模糊的。在作品的右下角,还有一串数字方程,暗示了创作者的虚拟身份。这幅作品在佳士得纽约Prints& Multiples专场上被拍卖,最终以43.25万美元成交,此作品名叫“埃德蒙·贝拉米肖像”,也是第一张被以如此昂贵价格收购的AI绘画作品。不出意外的是,这次事件再次引发了全球关于“AI是否具备艺术创造力”的密集争论,媒体甚至打出“为什么人工智能创作的《埃德蒙·贝拉米肖像》是2018年最无聊的作品?”等颇具噱头的标题,艺术家、设计师、相关领域科研工作者、互联网从业者及广大民众纷纷加入舆论战中。

图1-24 AI绘画作品:《埃德蒙·贝拉米肖像》

(资料来源:Obvious https://computerhistory.org/blog/harold-cohen-and-aaron-a-40-year-collaboration/)

图1-25 画布上的代数公式签名

(资料来源:Obvious)

四、革命阶段(2020年至今)

不知道读者们是否和我有同感,从2022年以来,AI绘画水平突然一下进化到不可思议的地步了,有一种“士别三日,刮目相看”的感受。虽然AI绘画的生成效果在“深度学习阶段”已有明显进步,但整体上AI绘画在前三个阶段还是处于“不温不火”的“小步快跑”的状态,这中间到底发生了什么?

首先要提到一个新模型的诞生,OpenAI团队在2021年1月开源了新的深度学习模型CLIP(Contrastive Language-Image Pre-Training),一个当今最先进的图像分类人工智能。简单来说,CLIP模型可以决定图像和文字提示的对应程度,也就是“输入自然语言”生成“对应视觉图像”的连接器。但作为图像分类人工智能的CLIP模型并不能直接生成视觉图像,因此这里就需要提到大家耳熟能详的“Diffusion”(扩散)模型,2022年初被大众首先熟知的AI绘画产品Disco Diffusion,正是第一个基于CLIP + Diffusion模型的实用化AI绘画产品。CLIP和Diffusion之间的技术融合细节我们将在第二章为大家详细展开解读。

时间回到2021年1月,OpenAI发布了DALL·E,这是一个基于Transformer架构的图像生成模型,能够根据自然语言描述生成具有高度创意的图像。DALL·E的1.0版本生成效果其实并不惊艳,甚至可以用“有点儿拉胯”来形容,图中的指定元素“狐狸”只能隐约辨认其轮廓。值得注意的是,相较于传统GAN等技术路径的生成模式,以DALL·E为代表的AI绘画模型开始拥有了一个极为重要的能力:通过输入指定文字来提示/规定创作内容!

图1-26 DALL·E 1.0及2.0版本生成效果对比

(资料来源:Open AI官网www.open.ai.com)

Open AI很快在2022年4月初发布了生成能力更强的DALL·E2,其生成效果已经大幅提升,对于不同自然语言指令与艺术风格的融合已愈发成熟,为图像生成和处理领域树立了新的标杆。只需输入简短的文字prompt, DALL·E2就可以生成全新的图像,这些图像以语义上十分合理的方式将不同且不相关的对象组合起来,就像通过输入prompt:一个在太空骑马的宇航员/An astronaut is riding a horse in space,便生成了下面的图像。

图1-27 DALL·E2文本生成图像效果展示图

(资料来源:OpenAI官网https://openai.com/product/dall-e-2)

基于文本生成图像的AI绘画模型是2022年上半年的绝对主角,从2月份的Disco Diffusion开始,4月,DALL·E2发布,MidJourney邀请内测,5月和6月,谷歌发布两大模型Imagen和Parti,然后7月底,Stable Diffusion横空出世——没错,当今世界最强大的AI绘画开源大模型Stable Diffusion终于闪亮登场了!Stable Diffusion是由初创公司Stability.AI与许多学术研究人员和非营利组织合作开发的,目前全球绝大部分AI绘画产品、工具、服务类公司的底层模型大部分都是基于Stable diffusion优化、重构及调整的。该模型主要用于生成以文本描述为条件的详细图像,但它也可以应用于其他任务,例如图像扩展、修复、图像-文本的转译等。

众所周知,DALL·E背后的公司OpenAI被微软重金投资后选择了闭源,而一开始就坚定选择开源“Stable Diffusion”的Stability.AI可谓是信守承诺,Stable Diffusion一经开源就始终霸占着GitHub热榜第一,并撑起了全球AI绘画产品底层模型的半边天。它彻底履行了Stability.AI官网首页的标语——“AI by the people, for the people”(AI取之于民,用之于民)。Stable Diffusion生成图像拥有更出色的真实感及细节,尤其是在生成高分辨率图像时表现更为优异。与传统的GAN模型相比,Stable Diffusion的稳定性训练方法也更为有效,可以在更少的训练时间内达到更好的生成效果。

图1-28 Nolibox画宇宙生成效果

至此,我们进入了AI绘画发展的快车道——自由进行智能创作的阶段。在这一阶段,用户基本可以根据自己的意图自由生成高质量的视觉作品,初步实现了一定程度的“创作自由”。这一阶段的代表技术和产品包括OpenAI的DALL·E、Stability.AI开源的Stable Diffusion等。在以上技术满足了图像视觉的标准品质后,人们不再局限于如何才能让AI画得像一些,产出的创意内容有趣一些等娱乐化的基础需求,而是试图把AI绘画应用到更加专业的生产力场景中,例如尝试介入不同行业的设计创意工作链路。

随着产业界的介入,国内外分别涌现出诸多AI图像领域的初创公司,希望可以抓住不同垂类行业的机会。如AI绘画领域的“全球顶流产品”Midjourney,截至2023年9月已有超过1300万注册用户,并用其惊艳的生成效果狂揽1亿美金的年收入,其核心团队也由最初的11人扩充到40人左右。根据Midjourney几位内部成员的说法,公司自创立起就能够盈利,依照公司目前的订阅模式,每个月向用户收取10到120美元不等的服务费,2023年的营收甚至可以突破2亿美元。

图1-29 国内外主流AI绘画领域产品及服务商

随着OpenAI在2023年9月把最新的图像大模型DALL·E3集成进当家产品ChatGPT4后,Midjourney或许不得不重新重视起这个“华丽转变”的老对手。DALL·E3一方面拥有完全碾压上一版本的图像生成表现,同时在ChatGPT4的产品生态支持下形成了惊人的跨模态生成能力。配合ChatGPT4易用的聊天式交互界面,无论对行业小白还是专业创作者来说,用户体验都十分友好。百度文心,作为国内最早的唯一自研大模型,虽然在文生图的通用场景效果方面和DALL·E3 、Midjounery还有一定差距,但在一些具体风格及领域上也会有一些令人惊喜的效果。

同时值得注意的是,国内在最近一段时间内也涌现出一大批新兴的AI绘画公司,例如主打AI艺术作品生成及交易的无界版图,为C端用户提供服务的AI艺术平台西湖心辰、Tiamat、6pen,利用AI赋能电商模特图的ZMO.ai等,为B端专业场景提供AIGC工具及产品解决方案的Nolibox画宇宙等,这些公司及产品同时也造就了百花齐放的行业生态,推动AI绘画在不同垂类领域的生根发芽,我们将在第四章结合行业应用落地的案例为读者们详细展开。 hhu5x3Sdz78Q42rfrpR0iNLYxXOAjRvrf6IbH//z3hSimynG9rbRTYluk9Bd+mQW

点击中间区域
呼出菜单
上一章
目录
下一章
×