购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第1章
准备工作

1.1 Midjourney简介

Midjourney是一款实用的AI图像生成工具。用户只需要输入文字描述,Midjourney就能在一分钟内生成对应的图像。该工具由Discord社区推出,并迅速成为人们讨论的焦点。用户可通过Midjourney生成不同画家(如安迪·沃霍尔、达·芬奇、达利和毕加索等)艺术风格的作品,还能识别特定的镜头等摄影术语。

2022年3月,Midjourney首次亮相。2022年8月,V3版本推出。2023年,V5版本成功“出圈”。2023年4月,Midjourney(人工智能图像生成器公司)入选了2023年“福布斯AI 50”榜单。2023年5月15日,Midjourney官方中文版开始内测,搭载在QQ频道上。2024年8月,推出网页版。

Midjourney的创始人大卫·霍尔茨(David Holz)(见图1-1),曾创立专注于跟踪技术的公司Leap Motion,后来转向AI生成艺术领域。Midjourney的宗旨是将AI视为人类想象力的延伸,而不是现实世界的复刻。公司通过付费订阅的商业模式实现盈利,向用户提供不同档次的订阅服务。Midjourney最早源于对生成对抗网络(Generative Adversarial Network,GAN)和深度学习技术的探索。GAN由伊恩·古德费洛(Ian Goodfellow)及其团队在2014年提出,通过两个神经网络(生成器和判别器)的对抗性训练,能够生成逼真的图像。随着GAN技术的不断成熟,研究人员开始思考如何将其应用于实际的图像生成任务,这为Midjourney的诞生奠定了基础。

图1-1 David Holz

展望未来,Midjourney将继续在人工智能和图像生成领域保持创新。随着技术的进一步发展,Midjourney有望在更多行业和应用场景中发挥作用。无论是在广告设计、游戏开发,还是在教育和科研领域,Midjourney都将为用户提供更强大的工具,帮助用户实现更多创意和灵感。

1.2 Midjourney的设置与使用

1.2.1 成为Midjourney付费会员

目前,Midjourney只能通过付费使用,官方共提供了4种付费计划,如图1-2所示。

图1-2 4种付费计划(具体价格以付费订阅时为准)

4种计划的主要区别是Midjourney的作图时间不同,生成图像的质量都是一样的。对4种计划的简要对比如下。

基础计划: 每月快速模式下,共有近200分钟的作图时间,大约可生成200张图像,支持3张图像并发快速作业。

标准计划: 每月快速模式下,共有15小时的作图时间,大约可生成900张图像,支持3张图像并发快速作业。

Pro计划: 每月快速模式下,共有30小时的作图时间,大约可生成1800张图像,支持12张图像并发快速作业,且带隐形模式。

Mega计划: 每月快速模式下,共有60小时的作图时间,大约可生成3600张图像,支持12张图像并发快速作业,且带隐形模式。

具体选择哪种计划,请读者根据需要考虑。

1.2.2 注册Discord账号

Discord是一款专为社群设计的免费的网络实时通话软件,主要针对游戏玩家、教育界人士及商界人士,在Microsoft Windows、macOS、Android、iOS、Linux和网页上运行。用户可以在软件的聊天频道通过文字、图片、视频和音频进行交流。Midjourney搭载在Discord里,读者可以将Discord理解为计算机,Midjourney是Discord里的一款程序。接下来,本节分享一种较为简单的注册Discord账号的方法。

首先,打开Discord官网,如图1-3所示。

图1-3 Discord官网

读者根据所用操作系统进行下载即可,不同系统下Discord的操作界面和功能都是相同的。单击“登录”按钮即可进入登录界面,如图1-4所示。

图1-4 Discord登录界面

如果读者已有Discord账号,直接登录即可。如果没有,单击登录界面中的“注册”,进入注册页面,根据页面要求填入电子邮箱、用户名、密码等信息。这里需要注意的是,年龄必须选择18周岁以上。输入注册信息后,单击“继续”。此时会弹出验证程序,如图1-5所示。

图1-5 验证程序

选中图1-5中的“我是人类”复选框,然后根据提示完成验证即可。

1.2.3 创建自己的服务器

完成人机验证后,就会进入创建服务器界面,如图1-6所示。

图1-6 创建服务器

如果读者收到了Discord的其他用户的邀请链接,可以单击创建服务器界面最下方的“加入服务器”,加入其他人已经创建好的服务器。如果读者想创建自己的服务器,单击该界面中的“亲自创建”,在新打开的界面中单击“仅供我和我的朋友使用”,进入自定义服务器界面,如图1-7所示。

图1-7 自定义服务器

单击“UPLOAD”,上传一张自己喜欢的图像作为服务器账号的头像。单击下方输入框,自定义服务器名称,然后单击“创建”按钮,就会进入Discord主界面,顶部会提示验证邮箱的信息,此时需要读者去刚刚注册时所使用的邮箱中查找Discord发送的验证邮件,并单击“验证电子邮件地址”按钮,如图1-8所示。

图1-8 邮箱验证

验证成功的提示如图1-9所示。

图1-9 验证成功

至此,读者已顺利在Discord上创建了自己的服务器。

1.2.4 添加Midjourney频道

创建完自己的服务器后,还需要将Midjourney机器人添加到刚创建好的服务器。单击图1-9中最下方所示的“继续使用Discord”就可以跳转到本地安装好的Discord程序,如果没有跳转,请读者手动打开安装好的Discord程序。

在Discord主界面中,单击左上方的 按钮,会进入Discord社区的发现界面,如图1-10所示。

图1-10 Discord社区的发现界面

Midjourney是Discord中使用率较高的应用,因此排名一般靠前。如果读者没有看到Midjourney,则在图1-10所示界面的搜索框中输入Midjourney进行搜索。单击图1-10中标记1处的卡片,进入Midjourney服务器。

初次进入Midjourney服务器,会弹出话题推荐,如图1-11所示,单击“我就是随便逛逛”后,回到Midjourney服务器,顶部出现“加入Midjourney”按钮,如图1-12所示。

图1-11 初次进入Midjourney服务器的界面

图1-12 “加入Midjourney”按钮

单击“加入Midjourney”按钮后,读者需根据要求完成人机验证。加入Midjourney后,单击界面右上方的“显示成员名单”按钮,如图1-13所示。在弹出的成员列表中找到Midjourney Bot,如图1-14所示。单击Midjourney Bot后,在弹出的界面中单击“添加至服务器”,如图1-15所示。完成添加至服务器后,会弹出选择服务器界面,如图1-16所示。

图1-13 “显示成员名单”按钮

图1-14 Midjourney Bot

图1-15 将Midjourney Bot添加至服务器

图1-16 选择服务器

先单击图1-16中标记1处的下拉框,选择创建好的服务器,例如笔者创建的服务器是“GenJi的服务器”。选择之后,单击图1-16中标记2处的“继续”。在弹出的授权界面中,保持默认勾选状态,单击“授权”。这时,系统会弹出人机验证界面,自行完成验证后就会看到授权成功界面,如图1-17所示。

图1-17 授权成功

单击“前往[创建好的服务器名]”(这里是“前往GenJi的服务器”),就会来到我们自己创建的服务器中,欢迎界面如图1-18所示。

至此,我们已经将Midjourney Bot拉入我们自己的服务器。

图1-18 欢迎界面

1.2.5 接受协议

单击欢迎界面最下方的输入框,输入英文字符/,会弹出Midjourney的指令窗口,如图1-19所示。

图1-19 指令窗口

选择图1-19中最顶部的/imagine或者在输入框继续输入imagine,输入框会自动添加prompt,如图1-20所示。

图1-20 输入框变化

此时在输入框的prompt后面随便输入一个单词,例如Panda,然后按回车键,会弹出接受协议窗口,读者单击“Accept ToS”按钮完成协议认证,就会弹出订阅通知。完成一次认证后就可以开始正式使用Midjourney进行创作了。

1.2.6 用Midjourney完成第一幅作品

本节将介绍用Midjourney生成作品的操作方法,其中涉及的指令、参数将于第2、3章详细介绍。

在输入框中输入/,然后输入或者直接用鼠标选择imagine,输入Panda eye macro photography --v 6,作为提示词,如图1-21所示。

图1-21 提示词

输入完成后,按回车键发送指令,就会看到Midjourney开始执行,如图1-22所示。

图1-22中右上角有绘制进度提示,当进度达到100%后,会看到Midjourney生成了一幅清晰的含有4张小图的图像,如图1-23所示。

图1-22 执行窗口

图1-23 生成的图像

图1-23生成的图像从左往右、从上到下依次标号为1、2、3、4。图像下方有两排按钮,其含义如下。

U:放大某张图像,完善更多细节内容。U1、U2、U3、U4按钮分别表示对第1张、第2张、第3张、第4张图像执行U操作。

V:生成与所选图像风格类似的4张新图像。V1、V2、V3、V4按钮分别表示对第1张、第2张、第3张、第4张图像执行V操作。

(刷新):表示按照提示词重新生成图像。

如果图1-23中有满意的作品,则不需要刷新,可以直接挑选心仪的图像。例如,我们喜欢第1张,就单击“U1”。稍等片刻后,Midjourney就会输出所选图像的大图,如图1-24所示。

图1-24 U1放大后的结果

最后,既可以通过单击图1-24中最下方所示的 按钮,也可以先单击图像,再单击“在浏览器中打开”来保存我们用Midjourney完成的第一幅作品的高清原图,保存的原图如图1-25所示。

图1-25 第一幅作品的原图

1.3 Discord的常用功能

Discord的本地应用程序与网页端的界面和功能相同。本书后续将使用本地应用程序。读者可以根据使用偏好选择本地应用程序或网页端。接下来将介绍Discord的常用功能,图1-26展示了Discord的功能界面。

图1-26中标记1所示的为服务器列表显示区域,该区域以图标形式显示如下类型的服务器:

用户自定义的服务器;

用户已选择加入的由其他用户创建的服务器;

用户已添加的官方机器人。

图1-26 功能界面

图1-26中标记2所示的为Midjouney生成图像的区域,通过滚动鼠标滑轮可以查看创作记录。也可以通过在图1-26中右上角所示的搜索栏输入关键字来查找。

图1-26中标记3所示的为输入框,后续用到的输入框,若没有特殊说明,都指的这个输入框。如果读者选择其他服务器或者频道,也可以通过在该输入框中输入内容完成与其他好友进行对话、点评他人的作品等操作。

本书基于自定义的“GenJi的服务器”进行创作。右击服务器列表中我们自定义的服务器logo,弹出的设置菜单如图1-27所示。

图1-27 设置菜单

在设置菜单中,最常用的设置就是“编辑服务器个人资料”,读者可以在这里修改服务器的图标和名称,修改用户名与密码等个人资料。

读者如果需要将自己创建的频道分享给他人,则单击设置菜单中的“创建频道”。一旦有了自己的频道,就可以根据兴趣来设置相应的类别和活动。服务器与频道的关系就像大楼与大楼里的房间,用户可以在这里与好友聊天互动。

1.4 生成作品的3种方式

Midjourney提供了3种主流的生成作品的方式。本节将通过具体示例介绍这3种方式。

1.4.1 通过文字描述生成作品

图1-28就是通过文字描述(即提示词)生成的作品。

说明

以图1-28为例,为了提升效率,本书不再采用截图形式,而是直接给出Prompt后面的内容,读者自行输入并按回车键即可发送指令。如果提示词中要用到多个有意义的词语或句子,必须用英文逗号“,”隔开。

接下来,通过一段简单的文字描述来生成熊猫游泳的图像,如图1-28所示。

Prompt: panda, swimming --v 6 --ar 3:4

提示词: 熊猫,游泳 -- 版本 6 -- 尺寸 3:4

图1-28 熊猫游泳

我们再在输入框中输入一段复杂的文字描述,用卡通风格生成熊猫家庭的图像,如图1-29所示。

Prompt: flat, vector, clip art, impressionist cartoon whimsical panda family, in the style of Andy Kehoe, Skottie Young and Keith Haring, stylized, detailed, adventure time, layered 2d art --s 300 --ar 16:9 --c 15 --v 6

提示词: 扁平化,矢量,剪贴画,印象派卡通风格的奇趣熊猫家庭,以Andy Kehoe、Skottie Young和Keith Haring的风格为灵感,风格化,细节丰富,参考Adventure Time的风格,2D分层 --风格化 300 --尺寸 16:9 --混乱度15 --版本6

图1-29 卡通风格的熊猫家庭

由此可见,如果想让Midjourney创造出优质的图像作品,由几个单词组成的简单的提示词远远不够。经过作者长时间摸索,好的提示词可以按照如下框架来编写:

主体内容,环境背景,构图,视图,参考艺术家,图像参数

其中,环境背景指氛围、场景、光感等;构图包括规则构图、黄金分割、对角线构图等;视图包括正视图、侧视图、俯视图等;参考艺术家指的是要参考绘画风格的艺术家的名字;图像参数包含设置生成图像的尺寸、质量、风格等。

1.4.2 通过融图生成作品

顾名思义,融图就是将多张图像的风格融合在一起。进行融图操作时,应尽量保证样图简单,避免包含过多元素,以确保色调和风格能较好地融合。

首先,准备两张图像,人像应尽量精简,若过于复杂,融图效果可能会不可控。建议图像分别为人物主体和风景照,这样在Midjourney生成图像时,既有人物主体,又有背景的色调和纹理。图像格式最好是.png或者.jpg。

在输入框中输入/blend,然后按回车键发送指令,弹出图1-30所示的界面。由图1-30可知,/blend指令默认需要上传两张图像。依次单击图1-30中的image1和image2,弹出上传界面,上传事先准备好的两张样图。或者,也可以依次将样图拖到image1和image2选框。上传完成后,界面如图1-31所示。

图1-30 /blend界面

图1-31 上传完成

此时按回车键执行融图操作,融图效果如图1-32所示。

图1-32 融图效果

如果想上传多张图像,单击图1-30所示界面右下角的“增加4”,在弹出的界面中选择“image3”,就可以继续添加新的样图,此时界面如图1-33所示。

图1-33 新增样图

单击“dimensions”选项,将弹出控制融图生成作品尺寸比例的选项,如图1-34所示。其中,Protrait表示生成作品的尺寸比例为2∶3,Square表示生成作品的尺寸比例为1∶1,Landscape表示生成作品的尺寸比例为3∶2。读者根据自己的需求选择即可。

图1-34 控制融图生成作品尺寸比例的选项

1.4.3 通过样图结合文字生成作品

首先,准备一张或多张样图,样图的格式必须是.png、.gif、.webp、.jpg或.jpeg。单击输入框最左侧的“+”,在弹出的界面中单击“上传文件”,如图1-35所示。

图1-35 上传文件

然后,在弹出的界面中选择要上传的图片,此时界面如图1-36所示。按回车键,将样图传给Midjourney服务器,完成上传后界面如图1-37所示。

图1-36 上传样图

图1-37 完成上传

除了上面的上传样图操作,还可以直接通过鼠标将样图拖曳到Discord程序进行上传,读者可以根据个人喜好选择上传方式。

上传完成后,右击左侧的人物样图,在弹出的界面中单击“复制链接”,如图1-38所示。接下来,在输入框中输入/imagine,然后通过“Ctrl+V”组合键粘贴复制好的链接,再按空格键,然后添加对应的提示词。添加完成后的指令界面如图1-39所示,图中马赛克表示刚刚复制的图像地址,读者应使用自己的链接。

图1-38 复制链接

图1-39 指令

生成的作品如图1-40所示。

图1-40 生成的作品

Prompt: disney style

提示词: 迪士尼风格

如果有多张样图,那么每个链接之间应用空格隔开。图1-41展示了输入3张样图时指令界面上的链接,不同链接间以空格隔开。

图1-41 3张样图的链接

1.5 Midjourney版本

从V1到最新版本,Midjourney在技术和功能上不断实现突破,逐步提高了图像生成的质量。每个版本的更新都标志着人工智能图像生成领域的一次重要进展,为用户提供了更加强大的创意工具和平台。截至2024年5月,Midjourney已经推出了V1、V2、V3、V4、V5、V5.1、V5.2、V6共8个大版本。最早发布的是V1,数字越大表示版本越新。接下来将介绍各个版本的特点。

1.5.1 V1到V5版本

V1版本主要聚焦于图像生成的基础功能。该版本能够生成简单的图像,但在细节表现和逼真度方面存在较大的提升空间。

V2版本在V1版本的基础上进行了多方面的优化和改进。通过改进算法,提升了图像的细节表现和清晰度,并且增强了生成图像的多样性。

V3版本引入了更先进的深度学习算法,显著提升了图像生成的质量和速度。该版本在处理复杂场景和细节方面表现卓越,生成的图像更具艺术感和创意。

V4版本专注于高分辨率图像的生成和细节优化。该版本能够生成超高分辨率的图像,并在细节处理上达到了新的水平,图像更加细腻和真实。

V5版本在图像生成的智能化和用户体验方面取得了显著进步。该版本引入了智能提示和创意辅助功能,使用户能更轻松地生成满足个性化需求的图像。

接下来,使用同一提示词和不同版本生成图像,V1~V5版本生成的作品如图1-42~图1-46所示。

图1-42 V1版本生成的作品

Prompt: panda with wings --v 1

提示词: 带翅膀的熊猫--V1版本

图1-43 V2版本生成的作品

Prompt: panda with wings --v 2

提示词: 带翅膀的熊猫--V2版本

图1-44 V3版本生成的作品

Prompt: panda with wings --v 3

提示词: 带翅膀的熊猫--V3版本

图1-45 V4版本生成的作品

Prompt: panda with wings --v 4

提示词: 带翅膀的熊猫--V4版本

图1-46 V5版本生成的作品

Prompt: panda with wings --v 5

提示词: 带翅膀的熊猫--V5版本

从这5张图中,可以观察到Midjourney在以下4个方面有显著提升。

细节丰富度和内容真实性。V1和V2版本的图像生成效果基本类似于简笔画,前景和背景的处理相对粗糙,到了V3版本,背景和透视关系都变得更加合理,而到了V4版本,图像已经达到了可用的状态。

分辨率提高。从V1到V3版本,单张图像的分辨率是256 px×256 px,到了V5版本,单张图像的默认分辨率已经提升到了1024 px×1024 px。

参数多样性。V5版本支持更多的参数,这些参数在之前的版本中大多是不可用的。此外,早期版本对某些词的具体含义理解有限,而V5版本的理解能力显著增强。

艺术风格词汇的重要性。这个结论尚未得到官方认证。有很多人认为V5版本是一个更通用的版本,笔者的理解是V5版本提高了图像生成的基准线。这意味着不需要太多描述性的词,也能生成一个“可以看”的作品。艺术风格词汇的使用变得更加重要,因为它们能够更精确地指导算法生成符合特定风格的作品。

1.5.2 V5.1版本

Midjourney的V5.1版本相对于V5版本在以下6个方面进行了提升。

提升了短提示词的产出质量,即使是简短的提示词也能生成高质量的图像。

新增了“RAW Mode”(原始模式),这是一个可选的模式,用于生成更加写实的图像。

对提示词理解的精准度得到了提升,减少了不必要的算法发散,使得生成的图像更符合用户意图。

文本识别能力增强,尤其是在生成包含文字的图像时,文字的识别和表现更加准确。

减少了不必要的边框,图像的构图更加自然和干净。

提高了图像的清晰度,使细节更加清晰可见。

接下来,同样通过示例介绍其特点。

首先,需要手动开启RAW Mode。在输入框中输入/setting指令,按回车键发送指令,在图1-47的下拉框中选择Midjourney Model V5.1后,再选择RAW Mode即可。或者,可以直接在提示词的最后添加“--v 5.1 --style raw”,来启用V5.1版本的RAW Mode,生成的作品如图1-48所示。

图1-47 开启RAW Mode

图1-48 V5.1版本生成的作品

Prompt: panda with wings --v 5.1 --style raw

提示词: 带翅膀的熊猫--V5.1版本 --原始模式

相较于V5版本,V5.1版本生成的作品拥有更多细节,整体画质也更加清晰。由于使用了RAW Mode,视觉风格更加写实。如果用户不需要过于写实的效果,可以在进行图1-47所示的设置时不选择RAW Mode,直接使用V5.1版本。根据笔者的测试,V5版本可以实现的效果,V5.1版本都可以实现,而且效果更佳。

V5.1版本的另一个独到之处在于提升了生成英文文本的能力。使用/imagine指令,并输入提示词,V5、V5.1 RAW Mode、V5.2、V6版本生成的作品如图1-49所示。

图1-49 生成的作品

Prompt: letter G logo --v 5

提示词: 字母G的logo --V5版本

Prompt: letter G logo --v 5.2

提示词: 字母G的logo --V5.2版本

Prompt: letter G logo--v 5.1--style raw

提示词: 字母G的logo --V5.1版本 --原始模式

Prompt: letter G logo --v 6

提示词: 字母G的logo --V6版本

由图1-49可以看出,版本越高,对英文文本的识别能力越强,并且能更好地制作成logo类的图像。如果需要更丰富的表现力,建议不使用RAW Mode。

1.5.3 V5.2版本

Midjourney的V5.2版本相对于V5.1版本在以下6个方面进行了提升。

采用了更写实的美学系统,使生成的图像在视觉上更加逼真和自然。

新增了High Variation Mode(高变化模式),使用户可以选择生成具有更高变化性的图像,从而提供更多的创意选项和视觉效果。

新增了Vary(Strong)和Vary(Subtle)标签,使用户可以控制图像生成的变化程度。Vary(Strong)会生成与原图差异较大的图像,而Vary(Subtle)则会生成差异相对细微的图像。

新增了局部修改功能,使用户可以对图像的特定区域进行修改,而不用重新生成整个图像。

新增了Zoom Out(缩放)标签,可以在原图的基础上扩展画布,生成额外的背景内容。

新增了上下左右扩图标签,使用户可以指定图像生成的方向,如可以生成向上、向下、向左或向右扩展的图像,从而提供更灵活的构图选项。

接下来,通过示例介绍其特点。

在输入框中输入/setting指令,按回车键,在图1-50所示的下拉框中选择Midjourney Model V5.2。或者,可以直接在提示词的最后添加“--v 5.2”。

图1-50 选择V5.2版本

若在图1-50所示的下拉框中选择了Remix mode,则在进行V操作(生成图像的变体)时,可以开启输入框并根据需要调整提示词,设置方式如图1-51所示。

图1-51 设置方式

若在图1-50所示的下拉框中选择了High Variation Mode,则生成的图像更加多样化,人物也更加逼真,该模式下生成的作品如图1-52所示。如果不需要更加多样化的结果,则可切换为Low Variation Mode。

说明

并不是更加多样化就代表生成的图像更优秀。经笔者测试,高变化模式下可能需要尝试多次才能得到理想结果。注意,高变化模式和低变化模式仅适用于V5.2及之后的版本。

图1-52 High Variation Mode模式下生成的作品

Prompt: panda with wings --v 5.2

提示词: 带翅膀的熊猫--V5.2版本

相较于V5.1版本,V5.2版本生成的作品在画质、分辨率、风格写实度和构图方面都有所提升。例如,熊猫的翅膀和毛的颜色都能很好地统一起来,光影效果也更加逼真。

经笔者测试对于V5.2版本的人像,表情、动作渲染效果更加写实逼真,质感堪比摄影作品。例如,使用/imagine指令,生成如图1-53所示的作品。

图1-53 生成质感堪比摄影的作品

Prompt: side view of a woman, giant flower, double exposure, surreal photography --v 5.2

提示词: 女人侧影、巨型花朵、双重曝光、超现实摄影 --V5.2版本

此时,对图1-53中的任意一个作品进行放大查看,例如执行U2操作,此时界面如图1-54所示,相较于之前的版本新增了一些功能,下面将详细介绍。

图1-54 新增功能

其中,Upscale(2x)表示将图像放大2倍,Upscale(4x)表示放大4倍。

Vary(Subtle)和Vary(Strong)功能允许用户对原图进行微调或较大改变后再次生成4张相似图像,图1-55和图1-56分别为选中Vary(Subtle)和Vary(Strong)功能后生成的作品。

图1-55 选中Vary(Subtle)功能后生成的作品

图1-56 选中Vary(Strong)功能后生成的作品

Vary(Region)用于局部重绘,为用户提供了一个便捷的方式来进行特定区域的图像修改。选中该功能后,进入编辑框界面,如图1-57所示。

图1-57 编辑框界面

其中,标记1到5分别代表撤销操作、使用方形选框选择修改区域、使用套索工具选择修改区域、修改内容的提示词和发送指令。标记4处的文字表示添加一些火焰。红色矩形框中的透明图层就是使用套索工具选择的要修改的部分,单击标记5处的确认按钮发送修改指令,生成的作品如图1-58所示。

图1-58 局部重绘后生成的作品

说明

请注意,选择的区域不宜过小或过大。过小的区域可能无法带来显著的变化,而过大的区域可能导致过多的改动,一般选择图像的20%~50%。通过掌握Midjourney局部重绘功能的使用方法和技巧,可以在数字创作中展现个性化的风格和挖掘创作潜能。无论是对图像的精细修改、风格调整,还是角色形象的个性演绎,Midjourney局部重绘功能都将成为你实现创意的利器。

如果图像的宽度小于高度,即图像是竖图,那么会出现Make Square标签,如图1-59所示。该标签的作用是将图像以方形尺寸缩放,单击该标签后生成的作品如图1-60所示。在图1-60中,我们可以看到缩放后的作品,并且可以通过U操作进行新一轮的缩放,这个过程可以不断重复,从而将不完整的场景或人物扩展成更完整的全景。

图1-59 Make Square功能

图1-60 单击Make Square标签后生成的作品

在图1-59中,Zoom Out 2x表示将图像缩小50%。

说明

需要注意的是,Zoom Out操作会将原图缩小并在周围填充新的内容,因此多次缩放后,图像的精度可能会下降,周围也可能会出现更多的黑色区域。用户可以利用Zoom Out功能对喜欢的图像进行扩图,在缩放过程中不断增加新的细节,最终可以将这些连续的图像制作成“穿越式”视频。

如果用户需要更精确地控制图像缩放的比例,可以使用自定义缩放标签,单击图1-59所示界面中的Custom Zoom,弹出的提示框如图1-61所示。

图1-61 自定义缩放

在提示框中,用户不仅可以修改提示词,例如添加“some ice”(一些冰),还可以设置特定的参数来控制图像的缩放。这里提供了两个参数:--ar(宽高比)和--zoom(扩展值)。--ar参数允许用户设置所需的宽高比。--zoom参数的设置范围则限于1到2之间,这意味着缩放后的图像不能超过其原始尺寸的两倍。用户可以根据自己的需求设置这些参数。例如,可以设置“--zoom 2”。设置完成后,单击图1-61所示提示框中的“提交”按钮,生成的作品如图1-62所示。

图1-62 自定义缩放后生成的作品

图1-59中的4个方向的箭头按钮,分别表示按照箭头方向(左、右、上、下)进行扩图,常用于风景图。使用/imagine指令,并输入如下提示词。

Prompt: a painting shows mountains and streams,in the style of gold and aquamarine,serene pastoral scenes,grandeur of scale,serenity and harmony,cloisonnism,hieratic vision,gold and azure --v 5.2 --ar 16:9

提示词: 一幅描绘山脉和溪流的画作,金色和蓝绿色风格,宁静的田园风光,宏伟的规模,宁静与和谐,分隔主义,神圣的视觉风格,金色和蔚蓝色 --V5.2版本 --尺寸 16:9

生成的山水图如图1-63所示。

图1-63 生成的山水图

单击图1-63所示界面中的 按钮,将弹出提示框,不需要修改任何提示,单击提示框中的“提交”按钮后,向左扩图的效果如图1-64所示。

图1-64 向左扩图的效果

在图1-64所示界面中选择U1,放大后的作品如图1-65所示。此时,如图1-65中矩形框内所示,只有左右扩图按钮了,这是因为如果使用了左右扩图,就不能使用上下扩图。同样,使用了上下扩图就不能使用左右扩图。不断重复该过程,就能制作出连续的环境场景图。

图1-65 放大后的作品

说明

用箭头按钮扩图不会对原来的内容进行缩放,而是基于原图在指定方向上做扩图,保持原图精度不变。

1.5.4 V6版本

Midjourney的V6版本相对于V5.2版本在以下4个方面进行了提升。

更具质感的作品:V6版本在图像生成质量上有了显著的提升,尤其是在画面质感和细节刻画上。图像的光影处理更加真实自然,使生成的作品在视觉上更加吸引人。

长提示词文本理解能力:V6版本能够处理更长的文本提示词,其容量达到了350~500个词,而V5.2版本在超过30个词后,提示词的效果就会大打折扣。V6版本的自然语言处理能力也使用户在编写提示词时更加灵活,不再需要依赖简短的短语,而是可以使用更加自然的语言描述,从而提高了生成内容的准确性和用户满意度。

准确的英文理解能力:V6版本对英文提示词的理解变得更加准确,V6版本能够更好地呈现提示词中提到的所有元素,包括颜色、位置以及元素之间的关系。

放大选项优化:虽然我把这一点放在最后讲解,但实际上它是V6版本相对于V5.2版本的另一个重要改进。放大选项的优化意味着在放大图像时,能够保持更高的图像质量,减少模糊和失真的情况。

下面分别用V5.2版本和V6版本生成图像,提示词如下,观察作品的质感。

Prompt: panda face

提示词: 熊猫脸

生成的作品如图1-66所示。

通过比较,我们可以明显看出V6版本生成的图像细节更加锐利和清晰,而V5.2版本的图像则显得较为模糊和灰暗。

图1-66 用V5.2版本和V6版本生成作品的质感对比

下面分别用V5.2版本和V6版本生成图像,提示词如下,观察生成内容的准确性。

Prompt: a photo-realistic photo of a wooden table with a white vase with yellow roses. Next to it is a red bowl with lemons and apples, with some blueberries scattered around the side of the bowl. Next to the table is a white window

提示词: 一张木桌的写实照片,桌上放着一个白色花瓶,里面插着黄玫瑰。旁边是一个红色的碗,碗里有柠檬和苹果,碗边散落着一些蓝莓,桌子旁边是一扇白色的窗户

生成的作品如图1-67所示。

通过比较,可以发现V5.2版本没有准确呈现碗的颜色,在提示词中位置靠后的苹果、蓝莓也都丢失了,但V6版本可以准确生成这些物体,且它们的位置关系正确。

图1-67 用V5.2版本和V6版本生成作品的准确性对比

下面分别用V5.2版本和V6版本生成图像,提示词如下,观察生成特定英文文本的准确性。注意,要想准确生成英文文本内容,就需要将其置于英文的双引号内;在生成文本内容时,建议使用“--style raw”参数或设置较低的stylize值,以确保文本内容的准确性和可读性。

Prompt: a neon sign with text "GenJi"

提示词: 霓虹灯招牌上写着“GenJi”

生成的作品如图1-68所示。

通过比较可以发现,V5.2版本没有准确呈现引号内的文本内容,但V6版本可以准确呈现。

图1-68 用V5.2版本和V6版本生成的英文文本内容

在V6版本中,有两个起到图像放大功能的标签,分别是Upscale(Subtle)和Upscale(Creative)(见图1-69),它们虽然都可以将图像放大两倍,但各自有不同的应用场景和效果。Upscale(Subtle)旨在保持原图的基本外观和风格,放大后的图像与原图非常相似,它主要在细节上进行细微的增强,不会引入显著的新元素或风格变化,适用于那些希望放大图像同时保持原始风格和细节不变的用户。Upscale(Creative)放大后的图像在细节上可能与原图有明显的不同,可能会更加艺术化或风格化,适用于那些希望获得更具创意和艺术感的放大图像的用户。

图1-69 放大功能

1.5.5 V6.1版本

Midjourney的V6.1版本相对于V6版本在以下8个方面进行了提升。

图像质量提升:图像更加清晰锐利,特别是在纹理、皮肤和8-bit像素画的表现效果上。

更准确地呈现内容:V6.1版本生成内容的稳定性得到了提升,英文文本内容的正确率也有所提高。

默认美学风格优化:在美学风格上进行了优化,使得画面色彩更加明亮鲜艳,整体视觉效果更佳。

修复面部细节问题:V6.1版本修复了之前版本中人物面部细节不清晰的问题,即使在全身图中,人物面部的五官细节也较为清晰。

图像放大优化:对图像放大功能进行了优化,放大图像时能够提供更精致的细节。

质量参数调整:引入了--quality参数,允许用户控制生成图像所消耗的GPU时间,支持0.5、1、2三种数值,用户可以根据需要平衡生成速度和图像细节。

个性化模型更新:V6.1版本更新了个性化模型,可以适应不同用户的需求。

性能提升:V6.1版本的标准图像生成速度比之前提升了25%,这意味着用户可以在更短的时间内获得生成的图像。

下面分别用V6版本和V6.1版本生成图像,提示词如下,观察生成作品的美学风格。

Prompt: one boy, 8-bit game pixel art

提示词: 一个男孩,8比特游戏像素艺术

生成的作品如图1-70所示。

通过比较可以发现,V6.1版本生成的作品在美学风格上进行了优化,其画面色彩更明亮、鲜艳,并且角色形象和肢体动作更加准确。

图1-70 用V6版本和V6.1版本生成作品的美学风格对比

下面分别用V6版本和V6.1版本生成图像,提示词如下,观察生成作品的清晰度。

Prompt: the little boy standing in the garden blowing bubbles

提示词: 站在花园中吹泡泡的小男孩

生成的作品如图1-71所示。

通过比较可以发现,V6.1版本生成的作品更清晰。

图1-71 用V6版本和V6.1版本生成作品的清晰度对比

1.6 Niji版本

-- niji参数或/setting指令可以将Midjourney的绘画风格修改为漫画类型。如果想使用更细腻的漫画风格,可以选择将niji·journey Bot拉到自己的服务器上,操作方法如下。

在Discord主界面中搜索niji,找到niji·journey,如图1-72所示。

图1-72 找到niji·journey

单击niji·journey(后文简称“Niji”)进入其主界面后,其拉入过程可参考1.2.4节中Midjourney Bot的拉入过程。拉入完成后,在输入框中输入/setting,选择带有Niji图标的指令,如图1-73所示。按回车键发送指令,弹出的设置界面如图1-74所示。其中,第一行表示可以选择的Niji版本,包括Niji4、Niji5、Niji6共3个版本。其他标签功能的介绍详见2.2节。本节将介绍Niji5和Niji6的特点,Niji4的效果与Niji5的Original Style效果相同,不再单独介绍。

图1-73 选择带有Niji图标的指令

图1-74 设置Niji

1.6.1 Niji5特点

在图1-74所示界面选中Niji version 5,界面新增标签如图1-75所示。矩形框中的标签依次表示新默认风格、表现力风格、可爱风格、景观风格和原默认风格(Niji4的绘图风格)。

图1-75 新增标签

保持图1-75中的默认设置,在输入框输入/imagine,选择带有Niji图标的指令,输入提示词panda with cake,如图1-76所示。观察作品的风格,Default Style的作品如图1-77所示。

图1-76 指令和提示词

图1-77 Default Style的作品

Prompt: panda with cake

提示词: 熊猫与蛋糕

说明

Default Style等同于设置参数“--niji 5”。

接下来保持提示词内容不变,依次切换其他4种风格,生成的作品依次为图1-78~图1-81。

图1-78 Expressive Style的作品

图1-79 Cute Style的作品

图1-80 Scenic Style的作品

图1-81 Original Style的作品

根据图1-77~图1-81,可以总结Niji5不同风格的特点和应用场景,如表1.1所示。

表1.1 Niji5不同风格的特点和应用场景

除了直接在图1-75所示界面切换标签,还可以通过在提示词后添加参数来切换风格,如添加--style default、--style cute、--style expressive、--style original、--style scenic参数,也可以直接在/setting中设置为Niji Model V5,如图1-82所示。该操作的效果等同于图1-75中的效果。

图1-82 在/setting中设置为Niji Model V5

1.6.2 Niji6特点

2024年1月,Niji6版本推出。相较于Niji5,Niji6版本有以下11个亮点。

图像质量提升:在图像质量上有显著提升,风格感也更强。

风格多样性:能够生成多种风格的图像,包括但不限于写实风格和插画风格。例如,在处理非动漫主题时,Niji6倾向于将其转化为具有鲜明风格的插画。

写实图像处理:在生成写实图像时,Niji6保留了摄影的写实感,但图像会变得更加朦胧,仿佛加了一层滤镜。

3D风格处理:在3D风格的图像中,Niji6会使图像更加柔和,色调变暖,整体看起来更可爱。

中式元素处理:Niji6在处理中式元素时表现更佳,细节和风格更贴合中式审美。

细节和动作表现:Niji6在服装细节和人物动作上表现更好,动作更夸张且有吸引力。

色彩和对比度:Niji6生成的图像色彩更明亮,对比度更强。

提示词反应:Niji6支持更大的提示词容量,能够更准确全面地理解提示词描述,生成效果更佳,但原本在Niji5中好用的提示词可能需要调整才能适应Niji6。

文本生成支持:Niji6支持生成简单的英文文本,这对设计封面等任务非常有帮助。

风格模式:Niji6目前只有--style raw这一个风格模式,该模式可以使图像风格更原始,不再那么动漫化或华丽。同时,通过--stylize参数可以调整风格强度,数值范围为0~1000。

图像差异性:Niji6生成的图像在元素、色彩、构图等方面的差异更明显,不会生成4张非常相似的图像。

在图1-75所示的界面选中Niji version 6。这里只演示两种有代表性的效果。

在Niji 6下,输入/imagine指令,提示词见下页,观察生成作品的准确性。生成的作品如图1-83所示。由此可见,Niji6能很好地识别复杂提示词的内容,并生成相应的作品,而Niji5无法实现。

在Niji6下,输入/imagine指令,提示词见下页,观察生成作品中的文字部分。生成的作品如图1-84所示。由此可见,Niji6在文字识别上比Niji5有质的飞跃。Niji5很难准确识别提示词中的指定文字内容。

Prompt: there's a cool girl, the left eye is yellow, the right eye is blue

提示词: 一个潮酷的女孩,左眼是黄色的,右眼是蓝色的

图1-83 生成作品较为准确

Prompt: a girl standing under a road sign that says "GenJi"

提示词: 一个女孩站在写着“GenJi”的路牌下

图1-84 生成作品中的文字部分较为准确

除了直接在图1-75所示界面选中Niji verson 6,还可以在提示词中使用--niji 6参数,也可以直接在/setting中设置为Niji Model V6,如图1-85所示。

图1-85 直接在/setting中设置为Niji Model V6 lpYgm0420mE8kHl6TEwgq/IidT0dkCaszFAHmSUpCc/23nUllyXkOHNaoE07cmWW

点击中间区域
呼出菜单
上一章
目录
下一章
×