第1章
准备工作

1.1　Midjourney简介

Midjourney是一款实用的AI图像生成工具。用户只需要输入文字描述，Midjourney就能在一分钟内生成对应的图像。该工具由Discord社区推出，并迅速成为人们讨论的焦点。用户可通过Midjourney生成不同画家（如安迪·沃霍尔、达·芬奇、达利和毕加索等）艺术风格的作品，还能识别特定的镜头等摄影术语。

2022年3月，Midjourney首次亮相。2022年8月，V3版本推出。2023年，V5版本成功“出圈”。2023年4月，Midjourney（人工智能图像生成器公司）入选了2023年“福布斯AI 50”榜单。2023年5月15日，Midjourney官方中文版开始内测，搭载在QQ频道上。2024年8月，推出网页版。

Midjourney的创始人大卫·霍尔茨（David Holz）（见图1-1），曾创立专注于跟踪技术的公司Leap Motion，后来转向AI生成艺术领域。Midjourney的宗旨是将AI视为人类想象力的延伸，而不是现实世界的复刻。公司通过付费订阅的商业模式实现盈利，向用户提供不同档次的订阅服务。Midjourney最早源于对生成对抗网络（Generative Adversarial Network，GAN）和深度学习技术的探索。GAN由伊恩·古德费洛（Ian Goodfellow）及其团队在2014年提出，通过两个神经网络（生成器和判别器）的对抗性训练，能够生成逼真的图像。随着GAN技术的不断成熟，研究人员开始思考如何将其应用于实际的图像生成任务，这为Midjourney的诞生奠定了基础。

图1-1　David Holz

展望未来，Midjourney将继续在人工智能和图像生成领域保持创新。随着技术的进一步发展，Midjourney有望在更多行业和应用场景中发挥作用。无论是在广告设计、游戏开发，还是在教育和科研领域，Midjourney都将为用户提供更强大的工具，帮助用户实现更多创意和灵感。

1.2　Midjourney的设置与使用

1.2.1　成为Midjourney付费会员

目前，Midjourney只能通过付费使用，官方共提供了4种付费计划，如图1-2所示。

图1-2　4种付费计划（具体价格以付费订阅时为准）

4种计划的主要区别是Midjourney的作图时间不同，生成图像的质量都是一样的。对4种计划的简要对比如下。

基础计划： 每月快速模式下，共有近200分钟的作图时间，大约可生成200张图像，支持3张图像并发快速作业。

标准计划： 每月快速模式下，共有15小时的作图时间，大约可生成900张图像，支持3张图像并发快速作业。

Pro计划： 每月快速模式下，共有30小时的作图时间，大约可生成1800张图像，支持12张图像并发快速作业，且带隐形模式。

Mega计划： 每月快速模式下，共有60小时的作图时间，大约可生成3600张图像，支持12张图像并发快速作业，且带隐形模式。

具体选择哪种计划，请读者根据需要考虑。

1.2.2　注册Discord账号

Discord是一款专为社群设计的免费的网络实时通话软件，主要针对游戏玩家、教育界人士及商界人士，在Microsoft Windows、macOS、Android、iOS、Linux和网页上运行。用户可以在软件的聊天频道通过文字、图片、视频和音频进行交流。Midjourney搭载在Discord里，读者可以将Discord理解为计算机，Midjourney是Discord里的一款程序。接下来，本节分享一种较为简单的注册Discord账号的方法。

首先，打开Discord官网，如图1-3所示。

图1-3　Discord官网

读者根据所用操作系统进行下载即可，不同系统下Discord的操作界面和功能都是相同的。单击“登录”按钮即可进入登录界面，如图1-4所示。

图1-4　Discord登录界面

如果读者已有Discord账号，直接登录即可。如果没有，单击登录界面中的“注册”，进入注册页面，根据页面要求填入电子邮箱、用户名、密码等信息。这里需要注意的是，年龄必须选择18周岁以上。输入注册信息后，单击“继续”。此时会弹出验证程序，如图1-5所示。

图1-5　验证程序

选中图1-5中的“我是人类”复选框，然后根据提示完成验证即可。

1.2.3　创建自己的服务器

完成人机验证后，就会进入创建服务器界面，如图1-6所示。

图1-6　创建服务器

如果读者收到了Discord的其他用户的邀请链接，可以单击创建服务器界面最下方的“加入服务器”，加入其他人已经创建好的服务器。如果读者想创建自己的服务器，单击该界面中的“亲自创建”，在新打开的界面中单击“仅供我和我的朋友使用”，进入自定义服务器界面，如图1-7所示。

图1-7　自定义服务器

单击“UPLOAD”，上传一张自己喜欢的图像作为服务器账号的头像。单击下方输入框，自定义服务器名称，然后单击“创建”按钮，就会进入Discord主界面，顶部会提示验证邮箱的信息，此时需要读者去刚刚注册时所使用的邮箱中查找Discord发送的验证邮件，并单击“验证电子邮件地址”按钮，如图1-8所示。

图1-8　邮箱验证

验证成功的提示如图1-9所示。

图1-9　验证成功

至此，读者已顺利在Discord上创建了自己的服务器。

1.2.4　添加Midjourney频道

创建完自己的服务器后，还需要将Midjourney机器人添加到刚创建好的服务器。单击图1-9中最下方所示的“继续使用Discord”就可以跳转到本地安装好的Discord程序，如果没有跳转，请读者手动打开安装好的Discord程序。

在Discord主界面中，单击左上方的按钮，会进入Discord社区的发现界面，如图1-10所示。

图1-10　Discord社区的发现界面

Midjourney是Discord中使用率较高的应用，因此排名一般靠前。如果读者没有看到Midjourney，则在图1-10所示界面的搜索框中输入Midjourney进行搜索。单击图1-10中标记1处的卡片，进入Midjourney服务器。

初次进入Midjourney服务器，会弹出话题推荐，如图1-11所示，单击“我就是随便逛逛”后，回到Midjourney服务器，顶部出现“加入Midjourney”按钮，如图1-12所示。

图1-11　初次进入Midjourney服务器的界面

图1-12　“加入Midjourney”按钮

单击“加入Midjourney”按钮后，读者需根据要求完成人机验证。加入Midjourney后，单击界面右上方的“显示成员名单”按钮，如图1-13所示。在弹出的成员列表中找到Midjourney Bot，如图1-14所示。单击Midjourney Bot后，在弹出的界面中单击“添加至服务器”，如图1-15所示。完成添加至服务器后，会弹出选择服务器界面，如图1-16所示。

图1-13　“显示成员名单”按钮

图1-14　Midjourney Bot

图1-15　将Midjourney Bot添加至服务器

图1-16　选择服务器

先单击图1-16中标记1处的下拉框，选择创建好的服务器，例如笔者创建的服务器是“GenJi的服务器”。选择之后，单击图1-16中标记2处的“继续”。在弹出的授权界面中，保持默认勾选状态，单击“授权”。这时，系统会弹出人机验证界面，自行完成验证后就会看到授权成功界面，如图1-17所示。

图1-17　授权成功

单击“前往［创建好的服务器名］”（这里是“前往GenJi的服务器”），就会来到我们自己创建的服务器中，欢迎界面如图1-18所示。

至此，我们已经将Midjourney Bot拉入我们自己的服务器。

图1-18　欢迎界面

1.2.5　接受协议

单击欢迎界面最下方的输入框，输入英文字符/，会弹出Midjourney的指令窗口，如图1-19所示。

图1-19　指令窗口

选择图1-19中最顶部的/imagine或者在输入框继续输入imagine，输入框会自动添加prompt，如图1-20所示。

图1-20　输入框变化

此时在输入框的prompt后面随便输入一个单词，例如Panda，然后按回车键，会弹出接受协议窗口，读者单击“Accept ToS”按钮完成协议认证，就会弹出订阅通知。完成一次认证后就可以开始正式使用Midjourney进行创作了。

1.2.6　用Midjourney完成第一幅作品

本节将介绍用Midjourney生成作品的操作方法，其中涉及的指令、参数将于第2、3章详细介绍。

在输入框中输入/，然后输入或者直接用鼠标选择imagine，输入Panda eye macro photography --v 6，作为提示词，如图1-21所示。

图1-21　提示词

输入完成后，按回车键发送指令，就会看到Midjourney开始执行，如图1-22所示。

图1-22中右上角有绘制进度提示，当进度达到100%后，会看到Midjourney生成了一幅清晰的含有4张小图的图像，如图1-23所示。

图1-22　执行窗口

图1-23　生成的图像

图1-23生成的图像从左往右、从上到下依次标号为1、2、3、4。图像下方有两排按钮，其含义如下。

U：放大某张图像，完善更多细节内容。U1、U2、U3、U4按钮分别表示对第1张、第2张、第3张、第4张图像执行U操作。

V：生成与所选图像风格类似的4张新图像。V1、V2、V3、V4按钮分别表示对第1张、第2张、第3张、第4张图像执行V操作。

（刷新）：表示按照提示词重新生成图像。

如果图1-23中有满意的作品，则不需要刷新，可以直接挑选心仪的图像。例如，我们喜欢第1张，就单击“U1”。稍等片刻后，Midjourney就会输出所选图像的大图，如图1-24所示。

图1-24　U1放大后的结果

最后，既可以通过单击图1-24中最下方所示的按钮，也可以先单击图像，再单击“在浏览器中打开”来保存我们用Midjourney完成的第一幅作品的高清原图，保存的原图如图1-25所示。

图1-25　第一幅作品的原图

1.3　Discord的常用功能

Discord的本地应用程序与网页端的界面和功能相同。本书后续将使用本地应用程序。读者可以根据使用偏好选择本地应用程序或网页端。接下来将介绍Discord的常用功能，图1-26展示了Discord的功能界面。

图1-26中标记1所示的为服务器列表显示区域，该区域以图标形式显示如下类型的服务器：

用户自定义的服务器；

用户已选择加入的由其他用户创建的服务器；

用户已添加的官方机器人。

图1-26　功能界面

图1-26中标记2所示的为Midjouney生成图像的区域，通过滚动鼠标滑轮可以查看创作记录。也可以通过在图1-26中右上角所示的搜索栏输入关键字来查找。

图1-26中标记3所示的为输入框，后续用到的输入框，若没有特殊说明，都指的这个输入框。如果读者选择其他服务器或者频道，也可以通过在该输入框中输入内容完成与其他好友进行对话、点评他人的作品等操作。

本书基于自定义的“GenJi的服务器”进行创作。右击服务器列表中我们自定义的服务器logo，弹出的设置菜单如图1-27所示。

图1-27　设置菜单

在设置菜单中，最常用的设置就是“编辑服务器个人资料”，读者可以在这里修改服务器的图标和名称，修改用户名与密码等个人资料。

读者如果需要将自己创建的频道分享给他人，则单击设置菜单中的“创建频道”。一旦有了自己的频道，就可以根据兴趣来设置相应的类别和活动。服务器与频道的关系就像大楼与大楼里的房间，用户可以在这里与好友聊天互动。

1.4　生成作品的3种方式

Midjourney提供了3种主流的生成作品的方式。本节将通过具体示例介绍这3种方式。

1.4.1　通过文字描述生成作品

图1-28就是通过文字描述（即提示词）生成的作品。

说明

以图1-28为例，为了提升效率，本书不再采用截图形式，而是直接给出Prompt后面的内容，读者自行输入并按回车键即可发送指令。如果提示词中要用到多个有意义的词语或句子，必须用英文逗号“,”隔开。

接下来，通过一段简单的文字描述来生成熊猫游泳的图像，如图1-28所示。

Prompt： panda, swimming --v 6 --ar 3:4

提示词： 熊猫，游泳 -- 版本 6 -- 尺寸 3:4

图1-28　熊猫游泳

我们再在输入框中输入一段复杂的文字描述，用卡通风格生成熊猫家庭的图像，如图1-29所示。

Prompt： flat, vector, clip art, impressionist cartoon whimsical panda family, in the style of Andy Kehoe, Skottie Young and Keith Haring, stylized, detailed, adventure time, layered 2d art --s 300 --ar 16:9 --c 15 --v 6

提示词： 扁平化，矢量，剪贴画，印象派卡通风格的奇趣熊猫家庭，以Andy Kehoe、Skottie Young和Keith Haring的风格为灵感，风格化，细节丰富，参考Adventure Time的风格，2D分层 --风格化 300 --尺寸 16:9 --混乱度15 --版本6

图1-29　卡通风格的熊猫家庭

由此可见，如果想让Midjourney创造出优质的图像作品，由几个单词组成的简单的提示词远远不够。经过作者长时间摸索，好的提示词可以按照如下框架来编写：

主体内容，环境背景，构图，视图，参考艺术家，图像参数

其中，环境背景指氛围、场景、光感等；构图包括规则构图、黄金分割、对角线构图等；视图包括正视图、侧视图、俯视图等；参考艺术家指的是要参考绘画风格的艺术家的名字；图像参数包含设置生成图像的尺寸、质量、风格等。

1.4.2　通过融图生成作品

顾名思义，融图就是将多张图像的风格融合在一起。进行融图操作时，应尽量保证样图简单，避免包含过多元素，以确保色调和风格能较好地融合。

首先，准备两张图像，人像应尽量精简，若过于复杂，融图效果可能会不可控。建议图像分别为人物主体和风景照，这样在Midjourney生成图像时，既有人物主体，又有背景的色调和纹理。图像格式最好是.png或者.jpg。

在输入框中输入/blend，然后按回车键发送指令，弹出图1-30所示的界面。由图1-30可知，/blend指令默认需要上传两张图像。依次单击图1-30中的image1和image2，弹出上传界面，上传事先准备好的两张样图。或者，也可以依次将样图拖到image1和image2选框。上传完成后，界面如图1-31所示。

图1-30　/blend界面

图1-31　上传完成

此时按回车键执行融图操作，融图效果如图1-32所示。

图1-32　融图效果

如果想上传多张图像，单击图1-30所示界面右下角的“增加4”，在弹出的界面中选择“image3”，就可以继续添加新的样图，此时界面如图1-33所示。

图1-33　新增样图

单击“dimensions”选项，将弹出控制融图生成作品尺寸比例的选项，如图1-34所示。其中，Protrait表示生成作品的尺寸比例为2∶3，Square表示生成作品的尺寸比例为1∶1，Landscape表示生成作品的尺寸比例为3∶2。读者根据自己的需求选择即可。

图1-34　控制融图生成作品尺寸比例的选项

1.4.3　通过样图结合文字生成作品

首先，准备一张或多张样图，样图的格式必须是.png、.gif、.webp、.jpg或.jpeg。单击输入框最左侧的“+”，在弹出的界面中单击“上传文件”，如图1-35所示。

图1-35　上传文件

然后，在弹出的界面中选择要上传的图片，此时界面如图1-36所示。按回车键，将样图传给Midjourney服务器，完成上传后界面如图1-37所示。

图1-36　上传样图

图1-37　完成上传

除了上面的上传样图操作，还可以直接通过鼠标将样图拖曳到Discord程序进行上传，读者可以根据个人喜好选择上传方式。

上传完成后，右击左侧的人物样图，在弹出的界面中单击“复制链接”，如图1-38所示。接下来，在输入框中输入/imagine，然后通过“Ctrl+V”组合键粘贴复制好的链接，再按空格键，然后添加对应的提示词。添加完成后的指令界面如图1-39所示，图中马赛克表示刚刚复制的图像地址，读者应使用自己的链接。

图1-38　复制链接

图1-39　指令

生成的作品如图1-40所示。

图1-40　生成的作品

Prompt： disney style

提示词： 迪士尼风格

如果有多张样图，那么每个链接之间应用空格隔开。图1-41展示了输入3张样图时指令界面上的链接，不同链接间以空格隔开。

图1-41　3张样图的链接

1.5　Midjourney版本

从V1到最新版本，Midjourney在技术和功能上不断实现突破，逐步提高了图像生成的质量。每个版本的更新都标志着人工智能图像生成领域的一次重要进展，为用户提供了更加强大的创意工具和平台。截至2024年5月，Midjourney已经推出了V1、V2、V3、V4、V5、V5.1、V5.2、V6共8个大版本。最早发布的是V1，数字越大表示版本越新。接下来将介绍各个版本的特点。

1.5.1　V1到V5版本

V1版本主要聚焦于图像生成的基础功能。该版本能够生成简单的图像，但在细节表现和逼真度方面存在较大的提升空间。

V2版本在V1版本的基础上进行了多方面的优化和改进。通过改进算法，提升了图像的细节表现和清晰度，并且增强了生成图像的多样性。

V3版本引入了更先进的深度学习算法，显著提升了图像生成的质量和速度。该版本在处理复杂场景和细节方面表现卓越，生成的图像更具艺术感和创意。

V4版本专注于高分辨率图像的生成和细节优化。该版本能够生成超高分辨率的图像，并在细节处理上达到了新的水平，图像更加细腻和真实。

V5版本在图像生成的智能化和用户体验方面取得了显著进步。该版本引入了智能提示和创意辅助功能，使用户能更轻松地生成满足个性化需求的图像。

接下来，使用同一提示词和不同版本生成图像，V1～V5版本生成的作品如图1-42～图1-46所示。

图1-42　V1版本生成的作品

Prompt： panda with wings --v 1

提示词： 带翅膀的熊猫--V1版本

图1-43　V2版本生成的作品

Prompt： panda with wings --v 2

提示词： 带翅膀的熊猫--V2版本

图1-44　V3版本生成的作品

Prompt： panda with wings --v 3

提示词： 带翅膀的熊猫--V3版本

图1-45　V4版本生成的作品

Prompt： panda with wings --v 4

提示词： 带翅膀的熊猫--V4版本

图1-46　V5版本生成的作品

Prompt： panda with wings --v 5

提示词： 带翅膀的熊猫--V5版本

从这5张图中，可以观察到Midjourney在以下4个方面有显著提升。

细节丰富度和内容真实性。V1和V2版本的图像生成效果基本类似于简笔画，前景和背景的处理相对粗糙，到了V3版本，背景和透视关系都变得更加合理，而到了V4版本，图像已经达到了可用的状态。

分辨率提高。从V1到V3版本，单张图像的分辨率是256 px×256 px，到了V5版本，单张图像的默认分辨率已经提升到了1024 px×1024 px。

参数多样性。V5版本支持更多的参数，这些参数在之前的版本中大多是不可用的。此外，早期版本对某些词的具体含义理解有限，而V5版本的理解能力显著增强。

艺术风格词汇的重要性。这个结论尚未得到官方认证。有很多人认为V5版本是一个更通用的版本，笔者的理解是V5版本提高了图像生成的基准线。这意味着不需要太多描述性的词，也能生成一个“可以看”的作品。艺术风格词汇的使用变得更加重要，因为它们能够更精确地指导算法生成符合特定风格的作品。

1.5.2　V5.1版本

Midjourney的V5.1版本相对于V5版本在以下6个方面进行了提升。

提升了短提示词的产出质量，即使是简短的提示词也能生成高质量的图像。

新增了“RAW Mode”（原始模式），这是一个可选的模式，用于生成更加写实的图像。

对提示词理解的精准度得到了提升，减少了不必要的算法发散，使得生成的图像更符合用户意图。

文本识别能力增强，尤其是在生成包含文字的图像时，文字的识别和表现更加准确。

减少了不必要的边框，图像的构图更加自然和干净。

提高了图像的清晰度，使细节更加清晰可见。

接下来，同样通过示例介绍其特点。

首先，需要手动开启RAW Mode。在输入框中输入/setting指令，按回车键发送指令，在图1-47的下拉框中选择Midjourney Model V5.1后，再选择RAW Mode即可。或者，可以直接在提示词的最后添加“--v 5.1 --style raw”，来启用V5.1版本的RAW Mode，生成的作品如图1-48所示。

图1-47　开启RAW Mode

图1-48　V5.1版本生成的作品

Prompt： panda with wings --v 5.1 --style raw

提示词： 带翅膀的熊猫--V5.1版本 --原始模式

相较于V5版本，V5.1版本生成的作品拥有更多细节，整体画质也更加清晰。由于使用了RAW Mode，视觉风格更加写实。如果用户不需要过于写实的效果，可以在进行图1-47所示的设置时不选择RAW Mode，直接使用V5.1版本。根据笔者的测试，V5版本可以实现的效果，V5.1版本都可以实现，而且效果更佳。

V5.1版本的另一个独到之处在于提升了生成英文文本的能力。使用/imagine指令，并输入提示词，V5、V5.1 RAW Mode、V5.2、V6版本生成的作品如图1-49所示。

图1-49　生成的作品

Prompt： letter G logo --v 5

提示词： 字母G的logo --V5版本

Prompt： letter G logo --v 5.2

提示词： 字母G的logo --V5.2版本

Prompt： letter G logo--v 5.1--style raw

提示词： 字母G的logo --V5.1版本 --原始模式

Prompt： letter G logo --v 6

提示词： 字母G的logo --V6版本

由图1-49可以看出，版本越高，对英文文本的识别能力越强，并且能更好地制作成logo类的图像。如果需要更丰富的表现力，建议不使用RAW Mode。

1.5.3　V5.2版本

Midjourney的V5.2版本相对于V5.1版本在以下6个方面进行了提升。

采用了更写实的美学系统，使生成的图像在视觉上更加逼真和自然。

新增了High Variation Mode（高变化模式），使用户可以选择生成具有更高变化性的图像，从而提供更多的创意选项和视觉效果。

新增了Vary（Strong）和Vary（Subtle）标签，使用户可以控制图像生成的变化程度。Vary（Strong）会生成与原图差异较大的图像，而Vary（Subtle）则会生成差异相对细微的图像。

新增了局部修改功能，使用户可以对图像的特定区域进行修改，而不用重新生成整个图像。

新增了Zoom Out（缩放）标签，可以在原图的基础上扩展画布，生成额外的背景内容。

新增了上下左右扩图标签，使用户可以指定图像生成的方向，如可以生成向上、向下、向左或向右扩展的图像，从而提供更灵活的构图选项。

接下来，通过示例介绍其特点。

在输入框中输入/setting指令，按回车键，在图1-50所示的下拉框中选择Midjourney Model V5.2。或者，可以直接在提示词的最后添加“--v 5.2”。

图1-50　选择V5.2版本

若在图1-50所示的下拉框中选择了Remix mode，则在进行V操作（生成图像的变体）时，可以开启输入框并根据需要调整提示词，设置方式如图1-51所示。

图1-51　设置方式

若在图1-50所示的下拉框中选择了High Variation Mode，则生成的图像更加多样化，人物也更加逼真，该模式下生成的作品如图1-52所示。如果不需要更加多样化的结果，则可切换为Low Variation Mode。

说明

并不是更加多样化就代表生成的图像更优秀。经笔者测试，高变化模式下可能需要尝试多次才能得到理想结果。注意，高变化模式和低变化模式仅适用于V5.2及之后的版本。

图1-52　High Variation Mode模式下生成的作品

Prompt： panda with wings --v 5.2

提示词： 带翅膀的熊猫--V5.2版本

相较于V5.1版本，V5.2版本生成的作品在画质、分辨率、风格写实度和构图方面都有所提升。例如，熊猫的翅膀和毛的颜色都能很好地统一起来，光影效果也更加逼真。

经笔者测试对于V5.2版本的人像，表情、动作渲染效果更加写实逼真，质感堪比摄影作品。例如，使用/imagine指令，生成如图1-53所示的作品。

图1-53　生成质感堪比摄影的作品

Prompt： side view of a woman, giant flower, double exposure, surreal photography --v 5.2

提示词： 女人侧影、巨型花朵、双重曝光、超现实摄影 --V5.2版本

此时，对图1-53中的任意一个作品进行放大查看，例如执行U2操作，此时界面如图1-54所示，相较于之前的版本新增了一些功能，下面将详细介绍。

图1-54　新增功能

其中，Upscale（2x）表示将图像放大2倍，Upscale（4x）表示放大4倍。

Vary（Subtle）和Vary（Strong）功能允许用户对原图进行微调或较大改变后再次生成4张相似图像，图1-55和图1-56分别为选中Vary（Subtle）和Vary（Strong）功能后生成的作品。

图1-55　选中Vary（Subtle）功能后生成的作品

图1-56　选中Vary（Strong）功能后生成的作品

Vary（Region）用于局部重绘，为用户提供了一个便捷的方式来进行特定区域的图像修改。选中该功能后，进入编辑框界面，如图1-57所示。

图1-57　编辑框界面

其中，标记1到5分别代表撤销操作、使用方形选框选择修改区域、使用套索工具选择修改区域、修改内容的提示词和发送指令。标记4处的文字表示添加一些火焰。红色矩形框中的透明图层就是使用套索工具选择的要修改的部分，单击标记5处的确认按钮发送修改指令，生成的作品如图1-58所示。

图1-58　局部重绘后生成的作品

说明

请注意，选择的区域不宜过小或过大。过小的区域可能无法带来显著的变化，而过大的区域可能导致过多的改动，一般选择图像的20%～50%。通过掌握Midjourney局部重绘功能的使用方法和技巧，可以在数字创作中展现个性化的风格和挖掘创作潜能。无论是对图像的精细修改、风格调整，还是角色形象的个性演绎，Midjourney局部重绘功能都将成为你实现创意的利器。

如果图像的宽度小于高度，即图像是竖图，那么会出现Make Square标签，如图1-59所示。该标签的作用是将图像以方形尺寸缩放，单击该标签后生成的作品如图1-60所示。在图1-60中，我们可以看到缩放后的作品，并且可以通过U操作进行新一轮的缩放，这个过程可以不断重复，从而将不完整的场景或人物扩展成更完整的全景。

图1-59　Make Square功能

图1-60　单击Make Square标签后生成的作品

在图1-59中，Zoom Out 2x表示将图像缩小50%。

说明

需要注意的是，Zoom Out操作会将原图缩小并在周围填充新的内容，因此多次缩放后，图像的精度可能会下降，周围也可能会出现更多的黑色区域。用户可以利用Zoom Out功能对喜欢的图像进行扩图，在缩放过程中不断增加新的细节，最终可以将这些连续的图像制作成“穿越式”视频。

如果用户需要更精确地控制图像缩放的比例，可以使用自定义缩放标签，单击图1-59所示界面中的Custom Zoom，弹出的提示框如图1-61所示。

图1-61　自定义缩放

在提示框中，用户不仅可以修改提示词，例如添加“some ice”（一些冰），还可以设置特定的参数来控制图像的缩放。这里提供了两个参数：--ar（宽高比）和--zoom（扩展值）。--ar参数允许用户设置所需的宽高比。--zoom参数的设置范围则限于1到2之间，这意味着缩放后的图像不能超过其原始尺寸的两倍。用户可以根据自己的需求设置这些参数。例如，可以设置“--zoom 2”。设置完成后，单击图1-61所示提示框中的“提交”按钮，生成的作品如图1-62所示。

图1-62　自定义缩放后生成的作品

图1-59中的4个方向的箭头按钮，分别表示按照箭头方向（左、右、上、下）进行扩图，常用于风景图。使用/imagine指令，并输入如下提示词。

Prompt： a painting shows mountains and streams,in the style of gold and aquamarine,serene pastoral scenes,grandeur of scale,serenity and harmony,cloisonnism,hieratic vision,gold and azure --v 5.2 --ar 16:9

提示词： 一幅描绘山脉和溪流的画作，金色和蓝绿色风格，宁静的田园风光，宏伟的规模，宁静与和谐，分隔主义，神圣的视觉风格，金色和蔚蓝色 --V5.2版本 --尺寸 16:9

生成的山水图如图1-63所示。

图1-63　生成的山水图

单击图1-63所示界面中的按钮，将弹出提示框，不需要修改任何提示，单击提示框中的“提交”按钮后，向左扩图的效果如图1-64所示。

图1-64　向左扩图的效果

在图1-64所示界面中选择U1，放大后的作品如图1-65所示。此时，如图1-65中矩形框内所示，只有左右扩图按钮了，这是因为如果使用了左右扩图，就不能使用上下扩图。同样，使用了上下扩图就不能使用左右扩图。不断重复该过程，就能制作出连续的环境场景图。

图1-65　放大后的作品

说明

用箭头按钮扩图不会对原来的内容进行缩放，而是基于原图在指定方向上做扩图，保持原图精度不变。

1.5.4　V6版本

Midjourney的V6版本相对于V5.2版本在以下4个方面进行了提升。

更具质感的作品：V6版本在图像生成质量上有了显著的提升，尤其是在画面质感和细节刻画上。图像的光影处理更加真实自然，使生成的作品在视觉上更加吸引人。

长提示词文本理解能力：V6版本能够处理更长的文本提示词，其容量达到了350～500个词，而V5.2版本在超过30个词后，提示词的效果就会大打折扣。V6版本的自然语言处理能力也使用户在编写提示词时更加灵活，不再需要依赖简短的短语，而是可以使用更加自然的语言描述，从而提高了生成内容的准确性和用户满意度。

准确的英文理解能力：V6版本对英文提示词的理解变得更加准确，V6版本能够更好地呈现提示词中提到的所有元素，包括颜色、位置以及元素之间的关系。

放大选项优化：虽然我把这一点放在最后讲解，但实际上它是V6版本相对于V5.2版本的另一个重要改进。放大选项的优化意味着在放大图像时，能够保持更高的图像质量，减少模糊和失真的情况。

下面分别用V5.2版本和V6版本生成图像，提示词如下，观察作品的质感。

Prompt： panda face

提示词： 熊猫脸

生成的作品如图1-66所示。

通过比较，我们可以明显看出V6版本生成的图像细节更加锐利和清晰，而V5.2版本的图像则显得较为模糊和灰暗。

图1-66　用V5.2版本和V6版本生成作品的质感对比

下面分别用V5.2版本和V6版本生成图像，提示词如下，观察生成内容的准确性。

Prompt： a photo-realistic photo of a wooden table with a white vase with yellow roses. Next to it is a red bowl with lemons and apples, with some blueberries scattered around the side of the bowl. Next to the table is a white window

提示词： 一张木桌的写实照片，桌上放着一个白色花瓶，里面插着黄玫瑰。旁边是一个红色的碗，碗里有柠檬和苹果，碗边散落着一些蓝莓，桌子旁边是一扇白色的窗户

生成的作品如图1-67所示。

通过比较，可以发现V5.2版本没有准确呈现碗的颜色，在提示词中位置靠后的苹果、蓝莓也都丢失了，但V6版本可以准确生成这些物体，且它们的位置关系正确。

图1-67　用V5.2版本和V6版本生成作品的准确性对比

下面分别用V5.2版本和V6版本生成图像，提示词如下，观察生成特定英文文本的准确性。注意，要想准确生成英文文本内容，就需要将其置于英文的双引号内；在生成文本内容时，建议使用“--style raw”参数或设置较低的stylize值，以确保文本内容的准确性和可读性。

Prompt： a neon sign with text "GenJi"

提示词： 霓虹灯招牌上写着“GenJi”

生成的作品如图1-68所示。

通过比较可以发现，V5.2版本没有准确呈现引号内的文本内容，但V6版本可以准确呈现。

图1-68　用V5.2版本和V6版本生成的英文文本内容

在V6版本中，有两个起到图像放大功能的标签，分别是Upscale（Subtle）和Upscale（Creative）（见图1-69），它们虽然都可以将图像放大两倍，但各自有不同的应用场景和效果。Upscale（Subtle）旨在保持原图的基本外观和风格，放大后的图像与原图非常相似，它主要在细节上进行细微的增强，不会引入显著的新元素或风格变化，适用于那些希望放大图像同时保持原始风格和细节不变的用户。Upscale（Creative）放大后的图像在细节上可能与原图有明显的不同，可能会更加艺术化或风格化，适用于那些希望获得更具创意和艺术感的放大图像的用户。

图1-69　放大功能

1.5.5　V6.1版本

Midjourney的V6.1版本相对于V6版本在以下8个方面进行了提升。

图像质量提升：图像更加清晰锐利，特别是在纹理、皮肤和8-bit像素画的表现效果上。

更准确地呈现内容：V6.1版本生成内容的稳定性得到了提升，英文文本内容的正确率也有所提高。

默认美学风格优化：在美学风格上进行了优化，使得画面色彩更加明亮鲜艳，整体视觉效果更佳。

修复面部细节问题：V6.1版本修复了之前版本中人物面部细节不清晰的问题，即使在全身图中，人物面部的五官细节也较为清晰。

图像放大优化：对图像放大功能进行了优化，放大图像时能够提供更精致的细节。

质量参数调整：引入了--quality参数，允许用户控制生成图像所消耗的GPU时间，支持0.5、1、2三种数值，用户可以根据需要平衡生成速度和图像细节。

个性化模型更新：V6.1版本更新了个性化模型，可以适应不同用户的需求。

性能提升：V6.1版本的标准图像生成速度比之前提升了25%，这意味着用户可以在更短的时间内获得生成的图像。

下面分别用V6版本和V6.1版本生成图像，提示词如下，观察生成作品的美学风格。

Prompt： one boy, 8-bit game pixel art

提示词： 一个男孩，8比特游戏像素艺术

生成的作品如图1-70所示。

通过比较可以发现，V6.1版本生成的作品在美学风格上进行了优化，其画面色彩更明亮、鲜艳，并且角色形象和肢体动作更加准确。

图1-70　用V6版本和V6.1版本生成作品的美学风格对比

下面分别用V6版本和V6.1版本生成图像，提示词如下，观察生成作品的清晰度。

Prompt： the little boy standing in the garden blowing bubbles

提示词： 站在花园中吹泡泡的小男孩

生成的作品如图1-71所示。

通过比较可以发现，V6.1版本生成的作品更清晰。

图1-71　用V6版本和V6.1版本生成作品的清晰度对比

1.6　Niji版本

-- niji参数或/setting指令可以将Midjourney的绘画风格修改为漫画类型。如果想使用更细腻的漫画风格，可以选择将niji·journey Bot拉到自己的服务器上，操作方法如下。

在Discord主界面中搜索niji，找到niji·journey，如图1-72所示。

图1-72　找到niji·journey

单击niji·journey（后文简称“Niji”）进入其主界面后，其拉入过程可参考1.2.4节中Midjourney Bot的拉入过程。拉入完成后，在输入框中输入/setting，选择带有Niji图标的指令，如图1-73所示。按回车键发送指令，弹出的设置界面如图1-74所示。其中，第一行表示可以选择的Niji版本，包括Niji4、Niji5、Niji6共3个版本。其他标签功能的介绍详见2.2节。本节将介绍Niji5和Niji6的特点，Niji4的效果与Niji5的Original Style效果相同，不再单独介绍。

图1-73　选择带有Niji图标的指令

图1-74　设置Niji

1.6.1　Niji5特点

在图1-74所示界面选中Niji version 5，界面新增标签如图1-75所示。矩形框中的标签依次表示新默认风格、表现力风格、可爱风格、景观风格和原默认风格（Niji4的绘图风格）。

图1-75　新增标签

保持图1-75中的默认设置，在输入框输入/imagine，选择带有Niji图标的指令，输入提示词panda with cake，如图1-76所示。观察作品的风格，Default Style的作品如图1-77所示。

图1-76　指令和提示词

图1-77　Default Style的作品

Prompt： panda with cake

提示词： 熊猫与蛋糕

说明

Default Style等同于设置参数“--niji 5”。

接下来保持提示词内容不变，依次切换其他4种风格，生成的作品依次为图1-78～图1-81。

图1-78　Expressive Style的作品

图1-79　Cute Style的作品

图1-80　Scenic Style的作品

图1-81　Original Style的作品

根据图1-77～图1-81，可以总结Niji5不同风格的特点和应用场景，如表1.1所示。

表1.1　Niji5不同风格的特点和应用场景

除了直接在图1-75所示界面切换标签，还可以通过在提示词后添加参数来切换风格，如添加--style default、--style cute、--style expressive、--style original、--style scenic参数，也可以直接在/setting中设置为Niji Model V5，如图1-82所示。该操作的效果等同于图1-75中的效果。

图1-82　在/setting中设置为Niji Model V5

1.6.2　Niji6特点

2024年1月，Niji6版本推出。相较于Niji5，Niji6版本有以下11个亮点。

图像质量提升：在图像质量上有显著提升，风格感也更强。

风格多样性：能够生成多种风格的图像，包括但不限于写实风格和插画风格。例如，在处理非动漫主题时，Niji6倾向于将其转化为具有鲜明风格的插画。

写实图像处理：在生成写实图像时，Niji6保留了摄影的写实感，但图像会变得更加朦胧，仿佛加了一层滤镜。

3D风格处理：在3D风格的图像中，Niji6会使图像更加柔和，色调变暖，整体看起来更可爱。

中式元素处理：Niji6在处理中式元素时表现更佳，细节和风格更贴合中式审美。

细节和动作表现：Niji6在服装细节和人物动作上表现更好，动作更夸张且有吸引力。

色彩和对比度：Niji6生成的图像色彩更明亮，对比度更强。

提示词反应：Niji6支持更大的提示词容量，能够更准确全面地理解提示词描述，生成效果更佳，但原本在Niji5中好用的提示词可能需要调整才能适应Niji6。

文本生成支持：Niji6支持生成简单的英文文本，这对设计封面等任务非常有帮助。

风格模式：Niji6目前只有--style raw这一个风格模式，该模式可以使图像风格更原始，不再那么动漫化或华丽。同时，通过--stylize参数可以调整风格强度，数值范围为0～1000。

图像差异性：Niji6生成的图像在元素、色彩、构图等方面的差异更明显，不会生成4张非常相似的图像。

在图1-75所示的界面选中Niji version 6。这里只演示两种有代表性的效果。

在Niji 6下，输入/imagine指令，提示词见下页，观察生成作品的准确性。生成的作品如图1-83所示。由此可见，Niji6能很好地识别复杂提示词的内容，并生成相应的作品，而Niji5无法实现。

在Niji6下，输入/imagine指令，提示词见下页，观察生成作品中的文字部分。生成的作品如图1-84所示。由此可见，Niji6在文字识别上比Niji5有质的飞跃。Niji5很难准确识别提示词中的指定文字内容。

Prompt： there's a cool girl, the left eye is yellow, the right eye is blue

提示词： 一个潮酷的女孩，左眼是黄色的，右眼是蓝色的

图1-83　生成作品较为准确

Prompt： a girl standing under a road sign that says "GenJi"

提示词： 一个女孩站在写着“GenJi”的路牌下

图1-84　生成作品中的文字部分较为准确

除了直接在图1-75所示界面选中Niji verson 6，还可以在提示词中使用--niji 6参数，也可以直接在/setting中设置为Niji Model V6，如图1-85所示。

图1-85　直接在/setting中设置为Niji Model V6

第1章 准备工作

1.1 Midjourney简介

1.2 Midjourney的设置与使用

1.2.1 成为Midjourney付费会员

1.2.2 注册Discord账号

1.2.3 创建自己的服务器

1.2.4 添加Midjourney频道

1.2.5 接受协议

1.2.6 用Midjourney完成第一幅作品

1.3 Discord的常用功能

1.4 生成作品的3种方式

1.4.1 通过文字描述生成作品

1.4.2 通过融图生成作品

1.4.3 通过样图结合文字生成作品

1.5 Midjourney版本

1.5.1 V1到V5版本

1.5.2 V5.1版本

1.5.3 V5.2版本

1.5.4 V6版本

1.5.5 V6.1版本

1.6 Niji版本

1.6.1 Niji5特点

1.6.2 Niji6特点