购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.2.2 Midjourney的工作原理

Midjourney融合了大型语言模型(Large Language Models)和扩散模型(Diffusion Models)的技术优势,通过两者的相互配合实现从文字到图像的创造性转化。当用户输入一个文本提示时,大型语言模型首先发挥作用,将输入的文本分解成一系列有意义的单元,如单词和短语,并将其编码为向量。随后,扩散模型接手处理这些向量信息并创建一个随机的噪声图像,再通过“去噪”的方式逐步扩散出与文本提示相匹配的清晰的图像。这一过程涉及复杂的迭代优化,每一步都旨在减少图像与提示之间的差异。

例如,如果输入文本提示“一个机器人坐在草地上(A robot sitting on the grass)”,Midjourney会从随机的噪声图像开始,利用训练的AI模型减去噪声,逐步生成一组与文本提示相符的图像。

此外,Midjourney在生成图像时不仅会关注字面意义上的匹配,还会尝试捕捉文本提示中隐含的情感、风格和氛围,确保最终生成的作品既与文本提示相符合,又富有创造性和表现力。整个工作流程展现了语言理解和图像生成之间精妙的协同作用,是AI技术在创意领域应用的优秀示例。 lQEMDxBXBXFh+s2MdQ+/K+l64TW6QRl4uLZ+JkltuShmwtn0KTec5LBL36j8B0Rz

点击中间区域
呼出菜单
上一章
目录
下一章
×