购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

4.2 梦想成像:大模型让创意触手可及

在多媒体行业的快速发展过程中,大模型技术(如ChatGPT)及其集成的DALL·E3功能,给媒体人提供了创作的新途径。这些技术不仅能够生成符合用户需求的高质量图片和视频,还能够理解和分析现有的图像内容,从而在多种多媒体应用中发挥重要作用。

考虑到文本到图像的生成能力,ChatGPT的DALL·E3功能能够接收创意丰富的文本提示,如“帮我生成龙年的可爱龙宝宝的图片,预示着幸福和安康。”,如图4-1所示,基于提示词,能够创造出独特且富有想象力的图像。同样,我们可以将这种能力扩展到广告创意、插图设计等领域,并创造价值。这样媒体人就可以迅速从概念阶段转移到具体的视觉表现,极大地缩短了创作周期,并提高了工作效率。

大模型不仅能够生成图片,还可以理解图片。如图4-2所示,这里就展示了大模型理解图片的能力,我们将一张“龙宝宝”的图片上传给ChatGPT,它会分析并理解图片内容,通过文字的方式解释图片。这一点在多媒体内容的自动标注、搜索优化以及创建与现有图像相匹配或补充的新内容上尤为重要。例如,在视频制作过程中,通过理解特定场景的图像内容,大模型技术可以为视频提供自动生成的解说文字,或者为现有视频场景生成合适的背景音乐和声效,从而增强视觉和听觉的整体体验。

图4-1 提示词生成图片

图4-2 大模型理解图片的能力

此外,这些技术的应用不仅限于提供创新的内容创作工具。在广告制作领域,它们能够根据品牌特定的需求生成定制化的广告图片;在插图生成方面,它们能够为出版物、社交媒体帖子或网站内容提供独特且吸引人的视觉元素;在视频和图片解说领域,它们能够提供深度的内容理解,生成与图像或视频内容紧密相关的描述,使得教育材料、新闻报道和在线课程更加生动和吸引人。 nwVkD8lCpMldOU5k65SubXtLwR2Au3CcHxed/XQeyjy0gUhonNFAIlUh9otbDb/7

点击中间区域
呼出菜单
上一章
目录
下一章
×