购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

05 跨模态生成:内容自动转换与处理

“模态”即事物的表现形式,一个事物可以同时存在多种模态,从多个视角出发对该事物进行描述。例如温度传感器的数据呈现方式包括具体文字描述、热力图或语音播报等。多模态数据能够更加具体、全面地展现事物的状态和性质,多模态转化是AIGC应用的基础,也是人工智能领域的重要研究方向。目前,多模态研究已经在自然语言处理、机器翻译、情感分析、感知识别等方面取得了突出进展。

多模态大模型主要是基于Transformer架构进行预训练的,这一领域还有巨大的发展潜力。一是由于模型算法本身还有较大的优化空间,二是由于多模态大模型的训练需要海量数据,数据集完善程度是影响训练效果的重要因素。以CLIP模型和GPT模型为例,随着训练数据规模的增长,其模型性能可显著提升。聊天机器人ChatGPT在GPT-3.5模型的基础上投入应用,能够根据文字内容输出文字,其底层大模型过渡到GPT-4后,不仅输出内容的质量大幅提升,还能够支持图片等多模态输入。

目前,多模态预训练大模型的训练以语言和视觉图像两种模态为主,未来随着模型算法进一步成熟,能够训练的模态类型将进一步扩展,多模态数据的预训练大模型可以为多模态AIGC产品的开发奠定基础。

(1)文字生成图像

2021年,OpenAI发布的深度学习模型CLIP和图像生成模型DALL-E为AIGC实现“文字—图像”的转化打下了基础。2022年,Stable Diffusion、DALL-E 2等多款绘画模型的发布充分证明了AI根据文字描述创作图像的可行性。

微软亚洲研究院于2021年就提出了多模态预训练模型VLMo(Vision Language pretrained Model),该模型以混合模态专家(MOME,Mixture-of-Modality-Experts)Transformer为核心,可以使用一个结构同时完成图像、文本、图文混合三种模态的数据输入,VLMo由此制定了与之对应的分阶段训练策略和训练任务。

2022年8月,该团队在VLMo的基础上推出了通用的多模态基础模型BEiT-3,其中提出用于通用建模的Multiway Transformer,并以此为骨干网络,以统一的方式对单模态(如文本或图像)和多模态(主要指“文本—图像”)数据进行掩码数据建模。

(2)文字生成视频

从传统的视角来看,视频实际上是由若干关键帧 按照一定的逻辑顺序连续播放呈现出的视觉效果,因此从文本到视频的转化可以看作是从文本到图像的进阶版技术。

按照生成方式划分,主要有拼凑式生成和全新创作两种方式:

●拼凑式生成实际上是在视频、音频、图像等既有素材的基础上,根据文字描述和要求,按照一定的模型完成自动剪辑和拼接,这种方式技术门槛较低,所创作视频的质量受模板数量、授权素材库体量的影响较大;

●全新创作方式对算力和AI学习模型算法的要求较高,目前能够生成视频的帧率、分辨率比较局限。

(3)图像/视频到文本

现阶段,从图像到文本的应用主要体现在图片文字识别与文字提取方面,而视频到文本的相关技术则广泛应用于视频字幕生成中,同时,相关研究者也在进行视觉问答系统和更多预训练模型的开发。多模态融合与转换的探索有助于开辟出新的应用场景和商业模式,例如视觉语言学习模型ALIGN(A Large-scale ImaGe and Noisy-text embedding,大规模图像和噪声文本嵌入)和METER(Multimodal End-to-end TransformER,多模态端到端转化模型)。

多模态在感知、交互和内容分发等应用场景中起到了基础性作用:

●在感知方面,例如自动驾驶领域感知器的应用,相关感知应用可以实现温度、湿度、速度等各项指标的多模态转化,用户则可以通过智能终端准确、实时地获取图表、数值等多模态信息;

●多模态交互在家庭、办公室等场景中有广泛应用,例如,用户可以通过语音或移动终端上的应用程序控制居家设备,成熟的交互功能能够大幅提高设备使用体验,同时交互体验也是智能化设备的重要评价指标;

●多模态的内容分发则涵盖多个领域,包括AIGC应用、虚拟人等输出的文字、图像、音频等内容。 z9MaQe8pU1hBb9d1Gw3cOatBV55X1BxjZCDZnCeRMKpJ+p/PHYw47ddjL+2Md0J2

点击中间区域
呼出菜单
上一章
目录
下一章
×