人工智能Sora：机遇·问题·未来最新章节_陈根著

1.3　多模态的跨越式突破

多模态AI正处于爆发前夜。从GPT-4的“惊艳亮相”，到AI视频生成工具Pika1.0的“火爆出圈”，再到谷歌Gemini的“全面领先”，多模态AI都是其中的关键词。

如今Sora的发布，更是把多模态带向了一个新的发展阶段。凭借强悍的处理多种类型信息的能力，Sora不仅代表着多模态的跨越式突破，还将进一步拓展人工智能的应用领域，推动人工智能向通用化方向发展。

1.3.1　多模态是AI的未来

多模态并非新概念，早在2018年，“多模态”就已经作为人工智能未来的一个发展方向，成为人工智能领域研究的重点。

多模态，顾名思义，多种模态。具体来看，“模态”（modality）是德国物理学家赫尔姆霍茨（Helmholtz）提出的一种生物学概念，即生物凭借感知器官与经验来接收信息的通道，人类有视觉、听觉、触觉、味觉和嗅觉等模态。

从人工智能和计算机视觉的角度来说，模态就是感官数据，包括最常见的图像、文本、视频、音频数据，也包括无线电信息、光电传感器、压触传感器等数据。对于人类来说，多模态是指将多种感官进行融合，对于人工智能来说，多模态则是指多种数据类型再加上多种智能处理算法。

举个例子，传统的深度学习算法专注于从一个单一的数据源训练其模型。比如，计算机视觉模型是在一组图像上训练的，自然语言处理模型是在文本内容上训练的，语音处理则涉及声学模型的创建、唤醒词检测和噪音消除。这种类型的机器学习就是单模态人工智能，其结果都被映射到一个单一的数据类型来源。而多模态人工智能是计算机视觉和交互式人工智能智能模型的最终融合，为计算器提供更接近于人类感知的场景。

究其原因，不同模态都有各自擅长的事情，而这些数据之间的有效融合，不仅可以实现比单个模态更好的效果，还可以做到单个模态无法完成的事情。相较于单模态、单任务的人工智能技术，多模态人工智能技术就可以实现模型与模型、模型与人类、模型与环境等多种交互。

目前我们最熟悉的多模态AI还是文生图或者文生视频，但这已经展现了AI在整合和理解不同感知模态数据方面的强大潜力。比如，在医疗领域可以通过结合图像、录音和病历文本，提供更准确的诊断和治疗方案；在教育领域，将文本、声音、视频相结合，呈现更具互动性的教育内容。

展望未来，随着技术的不断发展和突破，AI有望在多模态能力上进一步提升，从而实现更加精准、全面的环境还原，特别是在机器人领域和自动驾驶领域。

在机器人领域，通过强大的多模态AI系统，机器人仅凭视觉系统就对现场环境进行快速准确的还原。这种“还原”不仅包括精准的3D重建，还可能涵盖光场重建、材质重建、运动参数重建等方面内容。通过结合视觉数据和其他感知模态数据（如声音、触觉等），机器人可以更全面地理解周围环境，从而实现更加智能、灵活的行为和交互。

在自动驾驶领域，通过结合多模态感知数据，包括视觉、雷达、激光雷达等，自动驾驶汽车可以实时感知道路、车辆和行人等各种交通参与者，准确判断交通情况并做出相应的驾驶决策。这将大大提高自动驾驶汽车的安全性和适应性，使其成为下一代智能交通的重要组成部分。

另外，AI的多模态能力还将在娱乐和创意领域展现出巨大的潜力。比如，AI可以通过观察一只小狗的生活影像，为一个3D建模的玩具狗赋予动作、表情、体态、情感、性格甚至虚拟生命。这种技术可以为游戏开发、虚拟现实等领域带来更加生动真实的虚拟角色和场景。

同时，AI还可以解释和转换动画片导演用文字描述的拍摄思路，实现场景设计、分镜设计、建模设计、动画设计等一系列专业任务。这将极大地提高动画制作的效率和创意性，为动画产业带来新的发展机遇。

不仅如此，多模态能力对于实现真正的通用人工智能（AGI）也至关重要。显然，真正的AGI需要同时从所有模态信息中学习知识、经验、逻辑、方法，必须能像人类一样即时、高效、准确、符合逻辑地处理世界上所有模态的信息，完成各类跨模态或多模态任务。这意味着，未来真正的AGI必然是与人类相仿的，能够通过同时利用视觉、听觉、触觉等多种感知模态来理解世界，并且能够将这些不同模态的信息进行有效整合和综合。

1.3.2　多模态的爆发前夜

可以看到，相比单模态，多模态AI能够同时处理文本、图片、音频以及视频等多类信息，与现实世界融合度高，更符合人类接收、处理和表达信息的方式，与人类交互方式更加灵活，表现得更加智能，能够执行更大范围的任务，有望成为人类智能助手，推动AI迈向AGI。

在这样的背景下，科技巨头也看到了多模态AI的价值，纷纷加强对多模态AI的投入。

谷歌推出了原生多模态大模型Gemini，可泛化并无缝地理解、操作和组合不同类别的信息；此外，2024年2月推出Gemini 1.5 Pro，使用MoE架构首破100万极限上下文纪录，可单次处理包括1小时的视频、11小时的音频、超过3万行代码或超过70万个单词的代码库。Meta坚持大模型开源，建设开源生态巩固优势，已陆续开源ImageBind、AnyMAL等多模态大模型。

作为多模态领域独领风骚的巨头，2024开年以来，OpenAI就密集剧透GPT-5，相比GPT-4实现全面升级，重点突破语音输入和输出、图像输出以及最终的视频输入方向，或将实现真正多模态。

此外，2024年2月，OpenAI发布文生视频大模型Sora更代表着多模态AI的跨越式发展，Sora能够根据文本指令或静态图像生成1分钟的视频，其中包含精细复杂的场景、生动的角色表情以及复杂的镜头运动，同时也接受现有视频扩展或填补缺失的帧，能够很好地模拟和理解现实世界。Sora的问世将进一步推动多模态智能处理技术的发展，为视频内容的生成、编辑和理解等应用领域带来更多创新和可能性。

从语音识别、图像生成、自然语言理解、视频分析，到机器翻译、知识图谱等，多模态AI都能够提供更丰富、更智能、更人性化的服务和体验。与单纯通过自然语言进行交互或输入输出相比，多模态应用显然具备更强的可感知、可交互、可“通感”等天然属性。特别是基于大模型的多模态AI，在强大泛化能力基础上，大模型可以在不同模态和场景之间实现知识的迁移和共享，将大模型的应用扩展到不同的领域和场景。

如果说2023年的ChatGPT等大语言模型开启了应用创新的新时代，那么2024年，包括Sora在内的生机勃勃的多模态AI则会把这一轮应用创新推到又一个高潮。新一轮的变革已经开启，人类正在朝着通用人工智能时代坚定地前进。

1.3 多模态的跨越式突破

1.3.1 多模态是AI的未来

1.3.2 多模态的爆发前夜

1.3　多模态的跨越式突破

1.3.1　多模态是AI的未来

1.3.2　多模态的爆发前夜