大模型应用开发动手做AI Agent最新章节_黄佳著

1.4　Agent的感知力：语言交互能力和多模态能力

在构建Agent时，感知力是一个关键的特征，它使得Agent能够与周围世界进行交互和理解。这个感知力主要通过两种能力体现——语言交互能力和多模态能力。这两种能力不仅增强了Agent的交互能力，而且提高了Agent理解和处理复杂环境信息的能力。

1.4.1　语言交互能力

语言交互是Agent与人类或其他Agent沟通的基础。通过语言交互，Agent能够理解指令、提出问题、表达观点和情感、进行复杂的对话。语言不仅仅是字词和句子的组合，它还包含丰富的语境信息、隐含意义以及社会文化的维度。大模型如GPT-4帮助Agent在语言交互方面达到前所未有的高度，使Agent能够理解语言的细微差别，适应不同的语言风格和方言，甚至能够理解和使用幽默、讽刺等复杂的语言表达形式。

Agent的语言交互能力也表现为其自然语言的生成能力。Agent不仅能回答问题，还能创造性地生成语言，以适应新的话题和情境。这种生成能力不仅限于文本，还能扩展到生成语音和非语言交流的其他形式，如手势和表情。这一点在与人类的交互中尤为重要，因为它使得Agent能更自然地融入人类的交流环境。

1.4.2　多模态能力

多模态能力则是指Agent能够处理和解释来自不同感官的信息，如视觉、听觉、触觉等（当然同时也能够以多种格式输出信息，如文本、图片、音频，甚至视频），如图1.16所示。例如，一个集成多模态模型的Agent可以通过观察一张图片，理解图片中的情感和社会动态，或者通过听到的声音理解语气和情绪。

图1.16　多模态能力

另外，多模态能力的一个重要方面是整合能力。Agent能够将来自不同感官的信息整合成一个统一的理解，这对于执行复杂任务至关重要。例如，自动驾驶Agent需要整合视觉数据（如道路标识和交通灯状态）、听觉数据（如特种车辆的警报声）和触觉数据（如车辆的速度和方向控制），以快速做出决策。

Agent的多模态能力还允许它们进行环境理解和场景构建。通过分析和合成来自各个感官的信息，Agent可以构建对环境的全面认知，从而应用于救灾、医疗诊断和客户服务等领域。

1.4.3　结合语言交互能力和多模态能力

当组合语言交互能力和多模态能力时，Agent的感知力和适应力将得到极大增强。例如，一个可以理解口头指令并通过视觉识别表情的智能家居助理能更精确地理解用户的需求。在教育应用中，一个结合语言理解和视觉识别的Agent能够提供个性化的互动学习体验。

1.4 Agent的感知力：语言交互能力和多模态能力

1.4.1 语言交互能力

1.4.2 多模态能力

1.4.3 结合语言交互能力和多模态能力

1.4　Agent的感知力：语言交互能力和多模态能力

1.4.1　语言交互能力

1.4.2　多模态能力

1.4.3　结合语言交互能力和多模态能力