



本书第一部分将涵盖多智能体强化学习的基础。这一部分的各章主要讨论基本问题,包括如何通过博弈模型表示多智能体系统的机制、如何在博弈中定义学习目标以指定最优的智能体动作、如何使用强化学习方法学习最优的智能体动作,以及多智能体学习所涉及的复杂性和挑战。
第2章将介绍强化学习的基本模型和算法概念,包括马尔可夫决策过程、动态规划和时序差分算法。第3章将介绍用于表示多智能体系统交互过程的博弈模型,包括基本的标准式博弈(normal-form game)、随机博弈和部分可观测随机博弈。第4章将介绍一系列博弈论中的解概念,用于定义博弈中的最优智能体策略,包括极小极大、纳什均衡和相关均衡等均衡解,以及帕雷托最优、福利/公平和无悔等其他概念。我们为每个解概念提供示例,并讨论重要的概念局限性。博弈模型和解概念共同定义了多智能体强化学习中的学习问题。
在前几章的基础上,第5章和第6章将探讨如何使用强化学习技术来学习博弈中的最优智能体策略。第5章将首先定义博弈中的一般学习过程和不同的收敛类型,并介绍把多智能体学习问题简化为单智能体学习问题的中心学习和独立学习的基本概念;然后讨论多智能体强化学习中的核心挑战,包括非平稳性、均衡选择、多智能体信用分配以及扩展到更多智能体。第6章将介绍多智能体强化学习的几类基础算法,这些算法超越了第5章介绍的基本方法,并讨论它们的收敛特性。