多智能体强化学习：基础与现代方法最新章节_斯特凡诺·V.阿尔布莱希特著

第1章
引言

试想这样一种场景：有一群能够自己做出决策的自主智能体，为了实现特定目标必须在共享环境中进行交互。这些智能体可能有共同的目标，比如让一组移动机器人在一个大型仓库中收集和运送货物，或者让一组无人机监控一个发电厂；这些智能体也可能有相互冲突的目标，比如在虚拟市场中进行商品交易的智能体，每个智能体都试图最大化自己的收益。由于我们并不确切知道应该如何让各个智能体进行交互来实现其目标，因此我们的做法是让它们自己去探索。因此，智能体开始在其所处的环境中尝试各种动作并收集经验，包括环境因其动作而导致的变化以及其他智能体是如何行动的。随着时间的推移，智能体开始学习各种概念，例如，解决任务所需的技能，以及更重要的是学习如何与其他智能体协调行动。它们甚至可能学会开发一种共享语言，以便实现智能体之间的交流。到最后，智能体的能力会达到一定水平，并成为以最优方式进行交互来实现目标的专家。

简而言之，这个令人兴奋的愿景正是多智能体强化学习（Multi-Agent Reinforcement Learning，MARL）旨在实现的。多智能体强化学习以强化学习（Reinforcement Learning，RL）为基础，在此过程中，智能体通过尝试动作并接受奖励来学习最优决策策略，其目标是选择动作以最大化随时间累积获得的奖励总和。在单智能体强化学习中，重点是学习单个智能体的最优策略，而在多智能体强化学习中，重点是学习多个智能体的最优策略，并应对这一学习过程中出现的独特挑战。

在本章中，我们将开始概述多智能体强化学习的一些基本概念和挑战。首先，我们将介绍多智能体系统的概念，该系统由环境、环境中的智能体及其目标定义。然后，我们将讨论多智能体强化学习如何在此类系统中运作，以学习智能体的最佳策略，并通过一些潜在的应用示例来加以说明。接下来，我们将讨论多智能体强化学习中的一些关键挑战，例如，非平稳性和均衡选择问题，以及多智能体强化学习的几个“议题”，这些议题描述了多智能体强化学习的不同应用方式。在本章的最后，我们将概述本书两部分所涵盖的主题。

1.1 多智能体系统

一个多智能体系统由环境和多个决策智能体组成，这些智能体在环境中相互作用，以实现特定的目标。图1.1展示了一个多智能体系统的总体示意图，下面我们将对其基本组成部分进行描述。

图1.1 多智能体系统总体示意图。一个多智能体系统由环境和多个决策智能体（如环境中的圆圈所示）组成。智能体可以观测环境信息，并采取动作实现目标

环境

环境是一个物理的或虚拟的世界，其状态随着时间的推移而变化，并受到环境中存在的智能体的动作的影响。环境规定了智能体在任何时间点可以采取的动作，以及各个智能体对环境状态的观测结果。环境的状态空间可以是离散的也可以是连续的，或者是二者的组合。例如，在二维迷宫环境中，状态可以定义为所有智能体的离散整数位置与其连续方向（以弧度表示）的组合。同样，动作空间也可以是离散或连续的，例如，在迷宫中向上/下/左/右移动，或以指定的连续角度转动。多智能体环境通常的特点是，智能体对环境的观测是有限的、不完全的。这意味着单个智能体可能只能观测到环境状态的部分信息，而且不同的智能体可能会接收到不同的环境观测结果。

智能体

智能体是一个接收环境状态信息的实体，可以选择不同的动作来影响环境状态。智能体可能拥有关于环境的不同先验知识，例如，环境可能处于的状态以及状态如何受智能体动作的影响。要注意的是，智能体是目标导向型的，即智能体有明确的目标，并为实现目标而选择动作。这些目标可以是达到某个特定的环境状态，也可以是最大化某些数量（如货币收入）。在MARL中，这些目标是由奖励函数确定的，奖励函数指定了智能体在特定状态下采取特定动作后获得的标量奖励信号。“策略”一词指的是智能体根据当前环境状态选择动作（或为选择每个动作分配概率）的函数。如果环境对于智能体是部分可观的，那么策略可能基于智能体当前和过去的观测结果。

作为上述概念的具体示例，考虑图1.2所示的基于等级的搜寻示例。在这个示例中，机器人的任务是收集分布在网格世界环境中的物品。每个机器人和物品都有一个相关的技能等级，一个或多个机器人组成的小组可以收集物品，前提是这些机器人位于物品旁边，且机器人的等级之和大于或等于物品的等级。在给定时间内，该环境的状态完全由包含机器人和物品位置的变量（用 x 和 y 来表示）以及表示物品是否存在的二进制变量来描述。在本例中，我们使用三个独立的智能体分别控制三个机器人。在任何给定的时间，每个智能体都可以观测到环境的完整状态，并从集合{上、下、左、右、收集、无操作}中选择一个动作来控制自己的机器人。这个动作集合中的前四个动作通过将机器人移动到相应的方向来修改机器人在状态中的位置 x 或 y （若机器人已经处于网格世界的边缘，则这种移动将不改变其位置）。“收集”动作会让机器人尝试去收集附近的物品，如果物品被收集，则该动作会修改物品对应的二进制存在变量。“无操作”动作对状态没有影响。

图1.2 一个基于等级的搜寻任务，其中由三个机器人组成的小组必须收集所有物品（如图中的苹果），每个机器人由一个智能体控制。每个机器人和物品都有一个相关的技能等级显示在右下角，如图所示。一个或多个机器人组成的小组只要位于物品旁边，且机器人的等级总和大于或等于物品的等级，就可以收集物品

请注意，在上述描述中，我们用“机器人”和“智能体”来指代两个不同的概念。在基于等级的搜寻过程中，“机器人”一词是通过位置变量 x 和 y 明确表示的对象的标签。同样，“物品”一词指的是基于等级搜寻的对象，它由位置变量 x 和 y 以及一个二进制存在变量表示。与这些物体标签不同，“智能体”一词指的是一个抽象的决策实体，它观测环境中的某些信息，并为特定的动作变量选择值。在本例中，智能体选择的是机器人的动作。如果智能体和某些对象之间存在直接的一一对应关系，例如，基于等级的搜寻示例中的智能体和机器人，那么可以方便地交替使用这两个术语。例如，在基于等级的搜寻示例中，当提到由智能体 i 控制的机器人的技能等级时，我们可以说“智能体 i 的技能等级”。除非有必要进行区分，否则在本书中，我们一般将“智能体”一词与它所控制的对象等同。

多智能体系统的决定性特征是，各智能体必须协调（或对抗）彼此的动作，以实现各自的目标。在完全合作的情况下，智能体的目标是完全一致的，因此它们需要为实现共同目标而合作。例如，在基于等级的搜寻示例中，当任何一个智能体成功收集到一件物品时，所有智能体都可能获得+1的奖励。在竞争场景中，智能体的目标可能截然相反，因此智能体之间是间接竞争关系。这种竞争场景的一个例子是让两个智能体下棋，赢棋的一方获得的奖励为+1，输棋的一方获得的奖励为-1（或者平局双方奖励都为0）。在这两种极端情况之间，智能体的目标可能在某些方面一致，而在其他方面存在差异。这就可能导致既涉及合作，也涉及不同程度的竞争的复杂多智能体交互问题。例如，在基于等级的搜寻示例的实际实现中（将在11.3.1节中描述），只有那些参与了物品收集的智能体（而不是所有智能体）才能获得正的归一化奖励。因此，智能体有动机最大化自己的回报（奖励总和），这可能会导致它们试图抢在其他智能体之前收集到物品，但它们也可能需要在某些时候与其他智能体协作才能收集到物品。

上述状态、动作、观测和奖励等概念是在博弈模型中正式定义的。博弈模型有多种类型，第3章将介绍多智能体强化学习中最常用的博弈模型，包括标准式博弈、随机博弈和部分可观测随机博弈。博弈模型的解由一组满足特定期望属性的智能体策略组成。正如我们将在第4章中看到的，在一般情况下存在着一系列的解概念。大多数的解都以某种均衡概念为基础，这意味着没有任何一个智能体可以偏离解中的策略来改善其结果。

多智能体系统的研究在人工智能领域有着悠久的历史，并涉及广泛的技术问题（Shoham和Leyton-Brown，2008；Wooldridge，2009）。这些问题包括：如何设计算法使智能体能够选择最优动作，以实现其特定目标；如何设计环境激励智能体的某些长期行为；如何在智能体之间进行沟通和传播；如何在智能体群体中形成规范、惯例和不同的角色。本书关注的是这些问题中的第一个，重点是使用强化学习技术优化和协调智能体的策略，以最大限度地提高它们随时间积累的奖励。

1.2 多智能体强化学习

多智能体强化学习算法为多智能体系统中的一组智能体学习最优策略。与单智能体算法类似，多智能体强化学习的策略也是通过试错来学习的，目的是使智能体的累积奖励或回报最大。图1.3展示了MARL的基本示意图。一组智能体（ n 个）选择各自的动作，这些动作合起来称为联合动作。联合动作会根据环境动态来改变环境状态，智能体会因此获得各自的奖励以及对新的环境状态的观测。图中的这个循环会一直持续，直到满足一个终止条件（如一个智能体赢得一盘棋）或无限进行下去。从初始状态到终止状态的完整循环，在强化学习中称为一个“episode”，即一轮或一个回合。从多个独立的回合中产生的数据，也就是每一回合中的状态、动作和奖励，将用于不断改进智能体的策略。

图1.3 多智能体强化学习示意图。一组智能体（ n 个）接收关于环境状态的观测结果，并选择动作来改变环境状态。然后，每个智能体都会收到一个标量奖励和一个新的观测结果，并重复这个过程

在1.1节介绍的基于等级的搜寻环境中，每个智能体 i ∈{1，2，3}观测完整的环境状态，并选择一个动作 a _i ∈{上，下，左，右，收集，无操作}。给定联合动作（ a ₁ ， a ₂ ， a ₃ ）后，根据联合动作中选择的动作，通过修改机器人的位置变量和物品的二进制存在变量，环境状态会过渡到一个新的状态。然后，每个智能体都会收到一个奖励，例如，如果有物品被收集到，则奖励为+1，否则为0，并观测环境的新状态。一旦所有物品都被收集完毕，或达到允许的最大时间步，基于等级的搜寻任务的一个回合就结束了。最初，每个智能体都以随机策略开始，随机选择动作。随着智能体在不同的状态下不断尝试不同的动作，并观测由此产生的奖励和新状态，它们将改变策略，在每个状态下选择能使所获奖励总和最大的动作。

图1.3所示的多智能体强化学习循环类似于单智能体强化学习循环（将在第2章中介绍），并将其扩展到多智能体。与后者相比，多智能体强化学习有几个重要的用途。其中一个是将一个庞大、难以解决的决策问题分解成更小、更容易解决的决策问题。为了说明这个想法，请回顾图1.2中所示的基于等级的搜寻示例。如果我们将其视为一个单智能体强化学习问题，那么我们就必须训练一个单一的中心智能体，由其为三个机器人中的每一个来选择动作。因此，中心智能体的动作由元组（ a ₁ ， a ₂ ， a ₃ ）确定，其中 a _i 指定机器人 i 的动作。这就导致了一个决策问题，即中心智能体在每个时间步中都有6 ³ =216种可能的动作。即使在这样一个简单的示例中，大多数标准式的单智能体强化学习算法也不容易扩展到这么大的动作空间。但是，我们可以通过引入三个独立的智能体（每个机器人一个）来分解这个决策问题，这样每个智能体在每个时间步中只面临6个可能的动作选择。当然，这种分解也引入了一个新的挑战，即智能体需要协调它们的动作才能取得成功。多智能体强化学习算法可采用多种方法来促进协调的智能体策略的学习。

即使我们能够利用单智能体强化学习成功解决上述例子，训练出一个中心智能体，这种方法仍然依赖于一个隐含假设：环境允许集中控制。然而，在多智能体系统的许多应用中，可能无法从一个中心位置控制和协调多个智能体的动作。例如，城市环境中的自动驾驶，每辆汽车都需要有自己的本地驾驶策略；或者在搜救任务中使用的移动机器人团队，可能无法与中心协调者进行通信，因此每个智能体（机器人）可能需要完全独立行动。在这类应用中，智能体可能需要学习分散式策略，即每个智能体根据自己的观测结果在本地执行自己的策略。对于这类应用，就需要多智能体强化学习算法学习分散式执行的智能体策略。

如表1.1所示，多智能体强化学习算法可以根据多个维度进行分类：对智能体奖励的假设（比如完全合作、竞争或混合）、算法旨在实现哪种类型的解（比如纳什均衡），以及智能体可以观测到的环境等。算法也可以根据智能体学习策略时（“训练”）和学习后（“执行”）的假设进行分类。在集中式训练和执行中，假设这两个阶段都能访问某些集中共享的机制或信息，比如在智能体之间共享所有的观测数据：一个中心智能体可以接收来自其他所有智能体的信息，并向各智能体下达动作指令。这种集中式有助于改善智能体之间的协调，并减轻诸如非平稳性（在1.4节中讨论）等问题。相比之下，分散式训练和执行则不假设有这种集中共享的信息，而是要求在学习某个智能体的策略以及策略本身时，只使用该智能体的本地信息。第三个主要类别是集中式训练分散式执行的结合，旨在综合上述两种方法的优势，假设在训练期间（比如在模拟中）集中式是可行的，同时产生可以完全分散式执行的策略。这些观点将在第9章中进一步讨论。

表1.1 多智能体强化学习的维度以及相应章节

1.3 应用示例

我们提供了几个示例来说明图1.3所示的多智能体强化学习训练循环及其不同的组成要素，如智能体、观测、动作和奖励。每个示例都基于现实世界中的潜在应用，我们还提供了使用MARL开发此类应用的相关工作。

1.3.1 多机器人仓库管理

想象一个由许多货架组成的大型仓库，货架上摆放着各式各样的物品，这些货架构成了一个个通道。订单会不断流入，指定要从货架上取走的特定物品和数量并送到工作站进行进一步处理。假设我们有100个移动机器人，它们可以沿着通道移动，从货架上拾取物品。我们可以使用多智能体强化学习来训练这些机器人以最佳方式协作，从而尽可能快速、高效地完成订单。在这个应用中，每个机器人都可以由一个独立的智能体控制，因此我们将有100个智能体。每个智能体都可以观测到自己在仓库中的位置和当前的朝向、所携带的物品以及正在处理的订单等信息。它还可以观测其他智能体的信息，如它们的位置、物品和订单。智能体的动作可能包括物理移动，例如，朝某个方向转动和加速/刹车，以及拾取物品。动作也可能包括向其他机器人发送通信消息，例如，可能包含通信智能体的物理移动信息。最后，每个智能体在完成订单（按照订单拾取特定数量的物品）时都可能会获得单独的正向奖励。或者，当任何一个智能体完成订单时，所有智能体都会获得集体奖励。后一种情况称为共享奖励（或共同奖励），是MARL的一个重要特例，将在第3章中进一步讨论。Krnjaic等人（2024）将多智能体强化学习算法用于多机器人仓库应用。11.3.4节描述了一个简单的多机器人仓库模拟器。

1.3.2 棋盘游戏和电子游戏中的竞争性对战

多智能体强化学习可以用来训练智能体，以实现在棋盘游戏和纸牌游戏（如西洋双陆棋、国际象棋、围棋、扑克牌）以及多人电子游戏（如射击游戏、赛车游戏等）中的强竞争性对战。每个智能体在游戏中扮演其中一名玩家的角色。智能体可以采取行动，将单个棋子或单元移动到指定位置、放置指定牌、射击目标单元等。智能体可能观测整个游戏状态（例如，整个游戏棋盘和所有棋子），也可能只观测部分状态（例如，只观测自己的牌而不观测其他玩家的牌，或者只观测游戏地图的一部分）。根据游戏规则和机制的不同，智能体可能会也可能不会观测到其他智能体选择的动作。在包含两个智能体的完全竞争的游戏中，一个智能体的奖励是另一个智能体奖励的负值。如果一个智能体赢得游戏后获得+1的奖励，那么另一个输掉游戏的智能体将获得-1的奖励，反之亦然。这一特性被称为零和奖励，是多智能体强化学习中的另一个重要特例。通过这种设置，在MARL训练过程中，智能体将学会利用对方的弱点改进自己的策略，以消除自身的弱点，从而实现强竞争性对战。许多不同类型的棋盘游戏、纸牌游戏和电子游戏都已经使用MARL方法进行了处理（Tesauro 1994；Silver等人，2018；Vinyals等人，2019；Bard等人，2020；Meta Fundamental AI Research Diplomacy Team等人，2022；Pérolat等人，2022）。

1.3.3 自动驾驶

城市环境和高速公路中的自动驾驶涉及与其他车辆的频繁交互。利用多智能体强化学习，我们可以训练多车辆的控制策略，以便在复杂的交互场景中导航，例如，驶过繁忙的路口和环岛，以及汇入高速公路。智能体的动作可能是车辆的连续控制，如转向和加速/制动；也可能是离散动作，如决定执行不同的机动动作（如变道、转弯、超车）。智能体可能会接收到自己控制的车辆的观测信息（如车道位置、方向、速度）以及附近其他车辆的观测信息。由于传感器噪声，对其他车辆的观测可能是不确定的，并且由于遮挡造成的部分可观测性（例如，其他车辆阻挡智能体的视线），观测可能不完整。每个智能体的奖励可能涉及多个因素。从根本上说，智能体必须避免碰撞，因为任何碰撞都会导致很大的负奖励。此外，我们希望智能体产生高效和自然的驾驶行为，比如尽量缩短驾驶时间可能会获得正奖励，而突然加速或刹车以及频繁变道则会获得负奖励。与多机器人仓库（智能体具有相同的目标）和博弈（智能体具有相反的目标）不同的是，自动驾驶是一个混合动机场景，即智能体为避免碰撞而协作，但同时也出于自身利益的考虑，希望尽量缩短驾驶时间并平稳驾驶。这种情况被称为一般和奖励（非零和奖励），是多智能体强化学习中最具挑战性的任务之一。MARL算法已被应用于一系列自动驾驶任务（如Shalev-Shwartz、Shammah和Shashua，2016；Peake等人，2020；Zhou、Luo等人，2020；Dinneweth等人，2022；Zhou等人，2022）。

1.3.4 电子市场中的自动化交易

可以开发软件智能体来扮演电子市场中交易者的角色（Wellman、Greenwald和Stone，2007）。智能体在市场中的典型目标是通过下达买卖指令来最大化自己的回报。因此，智能体的动作包括根据指定时间、价格和数量买入或卖出商品。智能体接收有关市场价格变动和其他关键绩效指标的观测结果，可能还会收到订单当前状态的相关信息。此外，智能体可能需要根据观测到的不同类型信息来模拟和监控外部事件与过程，例如，与特定公司相关的新闻，或在点对点能源市场中自有管理家庭的能源需求和使用情况。智能体的奖励可以定义为在一段时期内（例如在每个交易日、每个季度或每年结束时）所获收益和损失的函数。因此，电子市场交易是混合动机场景的另一个示例，因为多智能体需要在某种程度上进行合作，让卖出和买入价格达成一致，同时力求最大化各自的收益。目前已经为不同类型的电子市场提出了多智能体强化学习算法，包括金融市场和能源市场（Roesch等人，2020；Qiu等人，2021；Shavandi和Khedmati，2022）。

1.4 多智能体强化学习的挑战

多智能体强化学习中存在各种挑战，这些挑战主要来自以下方面：智能体可能有相互冲突的目标；智能体可能对环境有不同的观测能力；智能体同时学习以优化其策略等。下面我们将概述一些主要挑战，第5章将对这些挑战进行更详细的讨论。

多智能体学习过程中的非平稳性

多智能体强化学习的一个重要特点是非平稳性，这是由智能体在学习过程中不断变化的策略造成的。这种非平稳性可能会导致目标移动问题，因为每个智能体都会适应其他智能体的策略，而这些策略也会反过来适应其他智能体的变化，从而可能导致循环和不稳定的学习动态。由于智能体的奖励和局部观测结果不同，它们可能会以不同的速度学习不同的行为，从而进一步加剧这一问题。因此，以稳健的方式处理这种非平稳性的能力往往是多智能体强化学习算法的一个关键方面，也一直是许多研究的主题。

最优策略和均衡选择

多智能体系统中的策略何时最优？在单智能体模型中，如果一个策略在每个状态下都能实现最大期望回报，那么这个策略就是最优的。然而，在多智能体强化学习中，一个智能体的策略回报还取决于其他智能体的策略，因此我们需要更复杂的最优性概念。第4章将介绍一系列解概念，例如均衡解，其中每个智能体的策略在某种特定意义上都是相对于其他智能体策略的最优策略。此外，在单智能体情况下，所有最优策略都会为智能体带来相同的期望回报，但在多智能体系统中（智能体可能会获得不同的奖励），可能会有多个均衡解，而且每个均衡解可能会为不同的智能体带来不同的回报。因此，存在一个额外的挑战，即智能体必须在学习过程中就收敛到哪个均衡点进行本质上的协商（Harsanyi和Selten，1988）。MARL研究的一个核心目标是开发能够使智能体的策略稳健地收敛到特定解的学习算法。

多智能体信用分配

强化学习中的时间信用分配问题旨在确定过去的哪些动作促成了获得的奖励。在多智能体强化学习中，这个问题因为另外一个问题而变得更加复杂，那就是确定是哪一个智能体的动作促成了奖励。为了说明这一点，考虑图1.2所示的基于等级的搜寻示例，假设所有智能体都选择了“收集”动作，之后它们获得+1的集体奖励。仅凭借这些状态、动作和奖励信息，要梳理出每个智能体对所获奖励的贡献是非常困难的，尤其是左边的智能体对奖励没有贡献，因为它的动作没有效果（该智能体的等级不够大）。虽然基于反事实推理的想法，在原则上可以解决这个问题，但如何以高效和可扩展的方式解决多智能体信用分配问题仍然是一个开放性问题。

智能体数量的扩展

在多智能体系统中，智能体之间可能的动作组合总数会随着智能体数量的增加而呈指数增长，特别是每个新增的智能体都有自己的附加动作变量的情况。例如，在基于等级的搜寻任务中，每个智能体控制一个机器人，那么再增加一个智能体时就会带来其本身的相关动作变量（没有指数增长的反例见5.4.4节）。在多智能体强化学习的早期，通常只使用两个智能体来避免扩展问题。即使是今天基于深度学习的多智能体强化学习算法，通常使用的智能体数量也在2～10之间。如何以高效、稳健的方式处理更多的智能体是MARL研究的一个重要目标。

1.5 多智能体强化学习的议题

Shoham、Powers和Grenager（2007）撰写了一篇题为“If multi-agent learning is the answer，what is the question？”的重要文章，描述了多智能体强化学习研究中的几个不同议题 ^[1] 。这些议题在使用多智能体强化学习的动机和目标以及衡量进展和成功的标准方面各不相同。Shoham等人在文章中提出了一个重要观点，即在使用多智能体强化学习时，必须明确意图和目标。我们将主要议题描述如下：

计算性

计算性议题使用多智能体强化学习作为计算博弈模型的求解方法，由满足特定属性（如将在第4章讨论的纳什均衡和其他解概念）的智能体决策策略集合组成。计算出解后，可以将其部署到博弈应用中以控制智能体（见1.3节中的一些示例），也可以将其用于对博弈进行进一步分析。因此，在该议题中，多智能体强化学习算法与其他直接计算博弈解的方法展开了竞争（Nisan等人，2007；Roughgarden，2016）。对于某些类型的博弈，此类直接方法可能比多智能体强化学习算法更高效（例如，4.3节和4.6节中讨论的线性规划方法），但它们通常需要博弈的全部知识，包括所有智能体的奖励函数。相比之下，多智能体强化学习算法通常旨在不完全了解博弈的情况下学习解。

规范性

规范性议题特别关注智能体在学习过程中的行为和表现，并探讨它们应如何学习以达到一组给定的标准。在这方面不同的标准已被提出：一种可能的标准是，无论其他智能体是如何学习的，学习型智能体在学习过程中获得的平均奖励不应低于某个临界值；另一种可能的标准是，如果其他智能体来自某一类智能体（如静态、非学习型智能体），则学习型智能体应学习最优动作，否则不应低于某个性能阈值（Powers和Shoham，2004）。这类标准主要关注智能体在学习过程中的行为，对集体学习过程是否会收敛到特定均衡点持开放态度。因此，收敛到特定的解（如均衡）并不一定是本议题的目标。

描述性

描述性议题使用多智能体强化学习来研究智能体（包括人类和动物等自然智能体）在群体中学习时的行为。这一议题通常首先提出一个特定的多智能体强化学习算法，该算法使用理想化的描述来说明所研究的智能体如何根据过去的交互来调整其动作。社会科学和行为经济学的方法可用于测试多智能体强化学习算法与智能体行为的匹配程度，例如，通过实验室环境中的受控实验（Mullainathan和Thaler，2000；Camerer，2011；Drouvelis，2021）。然后进行分析，例如，通过基于演化博弈论的方法（Bloembergen等人，2015），如果所有智能体都使用所提出的MARL算法，那么这样的智能体群体是否会收敛到某种均衡解。

在本书中，我们的观点是将多智能体强化学习视为优化智能体决策策略的一种方法。因此，本书主要涉及计算性议题和规范性议题中的观点和算法。尤其是，计算性议题与我们的观点最为接近，这一点在本书的结构中得到了体现，即首先介绍博弈模型和解概念，然后介绍旨在学习此类解的算法。在描述性议题中，使用多智能体强化学习来研究自然智能体和其他智能体的学习行为，则不属于本书的讨论范围。

1.6 本书内容和结构

本书介绍了多智能体强化学习的理论与实践，适合大学生、研究人员和从业人员阅读。继本章之后，本书的其余部分分为两部分。

第一部分将提供有关多智能体强化学习中使用的基本模型和概念的基础知识。具体而言，第2章将介绍单智能体强化学习的理论和表格算法。第3章将介绍基本的博弈模型，以定义多智能体环境中的状态、动作、观测和奖励等概念。然后，第4章将介绍一系列解概念，这些概念定义了求解这些博弈模型的含义，即智能体采取最优动作的含义。第一部分的最后两章将探讨计算博弈解的多智能体强化学习方法：第5章将介绍中心学习和独立学习等基本概念，并讨论多智能体强化学习的核心挑战；第6章将介绍在多智能体强化学习研究中开发的不同类别的基础算法，并讨论它们的学习特性。

第二部分的重点是多智能体强化学习的当代研究，这些研究利用深度学习技术创建了新的强大的多智能体强化学习算法。首先，我们将在第7章和第8章分别介绍深度学习和深度强化学习。在这两章的基础上，第9章将介绍近年来开发的几种重要的多智能体强化学习算法，包括集中式训练分布式执行、价值分解、参数共享和基于种群的训练等思想。第10章将为实现和使用多智能体强化学习算法以及如何评估学习到的策略提供实用指导。最后，第11章将介绍在MARL研究中开发的多智能体强化学习环境示例。

本书的一个目标是为希望将本书中讨论的多智能体强化学习算法应用于实践并开发自己的算法的读者提供一个起点。因此，本书附带了自己的MARL代码库（可从本书网站下载），该代码库是用Python编程语言开发的，提供了许多现有算法的实现，这些实现自成一体，易于阅读。在第10章中，我们使用代码库中的代码片段来解释前几章中介绍的算法所依据的重要概念的实现细节。我们希望所提供的代码将有助于读者理解多智能体强化学习算法，并在实践中开始使用这些算法。

[1] Shoham、Powers和Grenager（2007）的文章是“Foundations of Multi-Agent Learning”特刊的一部分，该特刊发表在 Artificial Intelligence 杂志上（Vohra和Wellman，2007）。这期特刊包含了许多来自MARL研究早期贡献者的有趣文章，包括对Shoham等人文章的回应。

第1章 引言