



多智能体强化学习(Multi-Agent Reinforcement Learning,MARL)是一个多样化且极为活跃的研究领域。随着深度学习在2010年代中期被引入多智能体强化学习,该领域的研究工作出现了爆炸式增长。现在,所有主要的人工智能和机器学习会议都会例行讨论相关文章,比如开发新的多智能体强化学习算法或以某种方式应用多智能体强化学习。这种急剧增长还体现在自那以后发表的越来越多的综述论文中,我们在书末列出了许多这样的论文。
随着这种增长,该领域显然需要一本教科书来提供对多智能体强化学习的原则性介绍。本书部分基于并在很大程度上遵循了Stefano V.Albrecht和Peter Stone在2017年澳大利亚墨尔本举行的国际人工智能联合会议(International Joint Conference on Artificial Intelligence,IJCAI)上所做的“Multiagent Learning:Foundations and Recent Trends”报告的结构。本书的写作目的是对多智能体强化学习中的模型、求解、算法思想和技术挑战进行基本介绍,并描述将深度学习技术整合进多智能体强化学习以产生强大新算法的现代方法。从本质上讲,我们认为本书所涵盖的材料应该为每一位从事多智能体强化学习的研究人员所了解。此外,本书还旨在为研究人员和从业人员使用MARL算法提供实用指导。为此,本书附带了用Python编程语言编写的代码库,其中包含本书讨论的几种多智能体强化学习算法的实现。代码库的主要目的是提供自成一体且易于阅读的算法代码,以帮助读者理解。
本书假定读者具有本科水平的基础数学背景,包括统计学、概率论、线性代数和微积分。此外,为了理解和使用代码库,读者需要熟悉基本的编程概念。通常,我们建议按顺序阅读本书的各个章节。对于不熟悉强化学习和深度学习的读者,我们将在第2章、第7章和第8章分别介绍相关基础知识。对于已经熟悉强化学习和深度学习的读者,如果想快速开始学习基于深度学习的最新多智能体强化学习算法,那么可以先阅读第3章,然后跳到第9章及以后的章节。为了帮助教师采用本书,我们制作了讲义幻灯片(可从本书网站获取),内容可根据课程需要进行修改。
多智能体强化学习已成为一个庞大的研究领域,本书并未涵盖其所有方面。例如,关于在多智能体强化学习中使用通信的研究日益增多,但本书并未涉及。这方面的研究问题包括:当通信信道嘈杂、不可靠时,智能体如何学会稳健地进行通信;智能体如何利用多智能体强化学习来学习针对特定任务的专用通信协议或语言。虽然本书的重点不是多智能体强化学习中的通信,但本书介绍的模型具有足够的通用性,也可以表示通信行为(如3.5节所述)。此外,还有关于将演化博弈论用于多智能体学习的研究,在本书中也没有涉及(我们推荐Bloembergen等人于2015年发表的优秀综述)。最后,随着近年来多智能体强化学习研究工作的急剧增加,试图编写一本跟上新算法的书籍是徒劳的。因此,我们将重点放在多智能体强化学习的基础概念和思想上,并参考研究综述论文(书末),以获知更完整的算法发展历程。
致谢: 我们非常感谢在本书撰写过程中许多与我们合作或提供反馈意见的人。在这里,特别感谢MIT出版社的Elizabeth Swayze和Matthew Valades,他们在出版过程中给予了我们悉心的指导。许多同事也为我们提供了宝贵的反馈意见和建议,我们在此一并表示感谢(按姓氏字母顺序排列):Christopher Amato、Marina Aoyama、Ignacio Carlucho、Georgios Chalkiadakis、Sam Dauncey、Alex Davey、Bertrand Decoster、Mhairi Dunion、Kousha Etessami、Aris Filos-Ratsikas、Elliot Fosong、Amy Greenwald、Dongge Han、Josiah Hanna、Leonard Hinckeldey、Sarah Keren、Mykel Kochenderfer、Marc Lanctot、Stefanos Leonardos、Michael Littman、Luke Marris、Elle McFarlane、Trevor McInroe、Mahdi Kazemi Moghaddam、Frans Oliehoek、Georgios Papoudakis、Tabish Rashid、Michael Rovatsos、Rahat Santosh、Raul Steleac、Massimiliano Tamborski、Kaleab Tessera、Callum Tilbury、Jeroen van Riel、Zhu Zheng。我们还要感谢为MIT出版社审阅本书的匿名审稿人。图2.3中的火星探测车的马尔可夫决策过程(Markov Decision Process,MDP)基于Elliot Fosong和Adam Jelley为爱丁堡大学强化学习课程创建的类似的马尔可夫决策过程。图4.4和图4.5b中的图像是Mahdi Kazemi Moghaddam为本书制作的。我们非常感谢Karl Tuyls在2023年智能体及多智能体系统(Autonomous Agents and MultiAgent Systems,AAMAS)国际会议上发表的主旨演讲中宣布了本书的出版。
勘误: 尽管我们尽了最大努力,但仍可能有一些错字或不准确之处未被注意到。如果发现任何错误,请通过电子邮件issues@marl-book.com向我们告知,我们将不胜感激。
本书网站、代码库和幻灯片: 本书的完整PDF版本以及附带资料(包括代码库和讲义幻灯片)的链接可在本书网站上找到:www.marl-book.com。
Stefano V.Albrecht
Filippos Christianos
Lukas Schäfer