购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

CHAPTER 1
第1章

绪论

1.1 群体智能与智能网联概述

群体智能是科学家长期关注和研究的一种自然现象,通过有效集聚没有智能或智能水平非常有限的单个智能体,展现出远超个体能力的智能行为。例如,在很多低等社会性生物群体中可以观察到群体智能现象,包括鱼、鸟、蚂蚁、蜜蜂等群体;“三个臭皮匠,顶个诸葛亮”,人类社会的不断发展和演化也可以被认为是一种群体智能现象,绝大多数文明成果都是人类个体在长期群体化、社会化的生产和生活中逐渐演化形成的产物。因此,群体智能(Collective Intelligence),或者说多智能体系统(Multi-Agent System,MAS),是由多个智能体以特定的方式相互耦合在一起构成的系统。其中,厘清智能体概念、明确系统性度量方法,是在计算机工程领域使用群体智能的重要前提。

智能体的概念是由美国麻省理工学院的Marvin Minsky教授最早提出的 [1] 。当前,智能体拥有多种不同的定义。作为一个致力于智能体软件技术标准化的国际组织,FIPA(The Foundation for Intelligent Physical Agents)定义智能体为驻留在环境中的实体,可以解释从环境中获得的、能够反映发生在环境中的事件数据,并可以执行对环境造成影响的行动。著名的群体智能系统研究学者、牛津大学计算机科学系主任Michael Wooldridge对智能体提出了强、弱两种定义:在弱定义中,智能体是指具有独立性、自主性、社会性和反应性等基本特性的实体;在强定义中,智能体不仅包含了弱定义中智能体的基本特性,还具有与移动、通信、决策甚至推理等能力相关的智能特性。著名的人工智能学者、斯坦福大学的Hayes-Roth教授定义了智能体的三种基本功能:感知动态环境信息、通过推理来解释感知到的信息并产生推理结果,以及执行动作来影响环境条件。因此,智能体的特性可以大致概括为:

❑ 独立性(Independent):智能体应当具有独立存在的价值和功能,当给予足够的外部条件时,智能体可以独立地行使功能;

❑ 自主性(Autonomous):智能体拥有对自身行为和逻辑推理的自主控制能力;

❑ 反应性(Reactive):智能体可以根据周围环境的变化自动地调整自身的状态;

❑ 社会性(Social):智能体可以和其他个体进行协作,进而表现出社会行为;

❑ 进化性(Evolutive):智能体具有累积经验和学习知识的能力,可以不断提升自身的行动或者决策水平。

图1-1提供了一种智能体的基本结构图,该图包含了智能体行使功能的主要单元以及运行逻辑。具体地,感知单元的功能是获取智能体需要的外部环境信息,一般情况下,由于获取手段或者获取代价的限制,单个智能体只能获取到环境的部分信息。智能体的感知信息会经过数据处理过程被进一步加工,目的是提取出和目标任务相关的特征信息,该特征信息可以作为智能体进行状态调整或者动作执行的决策依据。针对特定的目标任务,智能体会维护一个事先指定的预测模型,该模型的输出结果可以辅助最终决策结果的生成。智能体的通信单元主要负责完成当前个体和系统内其他个体之间的信息交换过程,该过程是多个智能体实现目标任务协同的重要基础。最后,智能体的行动单元负责将最终的决策结果转换成实际的执行动作。综上所述,智能体的主要行为逻辑可以概括为“感知 决策 行动”。其中,在决策阶段,由于单个智能体往往只能获取到外部环境的部分信息,因此有必要通过在多个智能体之间添加合适的协作过程来提升决策水平。另一方面,单个智能体受限于体积、功耗等,有时无法单独满足GPT-3等大规模新兴神经网络模型 [2] 对算力广泛迫切的需求。再者,由于感知、预测、决策等不同学习任务之间的耦合现象日益凸显,通过网联智能体形成分布式的群体智能系统,让不同类型的智能体各司其职,从而提升系统整体智能水平,成为一个迫切的需求。

图1-1 智能体的基本结构图

美国经济管理学家Herbert Simon的有限理性决策理论(Bounded Rationality Decision Theory)为群体智能系统的有效性奠定了重要的理论基础。该理论认为,一个系统把多个智能体组织起来可以弥补单个智能体在任务能力上的有限性;每个智能体都专门负责一项任务,可以弥补单个智能体在学习新任务能力上的局限性;系统间有组织的信息流通可以弥补单个智能体的知识的有限性;明确的系统组织和任务分工可以弥补单个智能体在处理信息和应用信息能力上的有限性。因此,群体智能具有“分布智能、持续增强、实时交互”的特点 [3] 。需要说明的是,与分布式问题求解(Distributed Problem Solving, DPS)过程不同,群体智能系统的设计是一个自底向上的过程,需要首先构建智能体模型,然后在智能体模型基础上针对任务目标建立合适的群体沟通机制。

作为群体智能的经典领域,遗传算法(Genetic Algorithm, GA) [4] 、蚁群优化(Ant Colony Optimization, ACO)算法 [5-6] 、粒子群优化(Particle Swarm Optimization,PSO)算法 [7] 以及共识主动性(Stigmergy)算法 [8] 等群体协作算法从自然界动物群体的群体行为出发,通过计算机模拟的方式来实现类似的群体协作过程,进而发现和提炼出有价值的群体协作机制。虽然蚁群优化算法 [5-6] 等通过模拟生物群体行为可以实现集中式优化,但群体智能具有更强的概念内涵,更加强调“多个智能体的互相认同与能力增强” [3] 。事实上,群体智能的理念已经在维基百科和reCaptcha项目中得到了广泛的体现。例如,得益于互联网技术的出现和不断发展,人类群体的跨时空大规模协同成为可能,使得网络空间中的人群不再受到地域和时间的限制,在网络空间中进行更加方便灵活的显式或隐式交互。正因如此,维基百科搭建了互联网用户共享、获取知识的平台,赋予了用户协作共建世界上最大知识社区的能力,大大超越了以往单一人群的知识边界。因此,群体智能的水平既受制于单一智能体的能力水平,又受内部的组织规则和信息交互能力的影响。而后者是群体智能系统的重要组成部分,对系统的有效性和稳定性的影响更加深远。伴随着新一代无线通信技术(5G)以及物联网技术的快速发展 [9] ,越来越多的现实场景倾向于使用群体智能理念来构建系统模型,这些场景包括大规模无人机群的控制 [10] 、工业自动化控制 [11] 、移动群体感知和计算 [12] 、车联网控制以及分布式计算网络资源管理等。在这些场景当中,基于中心控制器的传统解决方案缺乏足够的实时性、鲁棒性和灵活性;而得益于通信网络的快速发展,可以尝试通过设计和利用分布式群体智能系统来提升这些场景中管理和控制方法的有效性。另外,群体智能中知识共享与协作的能力,也可以助力机器间的通信,更好地支撑万物智联的发展 [13]

群体智能的产生也被认为是智能体的相互作用自然涌现在群体层面的结果,这一现象也被称作智能涌现(Intelligence Emergence),已经得到广泛的分析和论证。目前最著名的用于分析智能涌现的研究模型是Boid模型 [14] 和Vicsek模型 [15] ,通过分析和利用这些模型,人们可以观察到群体智能系统的智能涌现现象。智能涌现过程是一个从局部到整体的过程,涌现的最终结果无法直接通过观察单个智能体的行为来预先得到,具有不可预测性。群体智能的研究内容之一就是关注如何构建多个智能体之间的协作机制,目的是引发期望的智能涌现现象,其构建方法通常受到算法模型的启发。除此之外,单个智能体的行为策略往往是事先指定的,这种设置有利于对群体智能涌现的最终结果进行分析。然而,当单个智能体的行为策略无法事先指定,或者设计合适的行为策略成本较高时,传统的群体智能系统的设计方法就会受到严重限制。同时,群体智能水平在很大程度上也取决于群体内单个智能体的智能水平,限制单个智能体的行为策略也会对整个群体的表现造成影响。因此,在建立群体智能系统模型时需要考虑引入单个智能体的学习和进化能力,智能体的主要行为逻辑和大名鼎鼎的强化学习基本过程不谋而合。

1.2 国内外研究现状

2020年1月,中国科学院大数据挖掘与知识管理重点实验室发布的《2019年人工智能发展白皮书》将“群体智能技术”列为了八大人工智能关键技术之一。本节从群体智能优化算法、多智能体系统、广义群体智能这三个维度来概括阐述群体智能的国内外研究现状。

1.2.1 群体智能优化算法

自然界中的生物群体通过个体自主决策和简单信息交互,经过演化,使整个群体宏观上“涌现”出自组织性、协作性、稳定性以及对环境的适应性。最初,群体智能一般狭义地指群体智能优化算法,通过模拟群居昆虫行为,依赖正反馈、负反馈、波动和多重交互等解决优化问题。

遗传算法(Genetic Algorithm),基于模仿生物进化的自然选择过程反复修改、不断增加由个体解构成的群体解集,其中质量低劣的解被丢弃,在寻找高级解决方案的过程中求解无约束和有约束非线性优化问题。相较于传统迭代算法每次迭代时通过确定性计算形成点的顺序接近最优解,遗传算法在每个步骤评价整个种群的适应度,从当前的群体随机选择个体,并将它们用作父级来生成下一代子级。经过一代又一代后,该群体“演化”为最优解。自遗传算法引入以来,许多研究者都进行了改进遗传算法性能的研究,例如引入了其他交叉和变异的替代方法,提高遗传算法等性能 [16-18]

源于对以蚂蚁、蜜蜂等为代表的社会性昆虫的研究,1992年,意大利学者Marco Dorigo首次提出蚁群优化(Ant Colony Optimization, ACO)算法 [5-6] 。蚁群优化算法包含蚂蚁、信息素等:蚂蚁是一种假想的媒介,用来模拟对搜索空间的探索和开发;信息素是一种“化学物质”,由蚂蚁在行进的道路上传播。考虑到蒸发作用,信息素的强度随着时间的推移而变化。在蚁群优化算法中,蚂蚁在搜索空间中移动时会释放信息素,这些信息素的数量反映了蚂蚁的路径强度,蚂蚁根据高强度的路径来选择方向。蚁群优化算法已应用于各种优化问题,如旅行商问题、二次分配问题、车辆路径问题、网络模型问题、图像处理问题、移动机器人路径规划问题、无人机系统路径优化问题、项目管理问题等。

来源于对一个简化社会模型的模拟,1995年,Kennedy等学者提出粒子群优化(Particle Swarm Optimization, PSO)算法 [7] 。“粒子”是一个折中的选择,因为既需要将群体中的成员描述为没有质量、没有体积的,同时也需要描述它的速度和加速状态。最初为了图形化地模拟鸟群优美而不可预测的运动,粒子群优化算法通过对动物社会行为的观察,发现在群体中对信息的社会共享提供了一个演化的优势,并以此为基础,加入近邻的速度匹配,并考虑了多维搜索和根据距离的加速,形成了算法的最初版本。之后,引入了惯性权重来更好地控制开发(Exploitation)和探索(Exploration),形成了标准的粒子群优化算法。此外,为了提高粒子群优化算法的性能和实用性,又开发了自适应(Adaptive) [19] 版本和离散(Discrete) [20] 版本。

通过分析这类代表性群体智能优化算法,人们可以发现群体智能优化算法依赖底层每个智能体事先指定的行为模式来引发期望的智能涌现现象,而缺乏针对单个智能体的学习和进化过程。

1.2.2 多智能体系统

随着群体智能的发展,它与诸多领域(如计算机科学、机器学习、运筹学、社会学等)产生了各种联系与交叉。智能体应用如火如荼、普遍存在于智能网联车、无人机群、全息通信等中,并表现为群体智能系统。在这些大规模系统中,群体智能以智能体的学习过程为基础,在保证模型可以收敛的情况下增加智能体之间的协作过程,提升多智能体的性能水平。群体智能技术可以在没有中心控制且对全局环境认知不足的情况下完成很多复杂任务,这一优势使其在多个领域崭露头角。如图1-2所示,目前群体智能技术的典型应用领域和场景包括:

1)工业4.0:群体智能在工业生产领域被广泛应用于生产调度、智能控制器优化/设计、系统优化等方面。

2)智能交通:群体智能在交通运输领域具体可以应用于路径规划、导航避障,也可通过仿真平台进行交通事故的模拟分析。

3)通信网络:群体智能在通信领域具体可应用于通过无人机或观测站构建自组织通信网络、完成通信网络的节点优化和路由优化,以及未来的海、陆、空立体通信网络的构建。

4)数据分析:群体智能技术在数据分析领域具体应用于聚类分析、群体智能软件开发、交互场景仿真以及神经网络训练等方面。

5)军事国防:军事应用是群体智能技术目前应用最为广泛的一个领域,具体可以应用于无人机编队控制、多艇协同攻击、鱼雷查打一体、水下实时监控等方面。

图1-2 群体智能技术的典型应用领域和场景

群体智能研究也不限于群体智能优化算法,涵盖了多智能体系统、多机器人协同合作等多个方面,它们之间的关系如图1-3所示。通过将若干个具备简单智能且易于控制和管理的系统,通过互相协作实现较为复杂的智能,多智能体系统具有更好的自主性、灵活性、可拓展性和鲁棒性,其协调控制的基本问题包括一致性控制、会合控制、聚结控制和编队控制等。多智能体系统要达到协调控制,首先需要模拟生物群体行为,建立群体运动模型,其次构建通信拓扑结构来完成信息交互,最后通过一致性协议使得每个个体均能达到近似相同的状态,实现协同控制。

图1-3 群体智能衍生关系

1)运动模型。多智能体系统常见的建模手段是基于个体的微观模型,这类模型以个体为建模对象,通过个体的感知、交互、运动规律以及外部环境影响等因素进行建模。Reynolds、Vicsek、Couzin等人是研究集群运动模型的代表人物,其中,Reynolds等人所提出的分离(Separation)、同步(Alignment)、聚集(Cohesion)三个基本规则奠定了集群运动模型的基础。

2)通信拓扑。多智能体系统实现信息交互需要在个体间建立物理连接,将智能体个体视为节点,各节点互连形成拓扑结构。常用的拓扑结构有树形、总线型、星形和环形,当面对大型通信网络的构建时,一般采用网状拓扑结构。网状拓扑结构使用路由算法得到发送数据的最佳路径。此外,随着图论、矩阵论、非线性理论等相关理论的引入,多智能体系统通信拓扑结构的搭建变得更加高效、可靠。

3)一致性协议。一致性协议用来维护系统中各智能体即各节点间信息和数据的一致性,来确保系统能够可靠地完成任务。一致性协议可分为单主协议和多主协议。单主协议指整个集群系统中仅存在一个主节点,主要有2PC、Paxos、Raft协议等;多主协议指整个集群中存在多个主节点,主要有Pow协议以及Gossip协议。在多智能体协同结构中,一致性协议是使系统整体高效,可靠运行的关键。

多智能体系统在当今社会中日益普遍,如智能交通灯通过感知路网的车流数据给出实时的红绿灯信号调配,优化早晚高峰的交通情况;无人驾驶车通过感知周围车辆的信号,做出局部最优行车的轨迹规划。在多智能体系统中的每个智能体(如无人驾驶车)视角下,当前决策环境中还包含其他智能体,它们也在不断学习和更新自己的决策方式,所以该决策环境是非稳态的(Non-stationary)。这打破了传统机器学习(特别是强化学习)的基本假设,即环境虽然可以是动态随机的,但必须是稳态的。为了解决多智能体系统中每个智能体的最优决策问题,克服单智能体强化学习在多智能体系统中面临的非稳态环境问题,多智能体强化学习技术在近年来开始获得越来越多的关注。

非依赖性强化学习(Independent Reinforcement Learning, IRL) [21] 是单智能体直接扩展并应用到多智能体系统而得到的一种自然模型。在该模型中,通过只接收和自身相关的环境信息,每个智能体被指定完成独立的强化学习过程,并且将全局奖励值直接当作个体奖励值来使用。除此之外,除非群体协作任务需要,智能体之间没有额外的信息交互过程和协作行为。在非依赖性强化学习中,由于只接收和利用与自身相关的环境信息,因此单个智能体通常可以保证学习环境的平稳。但是,在不考虑群体协作机制的情况下,系统中的每个智能体都会优先考虑最大化自身的累积奖励值,特别是在多个智能体不完全合作的任务场景中(即多个智能体的奖励值之间会产生冲突)。该现象会影响任务的完成效果,使系统陷入局部最优。此外,在非依赖性强化学习中,还需要对全局奖励的分配机制进行设计。值得一提的是,非依赖性强化学习是在对多智能体强化学习的研究中被广泛采用的一种基础模型,其中最重要的原因在于该模型具有很强的易实施性和鲁棒性。该模型在许多现实场景中取得了不错的测试效果 [22]

近年来,深度强化学习的快速发展为单个智能体的模型训练过程提供了许多十分高效的算法,其中有基于价值迭代的算法 [23] ,也有基于策略迭代的算法 [24-26] 。特别地,基于演员—评论家(Actor-Critic)的强化学习结构由于具有良好的收敛特性而被广泛使用。此外,为了提升模型训练方法的可扩展性,当群体智能系统包含的智能体数量较大时,参数共享是在多智能体强化学习中被广泛采用的一种技术方法 [27] 。这类方法普遍采用联邦学习 [28-35] 、图神经网络 [36] 等方式进行多智能体之间集中式或者去中心化的信息交互。例如在联邦学习中,事先假定系统中的所有智能体共用一套模型参数,即使这些智能体可能处于不同的任务场景当中。在参数共享技术中,群体智能系统通常会额外设置一个中心节点。中心节点不参与和环境的交互过程,而是依靠每个智能体从环境中收集到的样本信息进行模型参数的更新,并将更新后的模型参数共享给所有智能体。在参数共享技术中,单个智能体获取更新后的模型参数的时机可以是同步的 [37] ,也可以是异步的 [24] 。除此之外,中心节点收集样本信息的方式通常可以分成两类:收集模型的计算梯度值 [24] 和收集训练样本 [38] 。在第一种情况下,中心节点从每个智能体处得到的是直接用于模型参数更新的梯度值,该梯度值是由每个智能体在本地通过梯度计算过程得到的,这种收集方式适用于智能体在本地的计算资源充足但是通信资源匮乏的场景。在第二种情况下,中心节点收集每个智能体得到的训练样本,这些训练样本可以直接用来更新中心节点的模型参数,也可以用来补充经验池(Experience Pool),然后通过深度强化学习中的经验回放机制(Experience Replay)来更新模型参数 [23] ,这种收集方式适用于智能体在本地的计算资源匮乏但是通信资源充足的场景。参数共享技术的优势是可以提升多智能体强化学习模型训练算法的可拓展性,并提升模型在训练过程当中的稳定性和收敛性。另外,智能体间的通信水平也会在一定程度上影响联邦学习或者图神经网络的性能,并且已得到一定的关注。文献[34]面向资源异构、通信拓扑受限下的联邦学习,提出了基于网络感知的优化方法。文献[35]研究了资源受限的边缘计算系统,提出了自适应联邦学习算法。文献[28]将上述结果进一步拓展到了无线网络场景。文献[31]利用周期性平均的方法设计了具备高效通信的联邦学习机制,并设计了基于高斯分布的方法,将边缘设备的训练结果扰动后传输至联邦学习,从而取得更好的性能。文献[39]提出了基于量化的联邦学习方法。但上述方法主要考虑单任务的场景,文献[33]针对联邦多任务场景进行了分析,并利用主—对偶方法(Primal-Dual Method)有效解决了多任务本地数据保护的难题。文献[40]借鉴设备间通信的理念,通过增加少量同层智能体之间的交互,提升联邦强化学习的性能。针对图神经网络的通信交互开销问题,文献[41]提出利用网络节点数据采样的方法减少资源开销。然而,参数共享技术不能扮演多智能体协作算法的角色,也不能解决多智能体强化学习中的学习环境非平稳以及全局奖励分配等问题。

基于深度强化学习等的多智能体系统通常可以分成训练和测试两个阶段,并且依据单个智能体对环境信息的感知和利用程度,每个阶段又可以大致分成两类:集中式(Centralized)和分散式(Decentralized)。在测试执行阶段,群体智能系统大多采用的是分散式执行的形式,目的是最大程度地发挥多智能体并行工作的优势。而在训练阶段,群体智能系统则可以采用集中式训练和分散式训练两种不同的形式。相较于分散式训练,集中式训练的一个突出特点是,单个智能体在训练过程中可以利用到超出自身感知能力的更多信息,进而缓解多智能体强化学习中的经典问题。集中式训练的优势是可以在更大程度上探索多个智能体的最佳行为策略,然而,集中式训练的前提假设往往过于理想,导致该训练方式无法在一些实际场景中实现。因此,相较于分散式训练,集中式训练的适用性较差。另外,在多智能体强化学习中,依据群体智能系统目标任务的不同,可以将多个智能体之间的关系划分成以下三类:合作关系、竞争关系和混合关系。

❑ 在合作关系中,多个智能体的奖励值之间不会产生冲突,并且单个智能体的行为选择不会对其他智能体的行为选择造成影响。在这种情况下,最大化群体智能系统的全局奖励值等价于最大化每一个智能体的个体奖励值。值得一提的是,智能体之间的合作关系可以极大地缓解多智能体强化学习中的全局收益分配问题,针对这种类型的目标任务,通常可以直接应用上文提到的非依赖性强化学习。

❑ 在竞争关系中,多个智能体的奖励值之间是完全冲突的,这意味着一个智能体的个体奖励值的增加必然会导致其他智能体的个体奖励值的减少。在这种情况下,基于零和(Zero-Sum)博弈理论的奖励函数设计方法在研究中被广泛使用 [42]

❑ 在混合关系中,多个智能体之间既存在合作关系,也存在竞争关系,混合关系是在群体智能系统中最广泛存在的一种关系。

围绕多智能体强化学习的协作问题,表1-1列举出了一些典型方法。概括地讲,多智能体协作可以有以下几种形式:

❑ 独立学习类 [27,42] 。该类算法将单智能体强化学习直接扩展并应用到群体智能系统中,其中多个智能体相互独立,基本遵循非依赖性强化学习的思路。独立学习类算法在包含合作关系或者竞争关系的任务中取得了良好的测试效果,原因是在这一类任务中,多个智能体的协作方法以及全局奖励的分配机制都得到了极大的简化。

❑ 通信协作类 [43-45] 。该类算法显式地假设智能体之间存在信息的交互过程,并在训练过程中使智能体学习如何根据自身的感知信息来生成通信消息,或者确定是否需要通信、与哪些智能体进行通信等。在测试执行阶段,每个智能体都需要显式地根据其他智能体传递的消息进行决策。通信协作类算法以智能体之间的通信过程来实现多智能体协作,并通过消息的传递来解决单个智能体对学习环境观测不足的问题。可以看出,通信协作类算法的性能取决于针对通信动作、通信消息以及通信时机等内容的设计方法,并需要在训练过程中保证智能体的行动策略可以收敛。然而,通信协作类算法不能有效解决全局收益的分配问题,这会限制该类算法在现实场景中的应用。

❑ 群体协作类。该类算法针对目标任务人为地在多个智能体之间引入协作机制。其中,在解决全局收益分配问题方面 [46-48] ,一种直观的解决方案是在得到全局收益的同时,计算出每个智能体对于该全局收益的贡献值,计算的贡献值可以用来指导全局收益在多个智能体之间的分配过程。在这种解决方案中,每个智能体的贡献值都可以通过估计整个群体在缺少该智能体的情况下获得的全局收益和原本的全局收益的差值来得到 [49] 。该方案存在的难点是如何准确、快速地估算出每个智能体的贡献值。特别地,在该方案中,需要将缺少某个智能体的群体置于完全相同的任务仿真场景中进行模拟,从而得到用来对比的全局收益值。然而,当系统中的智能体数量不断增大时,针对智能体的模拟次数也会不断增多,进而导致训练时间大大增加。除此之外,为了解决单个智能体的部分观测问题,已有研究在模型的训练阶段采用集中式训练的方式来提升模型的训练效果,其中有基于演员—评论家的学习结构进行设计的方法 [50] ,也有对经验回放机制进行进一步改进的方法 [51-52] 。然而,正如前文所述,集中式训练的前提假设往往过于理想,例如,单个智能体在训练阶段需要利用其他智能体的感知信息或者行动策略来辅助自身决策,这在一些现实场景中是无法实现的,进而限制了该类算法的实际部署和应用。

❑ 模型设计类。该类算法主要通过对其他智能体的策略或行动意图进行建模来更好地进行协作或者更快地打败竞争对手 [53] ,其工作重点是对智能体的策略模型和决策过程进行设计。

表1-1 群体智能的一些典型方法

有关多智能体系统的研究尝试从不同的角度来解决该领域中的经典问题,而在群体协作方法上,罕有研究在多智能体强化学习中利用既有算法模型在解决一系列经典问题的同时,诱发期望的智能涌现现象,后者被认为是提升群体协作效率的有效方法。另外,深度强化学习是单个智能体借助与环境之间的交互过程来提升自身智能水平的重要方式,与此同时,群体智能中的智能涌现过程则是提升群体协作效果的重要环节。因此,图1-4所示为多智能体强化学习系统的演进示意图。在图1-4中,个体智能水平和群体智能水平的提升是一个相互促进的过程,其中包含了两个十分重要的阶段,第一个阶段是深度强化学习过程。借助于智能涌现过程提供的宝贵经验,单个智能体可以通过这个阶段来提升自身的智能水平。第二个阶段是智能涌现过程,借助于合适的群体协作机制,单个智能体可以最大程度地发挥自身的效用,进而提升群体智能系统的性能水平。在整个演进过程中,群体智能水平由群体协作机制和单个智能体的水平两个因素共同决定,伴随着单个智能体水平的不断提升,群体协作的效果也会越来越好。

图1-4 多智能体强化学习系统的演进示意图

1.2.3 广义群体智能

广义群体智能涵盖了个体强化学习和群体智能涌现两个方面的内容,并针对具体应用给出解决方案。其中,算法和模型是群体智能技术的基础,包括群体智能算法以及多种集群运动模型;多智能体系统除个体拥有一定的智能外,通过应用这些算法/模型建立联系,协同完成任务。虽然网络的出现和大规模普及为群体的跨时空大规模协同提供了可能,促进了网络空间内群体智能系统的探索和成功实践,但目前而言,网络空间内的群体智能主要针对特定问题精心设计的群体力量利用方案。一方面,对群体智能规律和机理的认识与探讨仍然不够充分、完整。与此同时,现阶段形成的网络空间群体智能现象仍然处于相对初级的阶段,距离理想形态的群体智能现象差距较大,无法确保求解特定问题时群体智能的可控重复发生 [62] 。传统的物理空间关注低等生物群体智能现象的观察解释,而网络空间关注利用“群智”“群力”的实践,目前把物理空间和网络空间结合起来的现象很少。另一方面,智能体之间的复杂关系往往难以有效刻画,从而引起策略学习和进化的困难。在一些简易群体智能系统中,智能体策略学习和进化仅依赖于本身,并通过一些预设规则刻画多智能体的复杂关系,但规则的繁杂导致无法有效、准确、高效地扩展到大规模群体智能系统中。

1.3 本书结构

本书分3个篇章介绍群体智能与智能网联的基础理论、概念模型、关键技术和前沿应用。本书第1章为全书绪论,介绍群体智能与智能网联的概述和研究现状。

第一篇为原理篇,包括第2~4章,共3章。其中,第2章围绕群体智能的通信与网络模式着重介绍直接通信、间接通信与共识主动性,迁移学习等通信模式,以及集中式、去中心化和自组织网络等网络模式。第3章从知识表征、知识表达和计算的维度介绍知识表征方法、知识传递与迁移方法、以及可以进行知识计算的信息经济元语言。第4章则从因果涌现与群体智能的角度介绍什么是涌现以及因果涌现建模理论,并基于此探讨深度学习和群体智能中的涌现现象。

第二篇为算法篇,包括第5~8章,共4章。其中,第5章将重点介绍多智能体强化学习算法,包括融合共识主动性的独立强化学习算法、基于平均场理论的多智能体强化学习算法。第6章则围绕多智能体的合作式梯度更新展开介绍,介绍合作式梯度更新的基本原理,阐述更新方式对性能的影响,并浅谈优化方法。第7章围绕图神经网络介绍图的基本概念,常见的图神经网络模型,以及图神经网络与机器学习的结合。第8章对仿生物智能学习进行解读,探讨蚁群算法和群体学习。

第三篇为应用篇,包括第9~11章,共3章。其中,第9章围绕6G与内生智能探讨移动通信网络朝智能技术的演进。第10章介绍无人驾驶技术、车路协同技术等车联网与自动驾驶相关的内容。第11章将探讨工业互联网技术的演进,并介绍了铸造机器人和仓储物流机器人等网联机器人。

参考文献

[1] MINSKY M. The society of mind[M]. New York: Simon Schuster, 1988.

[2] BROWN T B, MANN B, RYDER N, et al. Language models are few-shot learners[EB/OL]. (2020-05-28)[2021-07-20]. https://arxiv.org/abs/2005.14165v4.

[3] LEVY P. The semantic sphere 1: computation, cognition and information economy[M]. Hoboken: Wiley-ISTE, 2011.

[4] COIT D W. Genetic algorithms and engineering design[J]. Engineering Economist, 1998, 43(4): 379-381.

[5] DORIGO M, BIRATTARI M, STüTZLE T. Ant colony optimization[J]. IEEE Computational Intelligence Magazine, 2007, 1(4): 28-39.

[6] DORIGO M, MANIEZZO V, COLORNI A. Ant system: optimization by a colony of cooperating agents[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 1996, 26(1): 29-41.

[7] KENNEDY J, EBERHART R. Particle swarm optimization[C]//Proceedings of ICNN'95-International Conference on Neural Networks. New York: IEEE Press, 1995, 4: 1942-1948.

[8] HOLLAND O, MELHUISH C. Stigmergy, self-organization, and sorting in collective robotics[J]. Artificial Life, 1999, 5(2): 173-202.

[9] CHETTRI L, BERA R. A comprehensive survey on internet of things (IoT) toward 5G wireless systems[J]. IEEE Internet of Things Journal, 2020, 7(1): 16-32.

[10] SCHWARZROCK J, ZACARIAS I, BAZZAN A L C, et al. Solving task allocation problem in multi unmanned aerial vehicles systems using swarm intelligence[J]. Engineering Applications of Artificial Intelligence, 2018, 72: 10-20.

[11] KARUNA H, VALCKENAERS P, SAINT-GERMAIN B, et al. Engineering self-organising systems[M]. Berlin: Springer, 2005: 210-226.

[12] GUO B, CHEN C, ZHANG D, et al. Mobile crowd sensing and computing: when participatory sensing meets participatory social media[J]. IEEE Communications Magazine, 2016, 54(2): 131-137.

[13] LI R, ZHAO Z, XU X, et al. The collective advantage for advancing communications and intelligence[J]. IEEE Wireless Communications, 2020, 27(4): 96-102.

[14] CHEN Y W, KOBAYASHI K, KAWABAYASHI H, et al. Application of interactive genetic algorithms to boid model based artificial fish schools[C]//Knowledge-Based Intelligent Information and Engineering Systems. Berlin: Springer, 2008: 141-148.

[15] SAVKIN A V. Coordinated collective motion of Groups of autonomous mobile robots: analysis of Vicsek's model[J]. IEEE Trans. on Automatic Control, 2004, 49(6): 981-982.

[16] CHOONG CHIAO MEI F, PHON-AMNUAISUK S, ALIAS M Y, et al. Adaptive ga: an essential ingredient in high-level synthesis[C]//2008 IEEE Congress on Evolutionary Computation (IEEE World Congress on Computational Intelligence). New York: IEEE Press, 2008: 3837-3844.

[17] DE JONG K A, SPEARS W M. A formal analysis of the role of multi-point crossover in genetic algorithms[J/OL]. Ann Math Artif Intell, 1992, 5(1): 1-26[2022-11-07]. https://doi.org/10.1007/BF01530777.

[18] ÜÇOLUK G. Genetic algorithm solution of the TSP avoiding special crossover and mutation[J]. Intelligent Automation and Soft Computing, 2002, 8(3): 265-272.

[19] ZHAN Z H, ZHANG J, LI Y, et al. Adaptive particle swarm optimization[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 2009, 39(6): 1362-1381.

[20] SHEN M, ZHAN Z H, CHEN W N, et al. Bi-velocity discrete particle swarm optimization and its application to multicast routing problem in communication networks[J]. IEEE Transactions on Industrial Electronics, 2014, 61(12): 7141-7151.

[21] TAN M. Multi-agent reinforcement learning: independent vs. cooperative agents[M]. San Francisco: Morgan Kaufmann Publishers Inc., 1997: 487-494.

[22] SHAH K, KUMAR M. Distributed independent reinforcement learning (DIRL) approach to resource management in wireless sensor networks[C]//IEEE International Conference on Mobile Adhoc and Sensor Systems. New York: IEEE Press, 2007: 1-9.

[23] VOLODYMYR M, KORAY K, DAVID S, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015, 518(7540): 529-533.

[24] ZHANG Y, CLAVERA I, TSAI B, et al. Asynchronous methods for model-based reinforcement Learning[Z]. 2019.

[25] SILVER D, LEVER G, HEESS N, et al. Deterministic policy gradient algorithms[C]//Proceedings of the 31st International Conference on Machine Learning. Beijing, 2014: 387-395.

[26] SCHULMAN J, WOLSKI F, DHARIWAL P, et al. Proximal policy optimization algorithms[Z]. 2017.

[27] GUPTA J K, EGOROV M, KOCHENDERFER M. Cooperative multi-agent control using deep reinforcement learning[C]//Autonomous Agents and Multiagent Systems. Cham, 2017:66-83.

[28] CHEN M, YANG Z, SAAD W, et al. A joint learning and communications framework for federated learning over wireless networks[J]. IEEE Transactions on Wireless Communications, 2021, 20(1): 269-283.

[29] DUTTA S, JOSHI G, GHOSH S, et al. Slow and stale gradients can win the race:Error-runtime trade-offs in distributed SGD[EB/OL].[2020-03-04]. http://proceedings.mlr. press/v84/dutta18a.html.

[30] HANNA S K, BITAR R, PARAG P, et al. Adaptive distributed stochastic gradient descent for minimizing delay in the presence of stragglers[EB/OL]. (2020-02-25)[2023-09-18]. http://arxiv.org/abs/2002.11005.

[31] HU R, GONG Y, GUO Y. Cpfed: Communication-efficient and privacy-preserving federated learning[EB/OL]. (2020-03-30)[2023-09-18]. http://arxiv.org/abs/2003.13761.

[32] MOTHUKURI V, PARIZI R M, POURIYEH S, et al. A survey on security and privacy of federated learning[J]. Future Generation Computer Systems, 2021, 115: 619-640.

[33] SMITH V, CHIANG C K, SANJABI M, et al. Federated multi-task learning[C]//NIPS'17:The Thirty-first Annual Conference on Neural Information Processing Systems. Long Beach:NIPS 2017, 2017.

[34] TU Y, RUAN Y, WAGLE S, et al. Network-aware optimization of distributed learning for fog computing[C]. Toronto: Proc. IEEE INFOCOM 2020, 2020: 2509-2518.

[35] WANG S, TUOR T, SALONIDIS T, et al. Adaptive federated learning in resource constrained edge computing systems[J]. IEEE Journal on Selected Areas in Communications, 2019, 37(6): 1205-1221.

[36] GAMA F, ISUFI E, LEUS G, et al. Graphs, convolutions, and neural networks[EB/OL]. (2020-03-08)[2023-09-18]. https://arxiv.org/abs/2003.03777v1.

[37] WU Y, MANSIMOV E, LIAO S, et al. Scalable trust-region method for deep reinforcement learning using kronecker-factored approximation[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. Red Hook, 2017: 5285-5294.

[38] GU S, HOLLY E, LILLICRAP T, et al. Deep reinforcement learning for robotic manipulation with asynchronous off-policy updates[C]//IEEE International Conference on Robotics and Automation (ICRA). New York: IEEE Press, 2017: 3389-3396.

[39] REISIZADEH A, MOKHTARI A, HASSANI H, et al. FedPAQ: a communication-efficient federated learning method with periodic averaging and quantization[C]//International Conference on Artificial Intelligence and Statistics. PMLR, 2020: 2021-2031.

[40] XU X, LI R, ZHAO Z, et al. Stigmergic independent reinforcement learning for multi-agent collaboration[EB/OL]. [2023-09-18]. https://www.rongpeng.info/files/Paper_TNNLS2022Stigmergy.pdf.

[41] TRIPATHY A, YELICK K, BULUC A. Reducing communication in graph neural network training[Z]. 2020.

[42] ARDI T, TAMBET M, DORIAN K, et al. Multiagent cooperation and competition with deep reinforcement learning[J]. Plos One, 2017, 12(4): e0172395.

[43] PENG P, WEN Y, YANG Y, et al. Multiagent bidirectionally-coordinated nets: emergence of human-level coordination in learning to play starcraft combat games[Z]. 2017.

[44] JIANG J, LU Z. Learning attentional communication for multi-agent cooperation[C]//Proceedings of the 32nd International Conference on Neural Information Processing Systems. Montréal, 2018: 7265-7275.

[45] KIM D, MOON S, HOSTALLERO D, et al. Learning to schedule communication in multiagent reinforcement learning[Z]. 2019.

[46] SUNEHAG P, LEVER G, GRUSLYS A, et al. Value-decomposition networks for cooperative multi-agent learning[Z]. 2017.

[47] RASHID T, SAMVELYAN M, SCHROEDER C, et al. QMIX: monotonic value function factorisation for deep multi-agent reinforcement learning[C]//Proceedings of the 35th International Conference on Machine Learning. Stockholm, 2018: 4295-4304.

[48] SON K, KIM D, KANG W J, et al. QTRAN:learning to factorize with transformation for cooperative multi-agent reinforcement learning[Z]. 2019.

[49] FOERSTER J, FARQUHAR G, AFOURAS T, et al. Counterfactual multi-agent policy gradients[Z]. 2017.

[50] IQBAL S, SHA F. Actor-attention-critic for multi-agent reinforcement learning[Z]. 2019.

[51] FOERSTER J, NARDELLI N, FARQUHAR G, et al. Stabilising experience replay for deep multi-agent reinforcement learning[C]//Proceedings of the 34th International Conference on Machine Learning. Sydney, 2017: 1146-1155.

[52] OMIDSHAFIEI S, PAZIS J, AMATO C, et al. Deep decentralized multi-task multi-agent reinforcement learning under partial observability[C]//Proceedings of the 34th International Conference on Machine Learning. Sydney, 2017: 2681-2690.

[53] RABINOWITZ N, PERBET F, SONG F, et al. Machine theory of mind[C]//Proceedings of the 35th International Conference on Machine Learning. Stockholm, 2018: 4218-4227.

[54] OKWU M O, TARTIBU L K. Bat algorithm: volume 927[M]. Cham: Springer International Publishing, 2021: 71-84.

[55] KARABOGA D. Artificial bee colony algorithm[J]. Scholarpedia, 2010, 5(3): 6915.

[56] XING B, GAO W J. Imperialist competitive algorithm: volume 62[M]. Springer Cham:Springer International Publishing, 2014: 203-209.

[57] REZAEI H, BOZORG-HADDAD O, CHU X. League championship algorithm (lca): volume 720[M]. Singapore: Springer Singapore, 2018: 19-30.

[58] FOERSTER J, ASSAEL I A, DE FREITAS N, et al. Learning to communicate with deep multi-agent reinforcement learning[C]//Advances in Neural Information Processing Systems. Barcelona, 2016, 29: 2145-2153.

[59] SUKHBAATAR S, SZLAM A, FERGUS R. Learning multiagent communication with back-propagation[C]//Advances in Neural Information Processing Systems. Barcelona, 2016, 29:2252-2260.

[60] MAO H, GONG Z, NI Y, et al. ACCNet: actor-coordinator-critic net for learning-to-communicate with deep multi-agent reinforcement learning[Z]. 2017.

[61] LOWE R, WU Y, TAMAR A, et al. Multi-agent actor-critic for mixed cooperative-competitive environments[C]//Advances in Neural Information Processing Systems. Long Beach, 2017: 6379-6390.

[62]梅宏.如何构造人工群体智能[EB/OL].(2022-04-27)[2023-09-18].http://www.shareteches.com/newweb/web/view.aspx?id=32047. urbJs6riuKA9ksLyTuY49An8N2BOgOONmcue6NflGBtOc9W0z5tHfHKEd6TqGP7A

点击中间区域
呼出菜单
上一章
目录
下一章
×