购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.1 引言

边缘计算通过利用边缘网络上的计算和存储资源扩展了传统的云计算架构。云可以部署边缘设备处理任务,而无须远程传输。随着5G 通信和网络技术的发展,终端设备已经发展成为具有强大传感、计算和存储能力的设备,这为实现普适边缘计算铺平了道路。实际上,普适边缘计算仅利用边缘设备进行计算和存储,而没有集中管理,是一种新型的边缘计算。传统的边缘计算作为云计算的补充,计算和存储资源均由边缘服务器提供,在后端做出决策。相比之下,普适边缘计算允许数据存储、处理和调度决策全部在网络边缘执行。因此,传统的边缘计算策略不适合普适的边缘计算环境,需要以完全分布式的方法设计新的算法。

普适边缘计算相对于传统边缘计算的优势可以概括为4个方面:不需要基础设施部署和维护专用云后端;无须与云通信,因为数据可以在用户附近处理,大大降低了传输时延;它通过对等通信实现网络连接;普适边缘计算不需要中心化的系统控制,设备可以自由决定如何与他人协作,以何种方式实现多样化的网络应用。

普适边缘计算在许多领域均有广泛的应用。例如,在篮球比赛现场,坐在不同位置的观众可以通过点对点通信与他人分享他们从自己的角度录制的视频 [3] 。然后,通过聚集不同的片段,形成多角度观看的比赛视频,使不同地点的观众均可以看到现场比赛的全景。另一个例子是合作驾驶,其中道路状况和事故场景的实时视频流可以基于短距离通信技术在车辆之间直接共享 [4]

尽管普适边缘计算可以为用户带来各种便利,但考虑到普适边缘计算网络中多台设备效用的公平性,设计一种可行的计算卸载算法是一项具有挑战性的工作,研究挑战如下。

① 与传统的边缘计算相比,普适边缘计算允许设备在网络边缘做出决策,而无须集中管理。设备仅依靠点对点通信很难获得整个网络状态,很难根据部分观察结果选择合适的边缘服务器(由其他设备组成)来卸载任务。受此影响,没有合理的任务分配策略,难以保证任务完成时间。

② 在多设备环境中,每个设备都希望最大化自己的效用。但现有的研究大多采用博弈论模型计算纳什均衡。对于每台设备,博弈论模型都基于系统状态的全局知识与其他设备进行交易。然而,在普适边缘计算网络中,设备无法获得全局信息,因此如何在完全分布式的环境中保证设备的公平性值得研究。

③ 在全局信息部分观测的情况下,本章设计了基于模仿学习的方法,通过与环境的交互获得良好的策略。一方面,现有的无模型学习方法在初始阶段的性能总是很差,不适合在线调度;另一方面,它们的收敛速度很慢,特别是在多智能体的部分可观测环境中。因此,有必要设计一种能够快速收敛并且能够以分布式方式执行的学习方法。

针对上述问题,本章提出了一种基于多智能体模仿学习的普适边缘计算卸载算法(Multi-agent Imitation Learning based Computation Offloading Algorithm for Pervasive Edge Computing,MILP)。该算法以最小化设备的平均任务完成时延为目标,将任务卸载到其他设备进行计算或者在本地处理任务,决策完全取决于设备的观察。

模仿学习是一种机器学习方法,通过学习智能体模仿专家策略进而通过智能体有效地解决原始依赖专家策略的复杂问题,但由于专家策略时间复杂度高,不能以在线的方式进行决策,因此设计了一个训练过程,通过模仿专家来学习智能体策略。此外,多智能体模仿学习允许多个智能体模仿相应专家的行为,并能在智能体之间达到纳什均衡。具体来说,本章研究内容可以概括为以下4个方面。

① 考虑到边缘设备的通信和计算能力,本章将普适边缘计算环境中的任务调度问题表述为一个优化问题。为了解决这一问题,指定博弈元素,如进化玩家、状态和状态转移可能性,建立了原始优化问题与随机博弈之间的关系,并将优化问题转化为最大化奖励问题。

② 为了解决最大化奖励问题,本章放宽了普适边缘计算网络的限制,提出了一种基于多智能体模仿学习的计算卸载算法,允许多个学习智能体模仿相应专家的行为来制定好的调度策略,即将多智能体生成对抗模仿学习(Generalized Adversarial Imitation Learning,GAIL)与普适边缘计算相结合来解决流量调度问题。

③ 为了形成专家策略,本章采用(Actor-Critic with Kronecker-factored Trust Region,ACKTR)算法,在充分观察系统状态的基础上寻找专家的最优策略。对于智能体策略,综合了卷积神经网络(Convolutional Neural Network,CNN)、生成对抗网络(Generative Adversarial Network,GAN)和ACKTR三种算法以逼近专家策略提出了一种可以在线执行的基于部分观察状态的神经网络模型。

④ 从理论和实验两个角度证明了 MILP 算法的优越性。理论结果表明,该算法能够保证设备的公平性,并在完全观测和部分观测的基础上达到纳什均衡。性能结果表明,该算法在平均任务完成时间、收敛时间和卸载率方面具有优势。 oxyDUGgadzyLEF9K3/WRa3jJKyxDJs5qVRjthMlkiV6eh6Vy0F4ZkcwEni72CSgi

点击中间区域
呼出菜单
上一章
目录
下一章
×