本书紧紧围绕云边端融合计算模式下终端智能信息处理展开研究,从云、边、端三层之间的数据传输,以及智能计算的学习训练和部署运行两个过程入手,根据云边端融合计算模式面临的挑战,总结出其中的具体问题,进而针对这些问题,研究提出提升终端智能信息处理能力的方法。
在云边端融合计算过程中,终端设备一方面需要云中心、边缘设备进行数据传输,以满足上传数据、下载智能模型与计算结果、智能计算任务卸载等通信需求;另一方面需要利用邻近终端设备间数据链路稳定、延时小的特点,在各终端设备间共享备份数据、卸载计算任务等。根据云边端融合计算模式下的这两个需求,我们认为终端智能信息处理在数据传输过程中存在以下两个具体问题。
(1)链路选择问题。云边端融合计算模式下,终端设备与云中心、边缘设备之间存在大量数据传输。但是,在一些应用场景中,如人员密集场所、无人平台集群等,在一片区域内存在大量终端设备,而无线网络环境的各数据链路状态不同且带宽有限,若大量终端设备选择同一个数据链路进行数据传输,则必然会导致拥塞等现象,降低数据传输质量。因此,大量终端设备如何在上行、下行等多个数据链路中自主选择合适的链路,以优化整体的云边端协同效率,成了一个关键问题。
(2)传输决策问题。各终端设备在智能信息处理过程中需将数据传输至云中心实现计算任务卸载。由于不同终端设备在邻近区域可能采集到相同数据及终端设备间数据共享等,因此各终端设备可能存储了相同的数据,上传这些相同的数据往往不能带来额外的效益,反而会浪费终端设备有限的能量、占用网络有限的链路资源。因此,各终端设备如何根据分配到的链路状态,进行是否传输及传输哪些数据的决策是优化云边端间数据传输的一个关键问题。
采用深度学习等高性能智能模型进行信息处理可显著提升终端智能信息处理效果。然而,这些智能模型对终端设备的计算能力提出了严苛的挑战。在智能模型部署运行过程中,终端设备需要采用多种方式降低终端本地计算开销。同时,由于网络通信环境变化及上述两个问题中的传输优化等,因此终端设备与云中心、边缘设备之间的数据传输状态会不断发生变化。针对数据传输状态的不同,在部署运行过程中,终端智能信息处理分别存在以下两个具体问题。
(1)运行任务卸载问题。当终端设备与云中心、边缘设备之间的数据链路通畅时,终端设备可采用计算任务卸载的方法将部分计算任务卸载至边缘设备或云中心执行。如何实现深度神经网络模型在终端设备与云中心或边缘设备间的协同部署运行,并同时保证数据在卸载过程中的安全隐私性,成了一个关键问题。
(2)本地高效运行问题。当终端设备与云中心、边缘设备之间的数据链路断开时,终端设备仅能依靠自身的算力执行计算任务。基于深度神经网络等先进方法的智能模型庞大、复杂,终端设备难以依靠自身的算力进行计算,因此,如何实现数据链路断开时终端本地高效部署运行,成为另一个关键问题。
在智能模型学习训练过程,智能模型通常依托云中心进行训练而后下发至终端设备。但训练完成的、单一不变的智能模型往往难以满足各类终端设备的不同信息处理需求,终端设备需要利用运行过程中实时产生的面向信息处理具体业务的数据持续训练、优化智能模型。根据终端设备可否与云中心、边缘设备进行数据传输,在学习训练过程中,终端智能信息处理分别存在以下两个具体问题。
(1)高效联邦学习问题。近年来,新兴的联邦学习技术为云中心可达情况下边缘设备智能模型持续训练提供了可行方案。然而,在传统的联邦学习方法下,终端设备与云中心之间通信开销大且在出现丢包时难以收敛,这难以满足终端设备所处的带宽受限、动态变化的无线网络环境。通过云边端融合计算模式提升联邦学习效率成为一个关键问题。
(2)终端间联合学习问题。当终端设备与云中心、边缘设备之间不可达时,联邦学习技术无法实现利用终端设备进行智能模型学习训练。需研究一种在终端设备层利用邻近的终端设备相互协作完成智能模型学习训练的方法。但在终端设备层,网络的动态变化性更高、设备的算力约束更严苛,针对这些挑战,研究提出终端间完全分布式的联合学习方法成为另一个关键问题。
本书围绕上述6个具体问题分别开展针对性研究,以期提高终端智能信息处理能力。本书研究内容框架如图1.2所示。
图1.2 本书研究内容框架
首先,在云边端协同数据传输方面,研究内容包括:①终端设备数据传输链路自主协同选择方法,优化终端设备链路选择,避免出现链路拥塞,优化数据传输链路利用率;②多终端设备协同数据传输方法,实现各终端设备自主决策是否进行数据传输、传输哪些数据,提高数据传输效用。
接着,围绕智能计算的两个主要过程,考虑终端设备与云中心、边缘设备通联与否,在智能模型的部署运行过程,研究内容包括:①云端分层的智能模型分割部署方法,基于云边端融合计算模式,将智能模型分层部署于终端设备与云中心或边缘设备中,实现终端上复杂计算任务的卸载,降低终端本地算力开销;②基于知识萃取的智能模型压缩方法,将复杂的智能模型在可接受的性能折损内压缩为精简的小模型,使终端设备仅依靠自身算力便能运行该模型。
最后,在智能模型的学习训练过程中,同样考虑终端设备与后端通联与否,研究内容包括:①云边端分层的联邦学习方法,利用终端实时产生的新数据,在后端可达的情况下,实现智能模型的持续学习训练;②多终端设备联合学习方法,利用邻近终端设备的算力和数据联合学习,实现无后端支撑条件下的智能模型学习训练。
在对上述6项研究内容开展研究的过程中,本书做出了以下6点创新。
1. 轻量级、分布式的终端设备数据传输链路自主协同选择方法(第2 章介绍)
针对终端设备数据传输链路选择问题,本书将该问题建模为一个链路选择博弈,通过严格的分析证明该博弈是一个广义序贯势博弈。在此基础上,设计了一种基于虚拟博弈的分布式链路选择算法,实现各终端设备可独立进行链路选择决策,生成链路选择博弈的纳什均衡解。与传统的虚拟博弈算法不同,本书所设计的算法为了适应终端设备的网络环境特征、解决终端设备算力有限等问题,重点实现了避免使用其他终端设备实时信息、降低算法计算复杂度、降低算法存储需求等方面的要求。同时,针对无线网络通信环境的特征,将信息不完全等情况也考虑在内,保证在该情况下算法的收敛性。实验表明,该方法可有效优化大量终端设备进行数据传输时的链路选择,避免链路阻塞,提高传输效用。
2. 分布式终端设备数据上传的多元决策方法(第3 章介绍)
针对在各终端设备间存在冗余数据的情况下,如何协同上传数据的问题,本书综合考虑数据链路状态、数据重要性及信息饱和等因素,将该问题建模为能耗约束的信息效用最大化问题。为了解决该问题,提出了一种面向长期性能最优的分布式优化方法,实现了各终端设备不依赖未来信息、独立进行长期优化的目标,通过严格的理论分析证明该方法可无限接近最优解。区别于现有随机网络优化方法仅能实现二元决策,所提出的上传决策优化方法解决了是否传输数据、传输哪些数据的多元决策问题,灵活性、自适应性更强。实验表明,通过采用本书所提出的分布式上传决策方法,各终端设备可独立地根据自有的可观测信息进行上传决策,性能表现显著优于现有随机网络优化方法。
3. 基于深度神经网络分割的模型分层部署方法(第4 章介绍)
为实现在数据链路通畅的情况下,终端设备与云中心协同完成基于深度学习的信息处理任务,本书提出了一种基于深度神经网络分割的模型分层部署方法。在终端设备上仅部署一个预置的浅层神经网络,复杂、大型的上层神经网络均部署于云中心内,从而将包括模型训练、复杂推断在内的高算力要求的计算任务卸载至云中心执行,终端设备仅承担简单的数据转换计算任务。为了消除向云中心传输数据时带来的数据安全与隐私隐患,同时避免使用复杂加密算法引入额外计算开销,本书设计了一种新的满足差分隐私准则的扰动方法,该方法相比现有扰动方法更灵活、更适应神经网络的层级结构。为了降低数据保护扰动对云中心后续推断产生的不利影响,本书提出了一种新的噪声训练方法来训练云中心网络,以增强云中心网络对噪声的健壮性。噪声训练方法在训练集中加入精心设计的噪声样本,在纯净样本、噪声样本、被扰动的噪声样本上联合最小化相应的损失函数,大大增强了云中心网络对含扰动数据的推断能力,在数据安全和隐私可保证的前提下,提高了智能信息处理性能。
4. 基于知识萃取的智能模型安全压缩方法(第5 章介绍)
针对终端设备与外界连接中断的情况,本书设计了一种基于知识萃取的深度学习模型安全压缩方法,压缩得到一个可直接部署于终端设备的精简、高效的深度学习智能模型,使终端设备可依靠自身算力进行深度学习信息处理。该方法遵循教师-学生训练模式,将嵌入复杂、庞大的教师模型中的知识分阶段地萃取并转移到学生模型中,以此优化学生模型的性能。同时,为了保护云中心中训练数据的安全与隐私,本书设计了一种新的满足差分隐私准则的扰动机制,与现有的逐样本扰动方法不同,本书所设计的方法以批为单位,对教师模型进行询问,对从教师模型反馈的批损失(Batch Loss)进行扰动、添加随机噪声,达到保护训练数据安全与隐私的目的。此外,为了进一步增强数据安全与隐私保护性能,本书尝试控制学生模型对教师模型的访问,减少在知识萃取过程中使用到的样本数量,创新性地提出了一种查询样本选取方法,从完整公共数据集中选取一部分子集咨询教师模型,达到使用子集的查询效果与使用完整公共数据集的效果相仿的目标。
5. 自适应压缩的分层联邦学习方法(第6 章介绍)
联邦学习为后端可达情况下的终端智能模型持续提升提供了一个可行的解决方案。然而,在终端设备所处的环境下,不可靠网络条件、动态变化的带宽等因素使联邦学习应用过程中存在巨大的通信瓶颈。针对该问题,本书在云边端融合计算模式的基础上,提出了一种自适应压缩的分层联邦学习方法。与传统联邦学习方法相比,本书将终端-中心的两层学习架构改进为云边端多级模型缓存的联合学习架构,通过减少传输距离和将整个模型划分为多个块来减轻通信延迟和信息丢失对联邦学习性能的影响,能够更好地适应网络不可靠和动态带宽,具有良好的健壮性。此外,该方法可根据模型大小和特点,按照通信链路状况,自适应地进行梯度压缩,从而在确保联邦学习性能不显著降低的情况下,大大降低终端设备的通信需求,实现高效的智能模型学习训练。在考虑终端设备网络不可靠的前提下,通过严格的理论分析表明,所提出的方法可以在任意数据分布上实现学习训练的收敛。
6. 基于gossip 协议的多终端完全分布式联合学习方法(第7 章介绍)
针对云中心、边缘设备等后端不可达情况下的智能模型学习训练问题,本书基于gossip分布式通信协议,提出了一种多终端完全分布式联合学习框架。该框架通过可靠终端设备之间交换模型参数来实现在不可靠的网络上训练终端智能模型的目标,同时降低恶意参与者加入学习训练过程的概率。同时,考虑终端设备的资源限制和无线网络环境的不可靠性,本书提出了一种与完全分布式联合学习框架相适应的动态控制算法,通过自适应调整gossip协议中的可靠性阈值来控制终端设备的资源使用和邻近终端设备的选择,以最大限度地利用可用资源。实验表明,本书提出的方法可在后端不可达的情况下有效实现终端智能模型的学习训练。