本节从数据中心光网络控制技术、资源分配技术、可靠性技术这3个方面详细地分析边缘数据中心光网络的研究现状。
数据中心光网络控制机制可以实现高效的任务调度与资源分配,以满足低时延、大带宽业务的需求。为了解决当前基于电交换机的分层数据中心网络架构中的带宽和时延问题,文献[2]介绍了一种基于分布式流控方式的快速光交换机和改进机架交换机的新型混合数据中心网络架构。该架构的簇内互连是通过光交换实现的,可在纳秒级时间内进行波长切换,而簇间通过机架接口直接互连。由于缺乏实用的光缓冲器,在冲突的情况下,该架构可利用光流控制实现数据包重传。最后,文献[2]对架构的性能进行了数值验证,充分地评估了不同场景下的时延、丢包和吞吐量。
部署边缘数据中心的目的是通过近乎实时地处理数据流和用户请求来减少时延和网络拥塞。负载均衡可以通过在边缘数据中心之间重新分配流量负载,来提高资源利用率并缩短任务响应时间。文献[3]介绍了一种负载均衡控制技术,可通过定位到负载较小的边缘数据中心来进行更合理的任务分配。上述控制技术不仅提高了负载均衡效率,而且通过对目的边缘数据中心进行认证,增强了安全性。
软件定义网络(Software Defined Network,SDN)的主要创新是将控制平面与数据平面解耦,并通过运行在控制器上的专门应用程序来集中进行网络管理。尽管基于SDN控制数据中心有许多优点,但其安全性仍然是学术界关注的问题。文献[4]介绍了基于广义熵(Generalized Entropy,GE)来检测控制层的低速率分布式拒绝服务(Distributed Denial of Service,DDoS)攻击。实验结果表明,与香农熵和其他统计信息距离度量相比,上述检测机制可提高检测精度。
为了在数据中心间光网络(Inter-data Center Optical Network,IDCON)上实现经济、高效的自适应网络控制和管理,人们开始考虑引入网络虚拟化技术,让IDCON的运营商作为基础设施提供商(Infrastructure Provider,InP),在IDCON上为租户创建虚拟光网络(Virtual Optical Network,VON)。文献[5]尝试将基于深度学习(Deep Learning,DL)的流量预测集成到IDCON管理中。首先,设计了服务提供框架,其中每个租户使用DL模块来预测其VON中的流量。其次,当发现未来流量与其VON中分配的资源之间显著不匹配时,向InP提交重新配置VON的请求。
本小节从网络层资源分配方案设计出发,分别总结了传统的资源分配和基于人工智能技术的资源分配的研究现状,并结合边缘计算技术的研究背景,详细分析了基于人工智能技术的资源分配算法设计的必要性。
通过将位于云中的服务和功能移动到用户侧,边缘计算可以提供强大的存储和通信能力。作为边缘计算的实体,边缘数据中心网络的资源分配问题引起了研究人员的关注 [6] 。文献[7]引入了雾计算层,设计了基于社交网络的死锁管理器,通过收集所有可用空闲资源来帮助消除死锁。
移动边缘计算(Mobile Edge Computing,MEC)是一种新兴的模式。在该模式下,移动设备可以将计算密集型或时延敏感型任务卸载到附近的MEC服务器上,从而节省能源。与云服务器不同,MEC服务器是部署在无线接入点上的小型数据中心,因此对无线电和计算资源都高度敏感。文献[8]以最小化总能耗为目标,提出了时延敏感型应用感知的资源分配算法。仿真结果表明,与传统算法相比,该算法在节能方面具有优异的性能。
传统的MEC服务器存在计算能力有限、无法及时处理密集型任务等缺点。文献[9]提出了异构多层MEC,先将在边缘无法及时处理的数据卸载到上层MEC服务器,再卸载到计算能力更强大的云中心。最后,通过合理分配云中心、多层MEC服务器、边缘设备间的计算资源、传输资源,降低了服务时延。
由于资源管理是一项决策任务,因此许多工作提出了基于深度强化学习(Deep Reinforcement Learning,DRL)的方法,用于近似和预测资源分配的用户负载。在DRL中,代理会观察环境并根据该环境采取措施。文献[10]研究了DRL是否可以在没有人为干预的情况下用于自动流量优化。
文献[11]提出了一种基于DRL的智能资源分配算法。该算法可以自适应地分配计算资源和网络资源、缩短平均服务时间,并平衡不同MEC环境下的资源使用情况。实验结果表明,该算法在MEC变化条件下的性能优于传统最短路径优先算法。
联邦学习可以实现大规模分布式机器学习,且不会暴露用户隐私数据。文献[12]提出通过降低训练组中的中央处理器(Central Processing Unit,CPU)周期频率来提高联邦学习的能量效率,并设计了一种基于DRL的、经验驱动的计算资源分配算法,该算法可以在网络质量未知的情况下收敛到接近最优解。
本小节将从异常预测与故障定位两个角度分析数据中心光网络可靠性技术的研究现状。
在异常预测方面,目前的研究主要集中在数据中心网络、高性能计算网络、光网络等领域。文献[13]提出了一种混合网络异常预测模型,该模型利用灰狼优化算法和卷积神经网络(Convolutional Neural Network,CNN)实现了云数据中心场景下的异常预测,提升了异常预测的效率和准确度。而文献[14]针对高性能计算系统,设计了基于自编码器的异常预测方案,通过训练一组自编码器来学习超级计算节点的正常行为,并在训练后使用它们来识别异常情况。在光网络场景下,文献[15]提出了一种自学习异常预测框架,它采用无监督数据聚类模块对监测数据进行模式分析,将该模块学习到的模式转移到有监督的数据回归和分类模块,以实现异常预测。
在故障定位方面,目前的研究主要集中在光网络领域。文献[16]将神经网络模型应用于光传送网的故障定位场景。为了解决神经网络模型的梯度消失和梯度爆炸问题,他们采用了梯度剪切或权正则化的方法,并选择长短期记忆(Long-Short Term Memory,LSTM)网络模型进行故障定位。文献[17]将知识图谱引入告警分析过程,提出了一种基于图神经网络(Graph Neural Network,GNN)的推理模型,对告警知识图谱进行关系推理,从而实现了网络故障定位。
综上所述,截至本书成稿之日,国内外工作主要集中在数据中心网络或光网络单场景下的控制、调度、可靠性研究,而针对边缘数据中心光网络的研究相对较少。近年来,虚拟现实、无人驾驶、智慧家庭等新业务、新场景对网络边缘侧的计算、存储等网络能力的要求越来越高。边缘数据中心光网络能够为上述业务提供计算、存储等能力的互联互通,具有很好的应用前景。