购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.2 跨数据中心分布式机器学习

随着国内外各行各业的数字化转型升级加快,社会数字资源总量爆发式增长,云计算对数字存储、算力算效的需求也急剧上升,这些需求促使了国家和产业积极推动新型数据中心建设,并实现异地数据中心之间的互联互通。在本节中,我们介绍产业的发展背景及其对新型数据中心建设、数字与算力资源融合的急迫需求,从而引出并介绍跨数据中心分布式机器学习的基本概念及架构,进而剖析实现该技术所面临的客观限制和关键挑战。

1.2.1 产业发展背景及需求

在人工智能等关键应用的需求牵引下,2020年3月4日,中共中央政治局常务委员会会议强调“加快5G网络、数据中心等新型基础设施建设进度”,随后,工业和信息化部印发《新型数据中心发展三年行动计划(2021—2023年)》(以下简称《行动计划》),旨在加快建设高技术、高算力、高能效、高安全的新型数据中心 [128] 。《行动计划》指出,要加快建设京津冀等八个国家枢纽节点,按需建设各省新型数据中心,灵活部署城市内边缘数据中心,加速改造升级“老旧小散”数据中心,逐步布局海外新型数据中心,打造云边协同的边缘数据中心集群及应用,满足全国不同类型的算力需求,支持我国数据中心产业链上下游企业“走出去”。为响应国家号召、满足产业需求,各大企事业单位积极推动新型数据中心建设,构建以新型数据中心为核心的智能算力生态体系。2022年2月,“东数西算”工程全面启动实施,在京津冀、长三角、粤港澳大湾区、成渝、内蒙古、贵州、甘肃、宁夏等八地启动建设国家算力枢纽节点,并规划了十个国家数据中心集群 [129] 。2022年4月,全国新开工项目25个,数据中心规模达54万标准机架,总算力超过每秒1350亿亿次浮点运算 [130]

在产业界,由于业务规模的持续扩张、业务范围的不断扩大,以及行业对云计算需求的急剧增长,各大云服务提供商也在积极建设新型数据中心。截至2022年,阿里云在全球27个国家及地区运营着84个可用区(一个可用区是一个或多个物理数据中心的集合),包括乌兰察布、张北、南通、杭州、河源五大超级数据中心,不久后还将在中国建设10座超级数据中心。腾讯云在中国、亚太、美洲、欧洲共计27个地理区域运营着71个可用区,在中国有清远、贵安七星、天津、上海青浦、重庆五大超级数据中心。百度智能云在北京、保定、阳泉、西安、武汉、南京、苏州、广州、中国香港等地建设有40余个可用区,其中百度云计算(阳泉)中心是新型数据中心的典型案例。华为在贵安、乌兰察布南北两地布局了两大云数据中心,同时在京津冀、长三角、粤港澳地区布局了三大核心数据中心。这些新型数据中心不仅满足企业自身和行业用户对大数据存储、智能云边计算、高速网络互联等服务的需要,也为附近地区的用户提供数据就近存储、服务就近访问的优质服务。

这些多地域广泛分布的新型数据中心在就近服务用户、降低服务延迟、提高用户体验的同时,也不可避免地面临数字和算力资源分散等客观限制。一方面,对于数字资源,边缘用户数据就近存储在该地区的数据中心,形成数字资源异地存储的局面。若将这些离散大数据集中迁移到一个数据中心,则庞大的数据流量很容易溢满通信资源有限的广域网络,影响其他通信业务的正常传输,并且迁移如此大量的数据也需要漫长的传输时间,对中央数据中心的入口网络和存储容量都提出了极大的挑战。另外,数据隐私和主权的相关法律法规也约束了用户数据的传输行为。2016年,欧盟通过《通用数据保护条例》(General Data Protection Regulation,GDPR) [131] ,规定“个人数据应受到合理的安全保护措施之保障,以防止丢失或未经授权的访问、破坏、使用、修改或披露数据等风险”。2021年,中华人民共和国第十三届全国人民代表大会常务委员会第三十次会议通过《中华人民共和国个人信息保护法》 [132] ,明确规定“任何组织、个人不得非法收集、使用、加工、传输他人个人信息,不得非法买卖、提供或者公开他人个人信息;不得从事危害国家安全、公共利益的个人信息处理活动”。这些法律法规严格约束数字信息的跨主体共享和出入境传输,在为传统的集中式数据处理带来限制和挑战的同时,也为更安全的离散数据隐私计算迎来了巨大的发展机遇。

另一方面,尽管新型数据中心的算力算效已经得到空前提升,但是业界仍不满足于单独的数据中心的局限算力,希望融合异地多中心的算力资源,打造覆盖全国的一体化超强算力基石。为此,《行动计划》指出,要支持国家枢纽节点内新型数据中心集群间的网络直连,促进跨网、跨地区、跨企业的数据交互;同时推动边缘数据中心之间,边缘数据中心与新型数据中心之间的组网互联,促进云、数、网协同发展。2021年,国家发展改革委等部门研究制定《全国一体化大数据中心协同创新体系算力枢纽实施方案》 [133] ,要求政府部门和企事业单位整合内部算力资源,对集群和城区内部的数据中心进行一体化调度,实现进一步打通跨行业、跨地区、跨层级的算力资源,构建算力服务资源池的愿景。这一系列举措将有力推动异地数据中心互联互通,构建数据中心、云计算、大数据一体化的新型算力网络体系。对此,中国移动表示,将对接国家“东数西算”部署,深化顶层设计,完善全网算力服务资源池、网络互联互通等规划建设方案;在骨干传输网络转型方面,将依托“4+3+X”数据中心布局,按需部署网络节点、增设直连链路、调整组网架构,实现移动云中心节点间全互联组网。

面向地域分散的多数据中心对融合离散大数据和云网算力的迫切需求,跨数据中心分布式机器学习应运而生,旨在提供异地多中心的分布式协同数据挖掘能力,攻克跨数据中心训练加速等核心关键技术,突破数据中心之间的数据屏障和通信壁垒,为政企研用户提供高性能的跨数据中心联合数据挖掘平台。

1.2.2 基本架构

跨数据中心分布式机器学习是一种面向多个异地分布数据中心的计算机集群的分布式机器学习技术,旨在不迁移训练数据的前提下,联合多个数据中心的数字和算力资源进行数据挖掘,以在更短的时间内训练得到更高质量的机器学习模型。跨数据中心分布式机器学习的场景架构如图1-22所示。在多数据中心场景下,数据中心异地分布在不同的地理区域,它们可能是云数据中心,也可能是边缘数据中心。这些数据中心之间可以通过Internet网络互联、使用专线互联或使用光纤直连,但考虑到跨地域数据中心之间远距离传输的高昂专线、光纤布线成本,常规数据中心之间仍通过有限带宽的广域网络实现互联互通。每个数据中心拥有高性能计算机集群,数据和算力天然分布在各台计算机上,计算机之间通过大带宽的数据中心局域网络互联。

图1-22 跨数据中心分布式机器学习场景架构

在分布式机器学习的通用范式下,计算机使用本机训练数据计算模型更新(如模型梯度),再通过通信网络交换模型更新以实现模型同步。但是,传统的分布式机器学习主要面向单数据中心场景,模型同步只需在数据中心内部进行,而跨数据中心分布式机器学习则需要跨越数据中心的内外部网络。于是,模型更新需要先在数据中心内部进行同步,然后在数据中心之间进行同步,这意味着系统性能会受到数据中心间有限带宽广域网络的制约。

对于数据中心内部,仍可以借助1.1.4节所述的通信范式进行高效模型同步。而对于数据中心之间,三种典型的通信拓扑如图1-23所示。中心化的典型代表是星形拓扑,即存在一个枢纽中心,其他数据中心的模型更新都往枢纽中心汇聚 [134] 。另一类是数据中心之间全连接的去中心化通信拓扑,每个数据中心都向其他所有数据中心发送模型更新 [135] 。第三类拓扑设计利用了覆盖网络的概念,由于近邻数据中心之间拥有比远端数据中心更理想的传输带宽,Gaia将近邻数据中心归为一组,组内的数据中心之间以去中心化方式交换模型更新,同时每个组选出一个枢纽中心,负责聚合组内数据中心的模型更新,并将其与远端组的枢纽中心进行交换 [136] 。除此之外,Gossip异步去中心化通信范式也可用于数据中心之间的模型同步。

图1-23 三种典型的通信拓扑

1.2.3 面临的关键挑战

面对海量而分散的训练数据和算力,如何实现高性能的跨数据中心分布式机器学习成为推动人工智能持续发展和大规模落地的关键。在传统的面向单个数据中心的分布式机器学习系统中,近年来网络领域的研究者积极探索了其中的通信加速技术,并已研发出一些理论和优化设计。总体来说,这些设计在单数据中心的理想集群环境中取得了突破性成果,但它们在集群环境或更加恶劣且复杂的跨数据中心场景下存在明显局限。例如,TensorFlow、MXNET、PyTorch等主流开源系统均未针对跨数据中心场景进行优化设计,而在三个先进分布式机器学习系统Bösen、IterStore、GeePS上开展的实验表明,尽管仅在两个数据中心之间运行这些系统,但相比于单数据中心的理想环境,训练时间增长为原来的1.8~53.7倍 [136] ,观测到明显的性能下降。本书的第2章也得到了类似的实验结论。这是因为,随着新型数据中心内部算力和带宽的飞速提升,跨数据中心模型同步的通信效率越发明显地成为分布式机器学习系统的主要性能瓶颈。因此,亟须对跨数据中心的网络传输技术进行创新,进一步优化参数交换的通信性能。具体来说,跨数据中心分布式机器学习面临以下三个关键挑战。

1.数据中心间可用传输带宽有限,周期性的大流量通信引发通信瓶颈

对于多数据中心的网络互联技术,位于同一城市的数据中心之间可以采用密集型光波复用技术和裸光纤直连方式实现物理链路上的互联互通。但是,异地数据中心传输距离远,不具备光纤直连的条件,常租用广域网专线进行连接。另外,即使是同城数据中心,也仅部分合作数据中心之间实现了光纤直连,多数数据中心仍需通过广域网线路传输数据。据真实测量结果,两两数据中心之间的网络带宽通常仅有50~155Mbps [136] 。可以看出,不及数据中心内1~100Gbps的大带宽局域网络,数据中心之间的可用传输带宽非常有限,而跨数据中心分布式机器学习需要周期性同步模型参数,这给数据中心之间的广域网线路造成极大压力。据测试,在新加坡和圣保罗两地的数据中心之间运行最先进的IterStore和Bösen系统,相比在单独的数据中心内部运行,运行收敛时间分别增长到了23.8倍和24.2倍 [136] 。随着模型规模的急剧增加,数据中心之间需要同步的参数量愈发庞大,将导致更严重的通信瓶颈和网络拥塞。

2.数据中心间算力和网络资源差异分布且动态时变,易产生同步阻塞,拉低系统效率

数据中心的机器设备由需求方集中采购,涵盖计算机(含高性能GPU计算卡)、数据存储设备、网络交换机等众多部件,每次集中采购的设备数量庞大、价格昂贵,少则数千万元,多则数亿元,且每年都要进行老旧设备替换等维护工作。这种集中采购行为使得数据中心内部的设备算力和网络带宽总体呈现出同质分布的特点。在分布式机器学习中,计算节点利用本地数字和计算资源并行训练本地模型副本,这些副本将通过通信网络同步上传到参数服务器,用以聚合并更新全局模型参数。在数据中心内部的理想环境下,计算节点的计算和传输步调可以保持相对同步,参数服务器能按时收齐所需模型副本并开始后续处理。然而,对于不同的数据中心,需求方招标要求的设备配置不会完全相同,这导致了集群算力算效的差异。其次,不同数据中心之间的网络带宽也存在差异,例如,美国东部的异地数据中心之间平均网络带宽为148Mbps,而西部仅为21Mbps [137] 。这种计算和通信资源分布的差异称为系统异构性(或资源异构性)。

异构资源使得不同数据中心的计算和传输步调不尽相同,而其中算力弱、带宽小的数据中心成为掉队者,使其他数据中心陷入等待,产生同步阻塞现象。系统异构度越强,同步阻塞时间越长,也就越加拖慢模型同步的完成时间和拉低系统的整体训练效率。另外,数据中心和广域网络并不是分布式机器学习的专有环境,数据中心内部的计算资源也要服务于其他计算业务,广域网络中的带宽资源也要分配给其他通信业务,受到多业务竞争的影响,可用的计算和网络资源随时在变化,这种系统资源的动态时变特性使得系统异构度更加难以估计和预测,并可能进一步加重同步阻塞。因此,需要研究面向跨数据中心动态异构集群环境的新型同步和调度技术,降低模型同步阻塞延迟,解决掉队者难题。

3.数据中心之间数字资源相互隔离,数据分布存在统计异构性

用户终端产生的数据就近存储在地区的数据中心,相互隔绝形成数据孤岛。受不同用户群体、不同地区文化的影响,这些数据中心管辖用户的喜好和行为方式存在差异,这种偏好直接反应在不同数据中心的用户数据分布上,并影响跨数据中心分布式机器学习的模型性能表现。业界将这种差异分布的数据称为非独立同分布数据,数据分布的异构性称为数据统计异构性。研究表明,如果处理不当,此种非独立同分布数据将致使训练模型低能且低效 [138] 。该难题同时也是联邦学习 [139] 的研究热点,但一直没有得到较好的解决。

实际上,在分布式机器学习领域,如何优化模型传输的通信开销、如何协调模型同步的运行步调、如何改善训练模型的性能表现一直是工业界和学术界重点关注的三大研究问题。近年来,学术界陆续提出新型参数同步架构、参数压缩量化等通信优化方案,但通信优化的技术覆盖面广泛,仍存在较大的提升空间。另外,在现有研究的基础上,如何进一步扩展到跨数据中心分布式机器学习中更复杂的广域通信网络环境,也是广大研究者需要持续努力解决的关键问题。请注意,隐私计算和系统安全也是需要重点关注的问题,但本书不重点讨论它们,感兴趣的读者可以自行参阅相关文献。 Avk8RL+TVtIoaVjfpenEFxKR1W7NzWEeW9cCc9XdRQq9avWKcd23g23v0Fj85UYI

点击中间区域
呼出菜单
上一章
目录
下一章
×