扫码观看视频
昇腾AI处理器面向云—边—端全场景,可以提供强大的算力支持,不仅能满足加速海量目标推理过程的需求,也能提供大规模、复杂模型在海量数据上训练所需要的计算密集型算力。昇腾AI处理器包括集群、服务器、加速卡、智能小站、加速模块等形态各异的产品,一起构成了Atlas系列硬件产品,它们是华为面向云—边—端全场景布局的AI基础设施方案,如图1-1所示。用户可以在硬件产品上搭建特定的Atlas硬件计算平台。
图1-1 Atlas系列硬件产品
目前,已发布Atlas 200 AI加速模块、Atlas 500智能小站、Atlas 300 AI加速卡、Atlas 800 AI服务器,以及Atlas 900 AI集群,可广泛用于平安城市、智能交通、智能医疗、智能零售、智能金融等领域。接下来将重点介绍与大模型训练相关的Atlas服务器和Atlas集群。
华为提供了基于昇腾AI处理器和鲲鹏/英特尔CPU处理器平台的Atlas服务器,分为推理服务器和训练服务器。Atlas推理服务器采用标准2U服务器形态,如图1-2所示。它集AI推理、存储和网络于一体,可以容纳最大8张昇腾AI推理CPU卡,提供最大704 TOPS int8的推理性能,可用于视频分析、光学字符识别(Optical Character Recognition,OCR)、精准营销、医疗影像分析等推理服务。
图1-2 Atlas推理服务器
Atlas训练服务器采用标准4U服务器形态,如图1-3所示。它通过PCI-e接口集成8个昇腾AI训练处理器,提供2.24 PFLOPS@ FP16的大算力,最大整机功率为5.6 kW,支持风冷和水冷两种散热方式,可广泛应用于深度学习模型的开发和训练。Atlas训练服务器适用于智慧城市、智慧医疗、天文探索、石油勘探等需要大算力的领域。
图1-3 Atlas训练服务器
另外,华为面向边缘应用需求还推出了Atlas边缘服务器,如图1-4所示。它采用标准2U服务器形态,集AI推理、存储和网络于一体,可以容纳最大4张昇腾AI推理CPU卡,提供352 TOPS int8的推理性能。边缘服务器拥有475 mm的短机箱,支持600 mm的短机柜,可以在边缘场景中广泛部署。
图1-4 Atlas边缘服务器
Atlas集群由数千个昇腾AI训练处理器构成,外形如图1-5所示。Atlas集群通过华为集群通信库和作业调度平台,整合华为缓存一致系统(Huawei Cache Coherence System,HCCS)、PCI-e 4.0和100GE RoCE这3种高速接口,充分释放了昇腾AI训练处理器的强大性能。它的总算力达到256~1024 PFLOPS@ FP16,相当于50万台高性能PC的计算能力。这可以让研究人员更快地进行图像、语音AI模型训练,让人类更高效地探索宇宙奥秘、预测天气、勘探石油及加速自动驾驶的商用进程。
图1-5 Atlas集群