Ascend C异构并行程序设计：昇腾算子编程指南最新章节_苏统华著

1.1　Atlas硬件计算平台

扫码观看视频

昇腾AI处理器面向云—边—端全场景，可以提供强大的算力支持，不仅能满足加速海量目标推理过程的需求，也能提供大规模、复杂模型在海量数据上训练所需要的计算密集型算力。昇腾AI处理器包括集群、服务器、加速卡、智能小站、加速模块等形态各异的产品，一起构成了Atlas系列硬件产品，它们是华为面向云—边—端全场景布局的AI基础设施方案，如图1-1所示。用户可以在硬件产品上搭建特定的Atlas硬件计算平台。

图1-1　Atlas系列硬件产品

目前，已发布Atlas 200 AI加速模块、Atlas 500智能小站、Atlas 300 AI加速卡、Atlas 800 AI服务器，以及Atlas 900 AI集群，可广泛用于平安城市、智能交通、智能医疗、智能零售、智能金融等领域。接下来将重点介绍与大模型训练相关的Atlas服务器和Atlas集群。

1.1.1　Atlas服务器

华为提供了基于昇腾AI处理器和鲲鹏/英特尔CPU处理器平台的Atlas服务器，分为推理服务器和训练服务器。Atlas推理服务器采用标准2U服务器形态，如图1-2所示。它集AI推理、存储和网络于一体，可以容纳最大8张昇腾AI推理CPU卡，提供最大704 TOPS int8的推理性能，可用于视频分析、光学字符识别（Optical Character Recognition，OCR）、精准营销、医疗影像分析等推理服务。

图1-2　Atlas推理服务器

Atlas训练服务器采用标准4U服务器形态，如图1-3所示。它通过PCI-e接口集成8个昇腾AI训练处理器，提供2.24 PFLOPS@ FP16的大算力，最大整机功率为5.6 kW，支持风冷和水冷两种散热方式，可广泛应用于深度学习模型的开发和训练。Atlas训练服务器适用于智慧城市、智慧医疗、天文探索、石油勘探等需要大算力的领域。

图1-3　Atlas训练服务器

另外，华为面向边缘应用需求还推出了Atlas边缘服务器，如图1-4所示。它采用标准2U服务器形态，集AI推理、存储和网络于一体，可以容纳最大4张昇腾AI推理CPU卡，提供352 TOPS int8的推理性能。边缘服务器拥有475 mm的短机箱，支持600 mm的短机柜，可以在边缘场景中广泛部署。

图1-4　Atlas边缘服务器

1.1.2　Atlas集群

Atlas集群由数千个昇腾AI训练处理器构成，外形如图1-5所示。Atlas集群通过华为集群通信库和作业调度平台，整合华为缓存一致系统（Huawei Cache Coherence System，HCCS）、PCI-e 4.0和100GE RoCE这3种高速接口，充分释放了昇腾AI训练处理器的强大性能。它的总算力达到256～1024 PFLOPS@ FP16，相当于50万台高性能PC的计算能力。这可以让研究人员更快地进行图像、语音AI模型训练，让人类更高效地探索宇宙奥秘、预测天气、勘探石油及加速自动驾驶的商用进程。

图1-5　Atlas集群

1.1 Atlas硬件计算平台

1.1.1 Atlas服务器

1.1.2 Atlas集群

1.1　Atlas硬件计算平台

1.1.1　Atlas服务器

1.1.2　Atlas集群