CXL体系结构：高速互连的原理解析与实践最新章节_李仁刚著

1.1 CXL的产生背景

在当今高速发展的信息时代，随着新型应用的激增和计算需求的不断增长，传统架构面临着巨大挑战，也推动着技术不断革新。本节将深入探讨CXL的产生背景，分析传统互连总线的局限性，以帮助读者更好地理解CXL在高速互连方面的潜在优势。

1.1.1 新型应用需求飞速增长

近年来，大数据和人工智能（AI）等前沿技术飞速发展，已广泛应用于生活的各个领域。例如，社交媒体平台需要处理海量用户上传的图像、视频和文字内容，为用户提供个性化的推荐和广告；金融领域中的高频交易需要快速处理大量交易数据并进行实时决策；而在生命科学领域，基因组学研究可能会涉及对数以万计的基因进行分析和模拟，以便研究疾病和药物相互作用。

这些新型数据密集型应用的数据存储量和处理量相当庞大。例如，就人工智能大语言模型而言，GPT-3 175B包含了1750亿个参数，如果使用4字节表示每个参数，那么要存储这些参数，共需占用700GB（175×4×10 ⁹ ）的存储空间。在模型训练阶段，每个可训练的参数会对应一个梯度参数与两个优化器状态参数（例如Adam优化器中的一阶、二阶动量）以及计算过程中的激活值，此时模型运行所占用的存储空间将成倍增加；在模型推理过程中，即便可以通过模型量化等方法减少显存占用，但在有着大量用户的高并发处理场景中，存储和处理的数据量依旧庞大，这无疑需要耗费更多的算力，占用更多的内存。

1.1.2 多元化计算架构需求旺盛

谈到充分满足各种应用的计算需求，相比通用处理器，高性能专用芯片通常可以实现数倍甚至数十倍的算力提升，但是制造高性能专用芯片需要复杂的工艺流程，高端芯片的发展也受到制程工艺的制约。同时，随着摩尔定律推进速度放缓、登纳德缩放定律的逐渐失效、阿姆达尔定律的充分挖掘，CPU性能提升的难度越来越大。CPU架构主要面向广泛的通用计算场景，不适合人工智能等领域的高并发密集的向量、张量计算。面对指数级提升的算力需求和密集多样的计算需求，单纯依赖CPU一种计算架构显然是不行的。

结合不同架构计算单元的异构计算因可以带来显著的性能提升而成为主流计算模式。与此同时，大量算力基础设施涌现，如搭载专用加速器且具备强大计算能力的人工智能服务器、大规模集群服务器并行工作以处理海量数据的数据中心，以及资源共享的云计算平台等。这些系统提供灵活且可扩展的计算、存储资源，并实现资源之间的高效通信，对实现异构处理器高效协同工作以及高性能计算至关重要。

1.1.3 PCIe鞭长莫及

如图1-1所示，研究表明，过去20年里，硬件峰值计算能力提高了60000倍，内存带宽提高100倍，互连带宽却只提高了30倍。硬件计算性能、访存带宽、互连技术发展不匹配，使得“内存墙”和“输入/输出（I/O）墙”问题日趋严重。

图1-1 硬件峰值计算能力、内存带宽及互连带宽的对比

（引自论文“AI and Memory Wall”. Gholami A, Yao Z, Kim S, et al. AI and Memory Wall [J]. IEEE Micro, 2024, 44(3): 33-39）

此外，如图1-2所示，随着CPU中核的数量越来越多，每个核对应的内存通道带宽会越来越小，系统性能提升就会受限。

图1-2 CPU核数及内存带宽发展

PCIe（Peripheral Component Interconnect express）是一种常用的高速互连总线标准，可用于实现计算机内部各种设备（如加速器、网卡、存储设备等）间的通信。对于PCIe架构下的普通服务器，内存（一般是DDR）必须通过内存总线及内存控制器连接到CPU、GPU、DPU等设备，由这些设备独享。在当前CPU的所有内存通道都被占满后，如果需要更多内存来处理大量工作负载，就不得不向系统添加一个CPU从而提高内存容量，这可能会导致CPU的计算能力未得到充分利用。也就是说，这种PCIe基础架构无法有效、灵活地扩展。关于这一点，超大规模数据中心用户的感受尤为深刻。例如，微软Azure的数据中心内，当所有处理器核心被分配给虚拟机之后，仍有25%的DRAM资源因未被配置而处于闲置状态，从而造成内存资源浪费。造成此类问题的根本原因是PCIe并不支持主机对设备的内存语义访问，即通过PCIe连接的设备内存无法映射到系统一致性内存空间，从而难以直接用作内存的灵活扩展。

PCIe在许多数据处理场景下表现出色，其中直接存储器访问（Direct Memory Access，DMA）技术可以实现旁路CPU的数据复制，减少通信开销。但是加速器访问一块主存数据需要将其从主存搬移至加速器，并部署软件机制，以防CPU和加速器对其同时访问。在人工智能、深度学习等需要大量计算和数据传输的高性能计算领域，频繁的数据访问可能会使PCIe的延迟和带宽成为系统性能瓶颈。在这些场景中，加速器更希望借助本地缓存与CPU同时访问相同数据结构部分，而无须来回移动整个数据结构，即可以采用一致性数据访问方式来提高访存速度和进行高速数据处理。