超高速以太网测试
优化以太网以满足人工智能与高性能计算网络的需求
“纵向扩展以太网”通常指一种以太网部署架构概念,旨在针对紧密耦合的人工智能(AI)和高性能计算(HPC)领域(例如节点内和机架内环境)的高带宽、低延迟通信进行优化。部分厂商在此基础上更进一步,定义了具体的协议扩展或帧格式,以反映不同的实现方案,从而满足纵向扩展工作负载对性能的严苛要求。
在人工智能(AI)和高性能计算(HPC)领域,以太网被用于连接参与集体运算和同步工作负载的GPU、加速器及其他计算设备。其主要要求包括极高的带宽、可预测的延迟特性,以及在突发流量模式下高度可预测的性能。
随着人工智能系统的规模不断扩大,带宽需求迅速增长,推动以太网链路速率从400G提升至800G,并进一步迈向1.6 Tbps,这得益于新一代224G串行器/解串器(SerDes)技术的应用。与此同时,对延迟的敏感度日益凸显,使得一致性和低抖动与峰值吞吐量同样至关重要。即使传输时序出现微小偏差,也会影响集体操作的效率以及整体训练或推理性能。
因此,对以太网架构的扩展性测试主要侧重于验证带宽扩展效率、延迟确定性以及在短路径和极少跳数条件下的丢包恢复行为。这包括验证Ultra Ethernet功能以及高速物理接口,以确保以太网实现能够可靠地支持在要求严苛的AI和HPC系统中进行高性能的GPU间及加速器通信。
在大型人工智能和高性能计算系统中,以太网被用于连接不同机架间的计算资源,从而构建可扩展至数千个节点的网络架构。这些横向扩展环境支持分布式训练和推理工作负载,其中通信涉及众多设备和交换机跳转,且整体系统性能取决于整个网络的协同行为,而非单个链路。
随着网络规模的扩大,主要挑战已从原始的点对点带宽转向了弹性、拥塞管理以及大规模环境下的公平性。数据包丢失、拥塞热点或链路故障可能会同时影响大量数据流,并扰乱整体运行。在保持共享网络资源高效利用的同时,确保跨多跳的可预测行为,对于维持吞吐量并最大限度地缩短大规模人工智能工作负载的迭代时间至关重要。
为满足这些需求,横向扩展以太网设计通常会采用多种机制,旨在管理拥塞、吸收故障,并在相互竞争的流量流之间保持公平性。 在大型多跳网络架构中,厂商历来通过组合采用队列策略、拥塞控制技术、遥测以及传输优化等方案来应对这些挑战。这些实现方案体现了在规模化环境中实现可靠且高效的以太网运行的不同方法,而“横向扩展以太网”这一术语本身,其关注点仍在于部署特征和工作负载需求,而非任何单一的标准化协议。
Ultra Ethernet 引入了一系列架构机制,旨在提升面向人工智能的以太网架构在可靠性、拥塞处理及恢复行为方面的表现。在横向扩展环境中,这些功能能够与现有以太网技术相辅相成,通过帮助限制数据丢失或拥塞在多跳传输中的传播影响,从而实现更可预测的架构级行为,且无需限定特定的拓扑结构或供应商实现方案。
因此,对横向扩展以太网架构的测试不仅限于验证链路速率或孤立设备的性能。必须在真实的多跳拓扑和分布式流量条件下对网络设备进行评估,以评估其在大规模环境下的拥塞响应、公平性、故障恢复以及互操作性。这包括在验证传统以太网行为的同时测试Ultra Ethernet功能,以确保大型AI和HPC架构在严苛的实际工作负载下能够高效、可靠且可预测地运行。
Ultra Ethernet 正在 Ultra Ethernet 联盟 (UEC)内部进行,该行业合作组织致力于推动以太网技术演进,以更好地满足人工智能和高性能计算(HPC)网络在性能、规模和可靠性方面的需求。
Ultra Ethernet 引入了一套架构机制,旨在提升高速以太网结构中的可靠性、确定性和性能。它并非定义一种全新的协议,而是利用并扩展现有的以太网机制——包括发现、帧结构和编码行为——从而实现更快的丢包恢复、更有效的拥塞处理,以及连接设备之间更佳的协调。
在 Ultra Ethernet 环境中,LLDP 被用作功能发现和网络架构感知的基础机制。Ultra Ethernet 在 LLDP 中引入了专有的类型-长度-值 (TLV) 扩展,允许直接连接的设备广播并协商对 Ultra Ethernet 功能的支持。
这些传输层协议(TLVs)使对等设备能够交换有关支持功能、工作模式和特性适用性的信息,从而在数据流量传输之前就对链路行为达成一致理解。这种能力发现机制有助于确保仅在链路两端均支持Ultra Ethernet增强功能时才应用这些功能,从而促进异构AI和HPC网络架构中可预测且互操作的运行。
链路层重试(LLR)引入了局域化的第2层重试机制,可实现直接连接设备之间丢失的以太网帧的快速恢复。超以太网在利用现有以太网帧结构和编码机制的同时,引入了对符合LLR条件和不符合LLR条件帧的显式标识。
从宏观层面来看,这包括利用前导信号和PCS分组编码指示来区分流量类型,以及使用专用控制帧(CtlOS帧)来协调对等体之间的重传行为。 通过在链路层本地执行重传,LLR 减少了对高层端到端恢复机制的依赖,并限制了瞬时丢包的传播,从而有助于在纵向扩展和横向扩展环境中均保持低延迟和更具确定性的性能。
基于信用的流量控制(CBFC)能够增强以太网架构在AI工作负载中常见的高同步性、大量内投式流量模式下对拥塞的响应能力。Ultra Ethernet 在成熟的以太网拥塞信令概念基础上,引入了设备间更明确、更及时的拥塞和反压通信机制。
通过使拥塞状况能够在更接近发生源头的位置被检测并采取应对措施,CBFC 有助于防止拥塞在网络架构中蔓延,并提升竞争流量之间的公平性。这有助于实现更可预测的性能,并提高共享资源的利用效率,特别是在拥有大量并行流量流的大型 AI 和 HPC 网络架构中。
尽管 Ultra Ethernet 的增强功能在帧、前导码和编码层面上看似细微,但其正确实现对网络架构的行为至关重要。通过 LLDP TLV 进行功能发现、正确识别符合 LLR 条件的流量、准确处理控制帧以及确保 PCS 块编码行为的正确性,这些功能必须在各设备之间实现精确的互操作。
因此,对超以太网的测试不仅限于吞吐量或链路连接验证。必须在以太网帧和符号层面上对网络设备进行验证,以确保在真实的AI流量条件下,这些机制能够正确地进行解码、信号传输和交互。验证这些细节对于在实际运行的AI和HPC网络中实现预期的可靠性、确定性和性能提升至关重要。