人工智能基础设施

Testing networks hosting AI applications

AI has entered the data center

The proliferation of Artificial Intelligence (AI) applications is driving the need optimize data centers to support their specific needs. AI algorithms, especially in deep learning, require significant computational resources and specialized AI infrastructure. These applications also depend on vast datasets and real-time processing capabilities. To meet these needs, data centers use AI accelerators, GPUs, and RDMA technologies, along with high-speed Ethernet connectivity.

脊柱和叶片结构

人工智能网络通常由数千个相互连接的人工智能加速器组成,必须支持大量东西向(服务器到服务器)低延迟无损流量以及尽力而为流量。

脊柱和叶子结构有助于实现这一点。叶型交换机直接连接服务器、存储设备和其他端点,每个叶型交换机都与其他每个脊柱交换机相连,确保高带宽和低延迟。骨干交换机将所有叶子交换机和叶子交换机之间的通信互连起来,但不直接连接终端。这:

  • 最大限度地减少服务器之间的跳数--数据包只经过两个叶子交换机和一个主干交换机,以提供可预测的延迟。
  • 将每个叶交换机直接连接到所有脊交换机,因此网络是无阻塞的。
  • 本质上支持负载平衡,流量分布均匀,以防止瓶颈并确保高吞吐量。
  • 通过添加更多的脊柱和/或叶交换机,可轻松实现扩展。

为测试目的建立一个大型的 "骨干和叶片 "交换机网络既不现实,也很昂贵。然而,使用流量发生器、损伤仿真器和协议分析仪则是一种既简单又经济的替代方法。

以太网远程直接内存访问(RoCE)

RDMA over Converged Ethernet(RoCE)是一种通过以太网网络实现低延迟、高吞吐量数据传输的协议。RoCE 可实现人工智能加速器与存储服务器之间的直接内存访问,最大限度地减少 CPU 的参与并降低延迟。

Managing congestion is essential in AI infrastruture

在人工智能基础设施中,检测和避免拥塞对于保持端到端低延迟和无损性能至关重要。拥塞控制通过优先流量控制(PFC)和显式拥塞通知(ECN)进行管理。

ECN gives an early indication that a queue is starting to fill up and avoids congestion by slowing down the traffic rate of the relevant CoS from the sender. PFC takes congestion control one step further by temporarily stopping traffic of the CoS from the sender. Optimizing an AI network’s performance will typically involve tuning the thresholds Kmin and Kmax for ECN.

How to test congestion in an AI infrastructure

The Z800 Freya Ethernet Traffic Generator can be used to verify if a switch under test handles congestion correctly, and to fine-tune the ECN thresholds for optimal performance. The traffic generators can vary the traffic rates for different priority flows entering the switch’s queues and verify the assertion of PFC, as well as the ratio between packets marked ECN=‘11’ and ‘10’.

Automating advanced test cases and integrating them with your own scripts is easy using our open-source Xena OpenAutomation (XOA) Python API.

人工智能应用网络的常见测试

以下是使用我们的以太网解决方案优化运行人工智能应用的网络性能的常见场景:

回环测试

在测试网卡等设备时,发射器通过网络连接到接收器,如图所示。通过在发送端和接收端之间 插入干扰仿真器,可以改变数据流 例如对数据包进行错误排序和改变延迟。

同时 同时,还可使用协议分析仪捕获数据包头并分析各种字段,如 BTH+ 24 位数据包序列号。 头并分析各种字段,如 BTH+ 24 位数据包序列号。

流量负载测试

例如,使用 Z800Freya 流量发生器向网卡发送 RoCEv2 和其他类型的流量组合,以模拟实际情况。链路利用率最高可调至 100%,以测试 NIC 在满载情况下的性能。

使用 E100 损伤模拟器过滤 RoCEv2 数据包,并通过错误排列数据包、增加延迟或模拟短链路中断等方式对其进行损伤,以评估吞吐量和协议行为。或者测试 SmartNIC 对数据包重新排序和处理延迟变化的能力。

使用 M1288 协议分析器可深入了解数据包标头的所有细节(对于调试协议和查找任何故障的根本原因至关重要)。

交通堵塞

使用 Z800 流量发生器创建各种流量,使用 M1288 干扰器改变或破坏双向流量。更改 RoCEv2 数据包标题中的字段可模拟

在数据包穿越网络时通常会进行重写操作。Jammer 是以线速和各种协议对系统进行压力测试的理想工具,可利用模拟工作负载找出遗漏的问题。

测试人工智能场景中的典型损伤

E100Chimera 网络模拟器可测试典型人工智能网络损伤(如不同的延迟、抖动、链路翻转和数据包错序)对性能的影响。如图所示,只需将 E100Chimera 插入流量发生器(或网卡)和要测试的交换机之间即可。

负载平衡时避免数据包排序错误

我们的人工智能基础设施解决方案

范围广泛的测试模块

Xena 提供一系列测试模块,用于测试从 10Mbps 到 800Gbps 的所有以太网速度。

我们的Z800Freya 产品系列包括基于 112G SerDes 和 PAM-4 的最新以太网技术。为测试和调试 AN/LT 协议,我们提供专用的 Z800Freya 紧凑型 ANLT 测试设备。

易于使用的软件

Xena测试解决方案包括功能丰富的软件,用于生成以太网流量和分析结果。主要工具是XenaManager

此外,还有用于运行RFC2544RFC2889RFC3918Y.1564 等标准测试的测试套件,以及专门的AN/LT 测试和一系列功能强大的脚本和测试自动化选项,如Xena OpenAutomation (XOA),这是一个开源测试自动化框架,采用 Python API,可在任何操作系统上运行。

强大的机箱选择

您可以选择坚固耐用、可扩展的 4UXenaBay(最多可容纳 12 个测试模块),也可以选择体积小、便于运输的 1UXenaCompact(仅容纳一个测试模块)。

非凡的价值

我们的所有解决方案都包含Xena 超值包,其中包括 3 年软件更新、3 年硬件保修、产品终身免费在线/邮件支持和免费产品培训。

再加上我们的低端口定价,这意味着您的以太网流量生成和分析解决方案的总拥有成本可以大大节省。

信雅纳解决方案

...用于测试人工智能基础设施

白皮书

...对于这个行业