人工智能基础设施

测试托管人工智能应用程序的网络

人工智能已进入数据中心

人工智能(AI)应用的迅猛发展正在重塑数据中心的规划与优化模式。现代AI工作负载——尤其是大型语言模型(LLMs)和深度学习——需要海量计算能力、庞大数据集以及网络中极低延迟的数据传输。为满足这些严苛要求,数据中心依赖AI加速器、GPU以及各类高性能互连技术。 这些技术包括基于无损以太网的传输方案(如RoCEv2和超以太网传输UET),以及非以太网结构(如InfiniBand),它们均致力于实现低延迟与高带宽的双重目标。结合新一代高速以太网链路(速率可达1.6 Tbps),该基础设施使AI系统能够实时处理数据,并在分布式计算环境中高效扩展。

为确保网络硬件在规模化环境中可靠运行,运营商和制造商需要基于真实硬件的测试。然而,构建全规模测试网络成本高昂且耗时,这促使业界迫切需要高效的硬件测试工具。

脊柱与叶片拓扑结构

人工智能集群通常由数千个互联的加速器组成,这些加速器会产生大量东西向无损流量,且具有严格的低延迟要求。脊叶网络拓扑通过提供可预测的高带宽连接来支持这种需求。叶交换机直接连接服务器和存储设备,同时每个叶节点都与所有脊交换机相连。这种设计能最大限度减少跳数、防止阻塞、实现高效负载均衡,并在增加更多交换机时轻松扩展。

InfiniBand

InfiniBand是一种专用高性能网络技术,因其超低延迟和极高带宽而广泛应用于高性能计算(HPC)和人工智能集群。与基于以太网的传输技术不同,InfiniBand采用专用的无损结构、硬件卸载和自适应路由机制,能够在大规模环境中提供稳定的性能表现。

以太网远程直接内存访问(RoCE)

融合以太网上的RDMA(RoCE)技术可在以太网网络中实现低延迟、高吞吐量的数据传输。通过支持AI加速器、服务器与存储设备之间的直接内存访问,RoCE减少了CPU参与度,降低了延迟,并满足了大规模AI训练工作负载的实时性能需求。

超以太传输(UET)

超以太网传输技术通过增强标准以太网功能,为人工智能和高性能计算环境提升拥塞控制、可靠性及传输层性能。其具备链路层重试(LLR)、信用流控制(CBFC)及先进链路协商机制等特性,可在现代人工智能集群典型的极端流量模式下,确保链路层实现确定性低延迟、高效的大规模负载均衡以及弹性性能。

以太网远程直接内存访问(RoCE)

RDMA over Converged Ethernet(RoCE)是一种通过以太网网络实现低延迟、高吞吐量数据传输的协议。RoCE 可实现人工智能加速器与存储服务器之间的直接内存访问,最大限度地减少 CPU 的参与并降低延迟。

AI & UE Solution Track icon

Verify, optimize, and test the robustness of UE Link Layer functionality with our AI & UE Solution Track.

在人工智能基础设施中,拥塞管理至关重要。

在人工智能基础设施中,检测和避免拥塞对于保持端到端低延迟和无损性能至关重要。拥塞控制通常通过优先级流控制(PFC)和显式拥塞通知(ECN)来管理。

ECN能提前提示队列开始填满,通过降低发送方相关服务等级(CoS)的流量速率来避免拥塞。而PFC则将拥塞控制进一步升级,通过暂时停止发送方该服务等级的流量传输。优化AI网络性能通常需要调整ECN的阈值Kmin和Kmax。

如何测试人工智能基础设施中的拥塞

Z800Freya 生成器可用于验证待测交换机是否正确处理拥塞,并通过精细调整ECN阈值实现最佳性能。该流量生成器能为进入交换机队列的不同优先级流量流设置可变速率,同时验证PFC的有效性,以及标记为ECN=‘11’与‘10’的数据包比例。

使用我们的开源 Xena (XOA) Python API

人工智能应用网络的常见测试

以下是使用我们的以太网解决方案优化运行人工智能应用的网络性能的常见场景:

测试 s场景 用于人工智能与高性能计算 n网络 基础设施

验证人工智能与高性能计算网络的性能和可靠性,需要对技术栈的多层架构进行测试。现代集群互连系统运行于极高速度,依赖先进的物理层设备和收发器,并包含复杂的链路层行为,这些特性必须在部署前得到全面表征。以下测试场景展示了基于硬件的测试解决方案如何模拟真实数据中心环境,并验证端到端性能。

物理层验证

高速电光接口的物理层在PCS、PMA和PMD子层中集成了多种先进特性,包括前向纠错、PCS通道分配、均衡设置以及自动协商和链路训练。 这些参数直接影响112G和224G链路的可靠性,必须经过全面测试与调优才能实现最佳误码率(BER)性能。由于测试过程常需在物理层与数据链路层间切换,采用Z1608 Edun等流量生成器尤为重要——该设备融合了先进的L1控制功能与全面的L2能力。

数据与协议的验证与故障排除

测试设备如SierraNet M1288协议分析仪通过实时捕获数据提供详细可见性,使供应商能够排查错误,包括互操作场景中出现的故障。典型分析包括检查ECN位、PFC位、UEC前导格式以及PCS子层的控制指令集,同时还能分析链路上传输的帧序列。 M1288还支持用户向帧中注入错误,以评估被测设备对故障状况的处理能力。

终端仿真与流量负载测试

测试还必须支持UEC合规性流程,以验证交换机和网卡之间的互操作性。 测试设备(如Z1600 Edun流量分析仪)可作为具备UEC功能的终端运行。这使得在真实流量场景中评估诸如基于LLDP的链路协商、链路层重试(LLR)及基于信用的流量控制(CBFC)等特性成为可能。通过模拟实际UET设备,测试人员可在无需接入大规模生产网络的情况下,验证负载条件下的时序、协议行为及系统稳定性。

Teledyne LeCroy 在以太网网络上Teledyne LeCroy 人工智能应用

负载平衡时避免数据包排序错误

我们的人工智能基础设施解决方案

广泛的测试模块

Xena 一系列测试模块,用于测试从10Mbps到1.6Tbps的所有以太网速率。

我们的产品线涵盖最新以太网技术,Z1608 Edun系列搭载224G基准的SerDes和PAM-4技术。针对10Mbps至800Gbps速率 测试(支持10G/25G NRZ及56G/112G PAM4 ),我们 提供 Z800Freya 产品线

易于使用的软件

我们的测试解决方案包含功能丰富的软件,用于 生成以太网流量并深度 分析测试结果。这些软件解决方案 在所有测试模块和速度下均 保持统一 ,确保 无论硬件配置如何,用户都能获得一致的 体验核心工具是XenaManager

此外还提供用于运行标准测试的测试套件,例如RFC2544RFC2889RFC3918和Y.1564,以及专门的AN/LT测试,同时配备全面强大的脚本编写和测试自动化选项,Xena (XOA)——这款开源测试自动化框架采用Python API,可在任何操作系统上运行。

坚固的底盘选择

可选择坚固且可扩展的4UXenaBay机架,最多可容纳12个测试模块;或选择小巧便携的1UXenaCompact机架,仅配备单个测试模块。

超值

所有解决方案均Xena 包,内含三年软件更新、三年硬件保修、产品使用期内的免费在线/邮件支持以及免费产品培训。

结合我们低廉的端口定价,这将为您的以太网流量生成与分析解决方案带来显著的总体拥有成本节省。

白皮书

...对于这个行业