人工智慧基礎設施

測試託管人工智慧應用的網路

人工智慧已進入資料中心

人工智慧(AI)應用的快速發展正重塑資料中心的設計與優化模式。現代AI工作負載——尤其是大型語言模型(LLMs)與深度學習——需要龐大的運算能力、海量資料集,以及網路中極低延遲的資料傳輸。為滿足這些嚴苛需求,資料中心仰賴AI加速器、GPU及一系列高效能互連技術。 這些技術包含基於無損乙太網路的傳輸方案(如RoCEv2與超乙太網路傳輸UET),以及非乙太網路架構(如InfiniBand),皆專為實現低延遲與高頻寬而設計。結合可達1.6 Tbps的次世代高速乙太網路鏈路,此基礎架構使AI系統得以即時處理數據,並在分散式運算環境中高效擴展。

為確保網路硬體在規模化運作時能穩定可靠,營運商與製造商需要基於實體硬體的實境測試。然而,建置全尺寸測試網路既耗費成本又耗時費力,這促使業界亟需高效能的硬體測試工具。

脊柱與葉片拓撲結構

人工智慧叢集通常由數千個相互連接的加速器組成,這些加速器會產生大量嚴格要求低延遲的無損東西向流量。脊葉式網路拓撲透過提供可預測的高頻寬連線來支援此需求:葉型交換器直接連接伺服器與儲存裝置,同時每個葉型交換器皆與所有脊型交換器相連。此架構能最小化跳數、防止阻塞、實現高效負載平衡,並隨著交換器數量增加而輕鬆擴展。

InfiniBand

InfiniBand 是一種專用高效能網路技術,因其超低延遲與極高頻寬而廣泛應用於高效能運算(HPC)與人工智慧(AI)叢集。不同於基於乙太網路的傳輸技術,InfiniBand 採用專用無損架構、硬體卸載技術及自適應路由機制,能在大規模環境中提供穩定一致的效能表現。

以太網遠端直接記憶體存取 (RoCE)

融合乙太網路上的遠端記憶體存取(RoCE)技術,可在乙太網路環境中實現低延遲、高吞吐量的資料傳輸。透過在人工智慧加速器、伺服器與儲存裝置間建立直接記憶體存取通道,RoCE能減少CPU介入、降低延遲,並滿足大規模人工智慧訓練工作負載對即時效能的需求。

超乙太傳輸(UET)

超乙太網路傳輸技術透過強化標準乙太網路功能,為人工智慧與高效能運算環境提升擁塞控制、可靠性及傳輸層效能。其具備鏈路層重試(LLR)、信用式流量控制(CBFC)及進階鏈路協商機制等特性,能確保在現代人工智慧叢集常見的極端流量模式下,於鏈路層實現確定性低延遲、高效大規模負載平衡及韌性表現。

以太網遠端直接記憶體存取 (RoCE)

融合乙太網路上的遠端記憶體存取(RDMA over Converged Ethernet, RoCE)是一種協議,可透過乙太網路實現低延遲、高吞吐量的資料傳輸。RoCE使人工智慧加速器與儲存伺服器之間能夠直接存取記憶體,從而最大限度地減少CPU參與並降低延遲。

AI & UE Solution Track icon

Verify, optimize, and test the robustness of UE Link Layer functionality with our AI & UE Solution Track.

管理擁塞對人工智慧基礎設施至關重要

偵測與避免壅塞對於維持人工智慧基礎架構中端到端的低延遲與無損效能至關重要。壅塞控制通常透過優先級流量控制(PFC)與顯式壅塞通知(ECN)來管理。

ECN 會預先提示傳輸佇列開始填滿,並透過降低發送方相關服務等級(CoS)的流量速率來避免擁塞。而 PFC 則將擁塞控制進階化,透過暫時停止發送方該服務等級的流量來實現。優化人工智慧網路的效能時,通常需針對 ECN 的閾值 Kmin 與 Kmax 進行調校。

如何測試人工智慧基礎架構中的壅塞狀況

Z800Freya 驗證受測交換機是否正確處理擁塞,並微調 ECN 閾值以實現最佳效能。該流量產生器可變更進入交換機佇列的不同優先級流量速率,同時驗證 PFC 的觸發狀態,以及標記為 ECN=‘11’與‘10’的封包比例。

運用我們的開源 Xena (XOA) Python API

常見的AI應用程式託管網路測試

以下是常見情境,說明如何運用我們的乙太網路解決方案來優化運行人工智慧應用的網路效能:

測試 s情境 適用於人工智慧與高效能運算 n網路 基礎架構

驗證人工智慧與高效能運算網路的效能與可靠性,需對技術堆疊的多個層級進行測試。現代叢集互連技術運作於極高速環境,仰賴先進的物理層元件與收發器,並包含複雜的鏈路層行為,這些特性必須在部署前完成全面特性分析。以下測試情境展示了基於硬體的測試解決方案如何模擬真實資料中心環境,並驗證端到端效能。

物理層驗證

高速電介面與光介面的物理層涵蓋PCS、PMA及PMD子層的多項先進特性,包括前向錯誤校正、PCS通道分配、均衡設定,以及自動協商與鏈路訓練。 這些參數直接影響112G與224G鏈路的可靠性運作,必須經過徹底測試與調校方能實現最佳誤碼率(BER)表現。由於測試常需在物理層與數據鏈路層間切換,此時採用Z1608 Edun等流量產生器尤為關鍵——該設備融合了先進的L1控制功能與全面的L2能力。

驗證與排除資料及通訊協定的故障

測試設備如SierraNet M1288協定分析儀,透過即時擷取數據提供詳盡的可視性,使供應商能排除各種錯誤,包括互通性情境中產生的問題。典型分析項目包含檢視ECN位元、PFC位元、UEC前導格式,以及在PCS子層的控制指令集,同時檢視鏈路上傳輸的幀序列。 M1288還允許使用者向幀中注入錯誤,以評估被測設備如何處理故障狀況。

終端點模擬與流量負載測試

測試還必須支援UEC合規程序,以驗證跨交換器與網路介面卡的互通性。 測試設備如Z1600 Edun流量分析儀可作為具備UEC功能的終端設備運作。此功能能在真實流量情境中評估諸如:使用LLDP進行鏈路協商、鏈路層重試(LLR)及基於信用的流量控制(CBFC)等特性。透過模擬實際UET設備,測試人員無需接入大型生產網路,即可驗證負載下的時序、協議行為及系統穩定性。

Teledyne LeCroy 於乙太網路Teledyne LeCroy 人工智慧應用Teledyne LeCroy

避免負載平衡時發生封包順序錯誤

我們的人工智慧基礎架構解決方案

廣泛的測試模組

Xena 一系列測試模組,可測試從10Mbps至1.6Tbps的所有乙太網路速度。

我們的產品系列包含採用224G基頻SerDes與PAM-4技術的最新乙太網路解決方案,適用於Z1608 Edun產品線針對10Mbps至800Gbps 的測試需求,我們 提供 支援10G/25G NRZ及56G/112G PAM4 Z800Freya 產品線

易於使用的軟體

我們的測試解決方案包含功能豐富的軟體,可 生成乙太網路流量並 對測試結果 進行深度 分析。這些軟體解決方案 在所有測試模組與速度下皆 保持統一 ,確保 無論硬體配置如何,使用者皆能獲得一致的 體驗核心工具為XenaManager

此外,還提供執行標準測試的測試套件,例如RFC2544RFC2889RFC3918Y.1564,以及專用的AN/LT 測試,並配備全面且強大的腳本編寫與測試自動化選項,例如Xena (XOA)——這是一個開源測試自動化框架,具備 Python API,可在任何作業系統上運行。

堅固的底盤選擇

可選擇堅固耐用且可擴充的4UXenaBay機箱,最多可容納12個測試模組;或選擇體積小巧、便於攜帶的1UXenaCompact機箱,僅配備單一測試模組。

非凡價值

所有解決方案均包含「Xena 套裝」,內容涵蓋:- 三年軟體更新- 三年硬體保固- 產品使用期間免費線上/電子郵件技術支援- 免費產品培訓

結合我們低廉的端口定價,這將為您的乙太網路流量生成與分析解決方案帶來顯著的總擁有成本節省。

白皮書

……對於這個行業