AIインフラストラクチャ

AIアプリケーションをホストするネットワークのテスト

AIがデータセンターに参入した

人工知能(AI)アプリケーションの急速な成長は、データセンターの設計と最適化の方法を変革している。現代のAIワークロード——特に大規模言語モデル(LLM)や深層学習——は、膨大な計算能力、巨大なデータセット、そしてネットワーク全体での極めて低い遅延のデータ移動を要求する。これらの厳しい要件を満たすため、データセンターはAIアクセラレータ、GPU、そして様々な高性能相互接続技術に依存している。 これには、RoCEv2やUltra Ethernet Transport(UET)といったロスレスイーサネットベースのトランスポート技術に加え、InfiniBandのような非イーサネットファブリックが含まれ、いずれも低遅延と高帯域幅の両立を目的として設計されている。最大1.6Tbpsに達する次世代高速イーサネットリンクと組み合わせることで、このインフラはAIシステムが分散コンピューティング環境においてリアルタイムでデータを処理し、効率的にスケールすることを可能にする。

ネットワーク機器が大規模環境で確実に動作するよう保証するには、運用者やメーカーは現実的なハードウェアベースのテストを必要とする。しかし、実規模のテストネットワークを構築するにはコストと時間がかかるため、効果的なハードウェアベースのテストツールが求められる。

脊椎と葉のトポロジー

AIクラスターは、数千の相互接続されたアクセラレータで構成されることが多く、厳格な低遅延要件を伴う大規模な東西方向のロスレストラフィックを生成します。スパイン・アンド・リーフネットワークトポロジーは、予測可能な高帯域幅接続を提供することでこれを支えます。リーフスイッチはサーバーやストレージデバイスに直接接続され、各リーフはすべてのスパインスイッチとリンクされます。これによりホップ数が最小化され、ブロッキングが防止され、効率的な負荷分散が可能となり、スイッチを追加するにつれて容易に拡張できます。

インフィニバンド

InfiniBandは、超低遅延と極めて高い帯域幅を実現する専用高性能ネットワーク技術であり、HPCおよびAIクラスターで広く採用されている。イーサネットベースの伝送方式とは異なり、InfiniBandは専用のロスレスファブリック、ハードウェアオフロード、適応型ルーティング機構を採用し、大規模環境においても一貫した性能を提供する。

リモート・ダイレクト・メモリー・アクセス・オーバー・イーサネット(RoCE)

RDMA over Converged Ethernet(RoCE)は、イーサネットネットワーク上で低遅延・高スループットのデータ転送を実現します。AIアクセラレータ、サーバー、ストレージ間のダイレクトメモリアクセスを可能にすることで、RoCEはCPUの関与を減らし、遅延を低減し、大規模AIトレーニングワークロードのリアルタイム性能要求をサポートします。

ウルトラ・イーサネット・トランスポート (UET)

ウルトラ・イーサネット・トランスポートは、標準イーサネットに機能強化を加え、AIおよびHPC環境における輻輳制御、信頼性、トランスポート層のパフォーマンスを向上させます。リンク層リトライ(LLR)、クレジットベースフロー制御(CBFC)、高度なリンクネゴシエーション機構などの機能により、現代のAIクラスターに典型的な極端なトラフィックパターン下でも、リンク層において決定論的な低遅延、効率的な大規模負荷分散、回復力のあるパフォーマンスを確保します。

リモート・ダイレクト・メモリー・アクセス・オーバー・イーサネット(RoCE)

RDMA over Converged Ethernet(RoCE)は、イーサネット・ネットワーク上での低レイテンシー、高スループットのデータ転送を促進するプロトコルである。RoCEは、AIアクセラレータとストレージサーバ間のダイレクトメモリアクセスを可能にし、CPUの関与を最小限に抑え、レイテンシを低減します。

AIインフラにおける輻輳管理は不可欠である

AIインフラにおいて、エンドツーエンドの低遅延かつロスレスな性能を維持するには、輻輳の検出と回避が極めて重要である。輻輳制御は、優先フロー制御(PFC)と明示的輻輳通知(ECN)によって管理されることが多い。

ECNはキューが満杯になり始めたことを早期に示し、送信元からの該当CoSのトラフィックレートを低下させることで輻輳を回避する。PFCは送信元からのCoSトラフィックを一時停止させることで、輻輳制御をさらに一歩進める。AIネットワークの性能最適化には、通常ECNのしきい値KminとKmaxの調整が含まれる。

AIインフラにおける輻輳のテスト方法

Z800Freya 、テスト対象スイッチが輻輳を適切に処理するかどうかを検証し、最適なパフォーマンスを得るためのECNしきい値の微調整に使用できます。トラフィックジェネレータは、スイッチのキューに入る異なる優先度フローのトラフィックレートを変化させ、PFCのアサートを検証できるほか、ECN=‘11’と‘10’でマークされたパケットの比率も検証できます。

高度なテストケースの自動化と独自スクリプトとの統合は、当社のオープンソース Xena (XOA) Python APIを使用すれば簡単です。

AIアプリケーションをホストするネットワークに共通するテスト

AIアプリケーションを実行するネットワークのパフォーマンスを最適化するために、当社のイーサネット・ソリューションを使用する一般的なシナリオを紹介します:

テスト sシナリオ AIおよびHPC向け networking インフラストラクチャ

AIおよびHPCネットワークの性能と信頼性を検証するには、スタックの複数レイヤーにわたるテストが必要です。現代のクラスター相互接続は極めて高速で動作し、高度な物理層(PHY)とトランシーバーに依存し、導入前に完全に特性評価が必要な複雑なリンク層動作を含みます。以下のテストシナリオは、ハードウェアベースのテストソリューションが現実的なデータセンター環境をエミュレートし、エンドツーエンドの性能を検証する方法を示しています。

物理層検証

高速電気・光インターフェースの物理層は、PCS、PMA、PMD各サブレイヤーにわたり、前方誤り訂正(FEC)、PCSレーン分配、等化設定、自動ネゴシエーションおよびリンクトレーニングなど、幅広い先進機能を備えています。 これらのパラメータは112Gおよび224Gリンクの信頼性に直接影響するため、最適なビット誤り率(BER)性能を達成するには徹底的なテストと調整が必須である。テストでは物理層とデータリンク層の切り替えが頻繁に必要となるため、高度なL1制御と包括的なL2機能を統合したZ1608 Edunのようなトラフィックジェネレータの使用が特に有効である。

データおよびプロトコルの検証とトラブルシューティング

SierraNet M1288プロトコルアナライザなどの試験装置は、リアルタイムでデータをキャプチャすることで詳細な可視性を提供し、ベンダーが相互運用性シナリオで発生するエラーを含むトラブルシューティングを可能にします。典型的な分析には、ECNビット、PFCビット、UECプリアンブル形式、PCSサブレイヤにおける制御順序セットの検証、およびリンク上で送信されるフレームのシーケンス検証が含まれます。 M1288はまた、ユーザーがフレームにエラーを注入し、被試験デバイスが障害状態をどのように処理するかを評価することを可能にします。

エンドポイントエミュレーションとトラフィック負荷テスト

テストでは、スイッチとNIC間の相互運用性を検証するため、UEC準拠手順もサポートする必要があります。 Z1600 Edunトラフィックアナライザなどの試験装置は、UEC対応エンドポイントとして動作可能です。これにより、LLDPを用いたリンクネゴシエーション、リンク層リトライ(LLR)、クレジットベースフロー制御(CBFC)などの機能を、現実的なトラフィックシナリオで評価できます。実際のUETデバイスをエミュレートすることで、大規模な実稼働ネットワークへのアクセスを必要とせず、負荷下におけるタイミング、プロトコル動作、システム安定性を検証できます。

Teledyne LeCroy イーサネットネットワーク上でAIアプリケーションをTeledyne LeCroy

ロードバランシング時にパケットの順序を間違えないようにする

AIインフラ向けソリューション

広範囲のテストモジュール

Xena 、10Mbpsから1.6Tbpsまでの全イーサネット速度をテストするための各種テストモジュールをXena 。

当社の製品ラインには、Z1608 Edunシリーズに224GベースのSerDesとPAM-4を搭載した最新イーサネット技術が含まれます。10G/25G NRZおよび56G/112G PAM4 を用いた 10Mbpsから800Gbps までのテストには当社の Z800Freya 製品ライン

使いやすいソフトウェア

当社のテストソリューションには 、イーサネットトラフィックフローを生成し、 テスト結果の 詳細な 分析 を実行する 機能豊富なソフトウェアが含まれます 。ソフトウェアソリューションは 全てのテストモジュールと速度で 統一されており ハードウェア構成に関わらず一貫した ユーザー体験を保証します。 主要ツールはXenaManagerです。

標準テスト(RFC2544RFC2889RFC3918Y.1564など)を実行するためのテストスイートに加え、特殊なAN/LTテストも用意されています。さらに、あらゆるOS上で動作するPython APIを備えたオープンソースのテスト自動化フレームワークXena (XOA)など、包括的で強力なスクリプティングおよびテスト自動化オプションが幅広く提供されています。

堅牢なシャーシの選択肢

最大12個のテストモジュールを搭載可能な堅牢で拡張性の高い4UXenaBay、または1個のテストモジュールのみを搭載する小型で持ち運びに便利な1UXenaCompactからお選びいただけます。

非常に優れた価値

当社のすべてのソリューションには、Xena パックが含まれます。これには、3年間のソフトウェア更新、3年間のハードウェア保証、製品寿命期間中の無料オンライン/メールサポート、および無料製品トレーニングが含まれます。

当社の低ポート価格と相まって、これはお客様のイーサネットトラフィック生成・分析ソリューションの総所有コスト(TCO)において大幅な節約を実現します。

ホワイトペーパー

…この業界のために