AIインフラ

Testing networks hosting AI applications

AI has entered the data center

The proliferation of Artificial Intelligence (AI) applications is driving the need optimize data centers to support their specific needs. AI algorithms, especially in deep learning, require significant computational resources and specialized AI infrastructure. These applications also depend on vast datasets and real-time processing capabilities. To meet these needs, data centers use AI accelerators, GPUs, and RDMA technologies, along with high-speed Ethernet connectivity.

背骨と葉の構造

何千台ものAIアクセラレーターが相互接続されていることが多いAIネットワークでは、東西(サーバー間)のロスレス・トラフィックを低レイテンシーでサポートする必要があるだけでなく、ベストエフォート・トラフィックもサポートしなければならない。

スパインとリーフの構造がこれを促進する。リーフ・スイッチはサーバー、ストレージ・デバイス、その他のエンドポイントに直接接続し、各リーフ・スイッチは他のスパイン・スイッチに接続され、高帯域幅と低レイテンシーを確保する。スパイン・スイッチはすべてのリーフ・スイッチとリーフ・スイッチ間の通信を相互接続しますが、エンドポイントには直接接続しません。これは

  • パケットは2台のリーフスイッチと1台のスパインスイッチを経由するだけで、予測可能なレイテンシーを実現します。
  • すべてのリーフスイッチはすべてのスパインスイッチに直接接続されているため、ネットワークはノンブロッキングです。
  • 本質的に、ボトルネックを防ぎ、高いスループットを確保するために、トラフィックを均等に分散するロードバランシングをサポートしています。
  • スパインスイッチやリーフスイッチを追加することで簡単に拡張できます。

テスト目的で大規模な「スパイン&リーフ」スイッチ・ネットワークを構築することは、現実的でないばかりか、コストもかかる。しかし、トラフィック・ジェネレーター、障害エミュレーター、プロトコル・アナライザーを使用することは、簡単で費用対効果の高い方法です。

リモート・ダイレクト・メモリー・アクセス・オーバー・イーサネット(RoCE)

RDMA over Converged Ethernet(RoCE)は、イーサネット・ネットワーク上での低レイテンシー、高スループットのデータ転送を促進するプロトコルである。RoCEは、AIアクセラレータとストレージサーバ間のダイレクトメモリアクセスを可能にし、CPUの関与を最小限に抑え、レイテンシを低減します。

Managing congestion is essential in AI infrastruture

輻輳の検出と回避は、AIインフラでエンド・ツー・エンドの低レイテンシーとロスレス性能を維持するために極めて重要である。輻輳制御は優先フロー制御(PFC)と明示的輻輳通知(ECN)によって管理される。

ECN gives an early indication that a queue is starting to fill up and avoids congestion by slowing down the traffic rate of the relevant CoS from the sender. PFC takes congestion control one step further by temporarily stopping traffic of the CoS from the sender. Optimizing an AI network’s performance will typically involve tuning the thresholds Kmin and Kmax for ECN.

How to test congestion in an AI infrastructure

The Z800 Freya Ethernet Traffic Generator can be used to verify if a switch under test handles congestion correctly, and to fine-tune the ECN thresholds for optimal performance. The traffic generators can vary the traffic rates for different priority flows entering the switch’s queues and verify the assertion of PFC, as well as the ratio between packets marked ECN=‘11’ and ‘10’.

Automating advanced test cases and integrating them with your own scripts is easy using our open-source Xena OpenAutomation (XOA) Python API.

AIアプリケーションをホストするネットワークに共通するテスト

AIアプリケーションを実行するネットワークのパフォーマンスを最適化するために、当社のイーサネット・ソリューションを使用する一般的なシナリオを紹介します:

ループバック試験

NICなどをテストする場合、トランスミッターは、反対側に示すように、ネットワークを介してレシーバーに接続される。TxとRxの間に Impairment Emulatorを挿入することで、例えばパケットの順序を間違えたり、レイテンシを変化させたりして 、フローを変化させることができる

同時に 同時に、プロトコルアナライザを使用して、パケットヘッダーをキャプチャし、BTH+ 24ビットパケットシーケンス番号などのさまざまなフィールドを解析することができます。 ヘッダーをキャプチャし、BTH+ 24 ビットパケットシーケンス番号などのさまざまなフィールドを分析することができます。

トラフィック負荷テスト

例えば Z800Freya Traffic Generator を使用して、RoCEv2 や他のタイプのトラフィックの組み合わせを NIC に送信し、実際の状況をシミュレートします。リンク利用率を 100% まで変化させて、NIC が全負荷でどのように動作するかをテストできます。

E100減損エミュレータを使用して、例えばRoCEv2パケットをフィルタリングし、パケットの順序を間違えたり、レイテンシを追加したり、あるいは短いリンク切断をエミュレートしたりして、スループットやプロトコルの動作を評価します。また、SmartNICのパケット順序変更機能やレイテンシ変動処理機能をテストすることもできます。

M1288 プロトコルアナライザを使用すると、パケットヘッダの詳細をすべて把握できます(プロトコルのデバッグや不具合の根本原因を見つけるのに重要です)。

交通渋滞

Z800 Traffic Generator を使用して様々なトラフィックフローを作成し、M1288 Jammer を使用して双方向のトラフィックを変更または破損します。RoCEv2 パケットのヘッダーのフィールドを変更することで、以下をシミュレートできます。

パケットがネットワークを通過する際に通常行われる書き換え操作。Jammerは、シミュレートされたワークロードを使用して見逃された問題を特定するために、ワイヤスピードと様々なプロトコルでシステムをストレステストするのに理想的です。

AIシナリオにおける典型的な障害のテスト

E100Chimera ネットワーク・エミュレータは、さまざまな遅延、ジッター、リンク・フラップ、パケット順序の間違いなど、典型的なAIネットワーク障害のパフォーマンスへの影響をテストします。反対側に示すように、E100Chimera トラフィック・ジェネレーター(またはNICカード)とテストしたいスイッチの間に挿入するだけです。

ロードバランシング時にパケットの順序を間違えないようにする

AIインフラストラクチャー向けソリューション

幅広いテストモジュール

Xena は、10Mbpsから800Gbpsまでのすべてのイーサネット速度をテストするためのテストモジュールを取り揃えています。

当社のZ800Freya 製品ラインには、112GベースのSerDesとPAM-4による最新のイーサネット技術が含まれています。AN/LTプロトコルのテストとデバッグには、専用のZ800Freya Compact ANLT Test Applianceを提供しています。

使いやすいソフトウェア

Xenaのテスト・ソリューションには、イーサネット・トラフィックを生成し、結果を分析するための豊富な機能を備えたソフトウェアが含まれている。主なツールはXenaManagerです。

また、RFC2544RFC2889RFC3918Y.1564 などの標準的なテストを実行するためのテスト・スイートや、特殊なAN/LT テストも用意されています。さらに、あらゆる OS 上で動作する Python API を備えたオープンソースのテスト自動化フレームワークであるXena OpenAutomation (XOA) など、強力なスクリプトやテスト自動化オプションも包括的に用意されています。

堅牢なシャーシの選択肢

最大12個のテストモジュールを搭載できる堅牢で拡張性の高い4UXenaBayか、1個のテストモジュールしか搭載できない小型で持ち運びが簡単な1UXenaCompactのどちらかをお選びください。

特別な価値

当社のすべてのソリューションには、3年間のSWアップデート、3年間のHW保証、製品ライフタイムの無料オンライン/メールサポート、および無料製品トレーニングからなるXena バリューパックが含まれています。

低価格のポート価格と合わせて、イーサネット・トラフィック生成および解析ソリューションのTCOを大幅に節約できます。

Get big picture of Xena products

Xena ソリューション

...AIインフラのテスト用

ホワイトペーパー

この業界にとって

Understanding Ethernet - from basics to testing & optimization

00
ヶ月
00
日数
00
時間
00
議事録
00
Close the CTA