すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:分散トレーニングのためのインスタンス相互接続の使用

最終更新日:Nov 06, 2025

DSW は、複数のマシンと GPU にまたがって分散開発とトレーニングを実行できる、複数インスタンスの相互接続機能を提供します。

前提条件

  • 汎用計算リソースグループまたは Lingjun リソースグループから作成され、同じ VPC に配置されている複数のインスタンスが必要です。

  • インスタンスを含むリソースグループのインターネットアクセスゲートウェイは、[専用ゲートウェイ] に設定する必要があります。

  • インスタンスは同じクラスター内にある必要があります。たとえば、Lingjun インスタンスと汎用計算リソースインスタンスを相互接続することはできません。

  • 一部のインスタンスタイプのみが Remote Direct Memory Access (RDMA) または拡張 RDMA (eRDMA) をサポートします。詳細については、「デフォルト変数 (プラットフォームによって事前設定)」および「制限」をご参照ください。

    DSW と DLC は、RDMA/eRDMA に対して同じ機能を提供します。詳細については、DLC ドキュメントをご参照ください。

特徴

  • DSW は、さまざまなリソースとネットワークアーキテクチャに最適化された、事前設定済みのパフォーマンス専有型ネットワーク環境変数を提供します。

  • RDMA をサポートするノードでは、RDMA/eRDMA を使用して相互接続できます。

  • インスタンス ID を DNS ドメイン名として使用してインスタンスを相互接続できます。image

これらの機能により、複数のマシンと GPU にまたがって分散タスクを開発およびデバッグできます。

手順

  1. DSW インスタンスのクローン機能を使用して、同じ環境で必要な数のインスタンスを起動します。

  2. (オプション) インスタンスに RDMA/eRDMA ライブラリをインストールします。

    1. Lingjun リソースの場合は、RDMA を含むイメージを使用します。詳細については、「イメージの設定」をご参照ください。

    2. 汎用計算リソースの場合は、「eRDMA ライブラリのインストール」の手順に従ってください。

  3. あるインスタンスから、別のインスタンスのインスタンス ID に対して ping コマンドを実行して、ネットワーク接続をテストします。例: ping dsw-l28wnjdlyzj*********

  4. 選択した分散フレームワークを使用して、分散タスクを設定およびデバッグします。