DSW は、複数のマシンと GPU にまたがって分散開発とトレーニングを実行できる、複数インスタンスの相互接続機能を提供します。
前提条件
汎用計算リソースグループまたは Lingjun リソースグループから作成され、同じ VPC に配置されている複数のインスタンスが必要です。
インスタンスを含むリソースグループのインターネットアクセスゲートウェイは、[専用ゲートウェイ] に設定する必要があります。
インスタンスは同じクラスター内にある必要があります。たとえば、Lingjun インスタンスと汎用計算リソースインスタンスを相互接続することはできません。
一部のインスタンスタイプのみが Remote Direct Memory Access (RDMA) または拡張 RDMA (eRDMA) をサポートします。詳細については、「デフォルト変数 (プラットフォームによって事前設定)」および「制限」をご参照ください。
DSW と DLC は、RDMA/eRDMA に対して同じ機能を提供します。詳細については、DLC ドキュメントをご参照ください。
特徴
DSW は、さまざまなリソースとネットワークアーキテクチャに最適化された、事前設定済みのパフォーマンス専有型ネットワーク環境変数を提供します。
Lingjun リソースから作成された DSW インスタンスについては、「デフォルト変数 (プラットフォームによって事前設定)」で説明されている事前設定済みの環境変数をご参照ください。
汎用計算リソースから作成された DSW インスタンスについては、「プラットフォームで事前設定された環境変数」で説明されている事前設定済みの環境変数をご参照ください。
RDMA をサポートするノードでは、RDMA/eRDMA を使用して相互接続できます。
インスタンス ID を DNS ドメイン名として使用してインスタンスを相互接続できます。

これらの機能により、複数のマシンと GPU にまたがって分散タスクを開発およびデバッグできます。
手順
DSW インスタンスのクローン機能を使用して、同じ環境で必要な数のインスタンスを起動します。
(オプション) インスタンスに RDMA/eRDMA ライブラリをインストールします。
Lingjun リソースの場合は、RDMA を含むイメージを使用します。詳細については、「イメージの設定」をご参照ください。
汎用計算リソースの場合は、「eRDMA ライブラリのインストール」の手順に従ってください。
あるインスタンスから、別のインスタンスのインスタンス ID に対して
pingコマンドを実行して、ネットワーク接続をテストします。例:ping dsw-l28wnjdlyzj*********。選択した分散フレームワークを使用して、分散タスクを設定およびデバッグします。