DSW、DLC、EAS ワークロード向けに、リソースグループを作成し、Lingjun AI 計算リソースを購入します。Lingjun は、パフォーマンス専有型 AI トレーニングと推論のために、RDMA ネットワークを備えた大規模な GPU リソースを提供します。
概要
Lingjun AI 計算リソースは、RDMA 高速ネットワーク、パフォーマンス専有型通信ライブラリと高速化ソフトウェア、および要求の厳しい AI ワークロード向けの GPU 仮想化を特徴としています。
PAI は、PAI コンソールで完全に購入および管理できるフルマネージドの Lingjun リソースを提供します。スタンドアロン Lingjun ハードウェアを購入している場合は、トレーニングジョブ用のセミマネージドリソースとして PAI に追加できます。
制限事項
-
サポートされているリージョン
中国 (ウランチャブ)、シンガポール、中国 (深セン)、中国 (北京)、中国 (上海)、中国 (杭州) でのみ利用可能です。
-
サポートされているユーザー
サブスクリプションおよび従量課金は、ホワイトリストユーザーのみが利用できます。アクセスについては、ビジネスマネージャーにお問い合わせください。
-
サポートされているタスクタイプ
TensorFlow、PyTorch、ElasticBatch、XGBoost、OneFlow、MPIJob、Slurm、Ray のトレーニングジョブのみをサポートします。
アカウントと権限
-
Alibaba Cloud アカウント (推奨): 追加の権限なしですべての操作を実行できます。
-
RAM ユーザー: ご利用の Alibaba Cloud アカウントは、RAM ユーザーに リソースプールを管理する権限を付与 するか、AliyunPAIFullAccess 権限を付与 する必要があります。
重要AliyunPAIFullAccessは、すべての PAI リソースと機能に対する完全制御を付与します。この権限を付与する際は注意してください。これらの操作には、Alibaba Cloud アカウントを使用することを推奨します。
依存関係
Lingjun AI 計算リソースには、他のクラウド製品が必要です。開始する前に、これらの依存関係を確認し、必要なリソースを準備してください。
(必須) VPC
Lingjun リソースを同じリージョンの VPC にバインドし、vSwitch とセキュリティグループを設定します。これにより、Lingjun リソースと他のクラウド製品間のネットワーク接続が確保されます。
(オプション) インターネット NAT Gateway と EIP
インターネットにアクセスする (たとえば、パブリックリポジトリからカスタムイメージを使用する) には、インターネット NAT Gateway の SNAT 機能を有効にして設定し、EIP をバインドします。これにより、Lingjun リソースがインターネットにアクセスできるようになります。
SNAT 機能の設定方法の詳細については、「インターネット NAT Gateway の SNAT 機能を使用してインターネットにアクセスする」をご参照ください。
(オプション) OSS、NAS、または CPFS for AI
Lingjun リソース上の DLC ジョブにはデータセットが必要です。PAI は、OSS、NAS、CPFS for AI からのデータセットをサポートしています。必要なストレージリソースを準備し、データセットを作成します。詳細については、「事前準備: データセットの準備」をご参照ください。
操作手順
Lingjun リソースは、サブスクリプションまたは従量課金で利用できます。リソースグループを作成した後、リソースを購入できます。課金の詳細については、「AI コンピューティングリソースの課金」をご参照ください。
Lingjun は、基盤となるコンピューティングリソースを高速インターコネクトゾーン (HZ) に分割します。同じ HZ ID を持つリソースは、高速ネットワークを介して通信します。リソースの購入、割り当て、および使用時に、高速ネットワークアフィニティをカスタマイズします。
リソースグループの作成
-
PAI コンソールにログインし、AI コンピューティングリソース > リソースプール に移動します。
-
[Lingjun Intelligent Computing resources]タブで、[Create Resource Group]をクリックします。
-
[リソースグループの作成] ダイアログボックスで、パラメーターを設定し、OK をクリックします。
パラメーター
説明
Type
[Dedicated Resource Group] を選択します。
Resource Group Name
画面の命名規則に従って名前を入力します。
サブスクリプションリソースの購入
-
[Intelligent Computing LINGJUN Resources]タブで、リソースグループを見つけます。[Actions]列で、[Create Order]をクリックして、[Create Subscription Order]を選択します。

あるいは、リソースグループ名をクリックします。詳細ページの右上隅で、Create Order > Create Subscription Order をクリックします。

-
リソースグループ ID とリージョンは自動的に選択されます。Node Specification、Quantity、[期間] を選択し、[今すぐ購入] をクリックします。
よくある問題と解決策:-
注文に現在のリソースグループの情報が含まれていません。
-
原因: 選択されたリージョンがリソースグループのリージョンと一致しません。
-
ソリューション: リソースグループのデフォルトリージョンに切り替えます。
-
-
指定されたインスタンスタイプがゾーンで在庫切れです。
-
原因: 選択されたノード仕様が現在のリージョンで一時的に在庫切れです。
-
ソリューション: 別のノード仕様を選択します。
-
-
現在のインスタンスタイプは一時的にサポートされていません。別の種類の ECS を購入してください。
-
原因: 選択されたノード仕様は現在のリージョンでの購入がサポートされていません。
-
ソリューション: 別のノード仕様を選択します。
-
-
-
支払い後、購入したサブスクリプションリソースは注文リストページに表示されます。
システムは、各購入をノードごとに個別の注文に分割し、更新やサブスクリプション解除などの個別管理を可能にします。
従量課金リソースの購入
現在、ホワイトリストユーザーのみが利用できます。アクセスについては、ビジネスマネージャーにお問い合わせください。
-
[Lingjun Intelligent Computing resources]タブで、リソースグループを見つけます。[Actions]列で、[Create Order] > [Create Pay-As-You-Go Order]をクリックします。

または、リソースグループ名をクリックし、詳細ページの右上隅でCreate Order > Create Pay-As-You-Go Order の順にクリックします。

-
Region、Resource Type、およびResource Group は事前に選択されています。 Resource Specification を選択し、Quantity を設定してから、OK をクリックします。

-
購入後、課金方法で注文リストをフィルタリングして、サブスクリプションまたは従量課金注文を表示します。
重要不要な従量課金の Lingjun リソースを停止することで、不要な課金を回避できます。[Order Information] ページで、[Actions] 列の [Stopped] をクリックします。ノードを停止すると、そのノード上で実行中のジョブが失敗します。注意して進めてください。
次のステップ
リソースグループを作成し、コンピューティングリソースを購入した後:
-
リソースグループページで、リソースグループの基本情報を表示し、購入したリソースを管理します。詳細については、「リソースの管理」をご参照ください。
-
特定トレーニングジョブにこれらのリソースを割り当てるために、リソースクォータを設定します。詳細については、「リソースクォータの作成」をご参照ください。