DLC トレーニングジョブのために、コンピューティングリソース、コンテナイメージ、データセット、ソースコードを準備します。
前提条件
ストレージとして OSS を使用する場合、DLC に OSS へのアクセスに必要な権限を付与してください。適切な権限がないと、マウントされた OSS バケットからデータにアクセスする際に I/O エラーが発生します。詳細については、「クラウド製品の依存関係と権限付与:DLC」をご参照ください。
ステップ 1:リソースの準備
AI トレーニング用のコンピューティングリソースを準備します。以下のリソースタイプが利用可能です:
-
パブリックリソース
DLC の権限付与を完了します。その後、リソースグループを追加することなく、Create Job ページでパブリックリソースが利用可能になります。
-
汎用コンピューティングリソース
専用リソースグループを作成し、汎用コンピューティングリソースを購入し、リソースを割り当てるためのリソースクォータを作成します。トレーニングジョブを送信するには、リソースクォータをワークスペースに関連付けます。詳細については、「汎用コンピューティングリソースのクォータ」をご参照ください。
-
Lingjun リソース
Lingjun リソースを準備し、ワークスペースに関連付けます。詳細については、「リソースクォータの作成」をご参照ください。
ステップ 2:イメージの準備
トレーニング環境用のコンテナイメージを準備します。以下のイメージオプションがサポートされています:
-
公式イメージ:PAI は、さまざまなフレームワークに基づいた公式イメージを提供しています。利用可能なイメージを表示するには、PAI コンソールの AI アセット管理のイメージページ に移動します。Image: ページで、Alibaba Cloud Images タブを開き、[モジュール] を DLC に設定して、DLC ジョブをサポートするイメージをフィルターします。

-
カスタムイメージ:トレーニングジョブに特定の環境や依存関係が必要な場合は、カスタムイメージを使用します。ワークスペースの ページでイメージを PAI AI アセットとして追加すると、複数のトレーニングジョブで再利用できます。詳細については、「カスタムイメージ」をご参照ください。
重要Lingjun リソースでカスタムイメージを使用する場合の関連事項については、「RDMA:分散トレーニングに高性能ネットワークを使用する」をご参照ください。
-
イメージアドレス:トレーニングジョブを送信する際に、カスタムイメージまたは公式イメージのアドレスを指定します。イメージアドレスは、PAI コンソールの AI アセット管理のイメージページ で確認できます。
ステップ 3:データセットの準備
トレーニングデータを OSS、NAS、または CPFS にアップロードしてデータセットを作成するか、OSS バケットまたはパブリックデータセットからデータを直接マウントします。
サポートされているデータセットタイプ
PAI は、OSS、汎用 NAS、エクストリーム NAS、CPFS、および Lingjun CPFS に保存されているデータセットをサポートしています。データセットアクセラレーションは、Lingjun CPFS を除くすべてのタイプでサポートされています。
データセットの作成
詳細な手順については、「データセットの作成と管理」をご参照ください。以下の制限事項にご注意ください:
-
OSS の制限事項:OSS は分散オブジェクトストレージサービスであり、ファイルシステムではありません。OSS バケットをマウントした後、データを追記したり、既存のファイルを上書きしたりすることはできません。
-
CPFS の VPC 要件:トレーニングジョブが CPFS ファイルシステムと同じ VPC を使用するように設定してください。VPC が一致しない場合、ジョブは [環境準備中] の状態で無期限に留まります。
データセットアクセラレーションの有効化
データセットアクセラレーションを有効にすると、データ読み取り効率が向上します。詳細については、「PAI でデータセットアクセラレータを使用する」をご参照ください。
ステップ 4:ソースコードの準備
ワークスペースの ページでトレーニングコードを AI アセットとして追加すると、複数のトレーニングジョブで再利用できます。詳細については、「コード設定」をご参照ください。
次のステップ
これらの準備が完了したら、トレーニングジョブを作成します。詳細については、「トレーニングジョブの作成」をご参照ください。