トレーニングジョブを作成する前の事前準備 - Platform For AI

DLC トレーニングジョブのために、計算リソース、コンテナイメージ、データセット、ソースコードを準備します。

前提条件

OSS をストレージとして使用する場合、DLC に OSS へのアクセスに必要な権限を付与する必要があります。適切な権限がないと、マウントされた OSS バケットからデータにアクセスする際に I/O エラーが発生します。詳細については、「クラウド製品の依存関係と権限付与：DLC」をご参照ください。

ステップ 1：リソースの準備

AI トレーニング用の計算リソースを準備します。以下のリソースタイプが利用可能です：

パブリックリソース

「DLC の権限付与」を完了します。その後、リソースグループを追加しなくても、Create Job ページでパブリックリソースが利用可能になります。
汎用コンピューティングリソース

専用リソースグループを作成し、汎用コンピューティングリソースを購入し、リソースを割り当てるためのリソースクォータを作成します。トレーニングジョブを送信するために、リソースクォータをワークスペースに関連付けます。詳細については、「汎用コンピューティングリソースクォータ」をご参照ください。
Lingjun リソース

Lingjun リソースを準備し、ワークスペースに関連付けます。詳細については、「リソースクォータの作成」をご参照ください。

ステップ 2：イメージの準備

トレーニング環境用のコンテナイメージを準備します。以下のイメージオプションがサポートされています：

公式イメージ: PAI は、さまざまなフレームワークをベースにした公式イメージを提供しています。これらのイメージは Alibaba Cloud サービス向けに最適化されており、より高い互換性とパフォーマンスを提供します。 PAI コンソールのAI アセット管理のイメージページに移動します。 Image: ページで、Alibaba Cloud Images タブで、[Modules] を DLC に設定して、DLC ジョブをサポートするイメージを表示できます。
カスタムイメージ：トレーニングジョブで特定の環境または依存関係が必要な場合は、カスタムイメージを使用します。複数のトレーニングジョブで再利用するには、ワークスペースの AI Asset Management > Images ページでイメージを PAI AI アセットとして追加します。詳細については、「カスタムイメージ」をご参照ください。

重要
Lingjun リソースでカスタムイメージを使用する場合の関連する考慮事項については、「RDMA：分散トレーニングに高性能ネットワークを使用する」をご参照ください。
イメージアドレス：トレーニングジョブを送信する際に、カスタムイメージまたは公式イメージのアドレスを指定します。イメージアドレスは、PAI コンソールの [AI アセット管理] の [イメージ] ページで確認できます。

ステップ 3：データセットの準備

トレーニングデータを OSS、NAS、または CPFS にアップロードしてデータセットを作成するか、OSS バケットまたはパブリックデータセットからデータを直接マウントします。

サポートされているデータセットタイプ

PAI は、OSS、汎用 NAS、エクストリーム NAS、CPFS、および Lingjun CPFS に保存されているデータセットをサポートしています。データセットの高速化は、Lingjun CPFS を除くすべてのタイプでサポートされています。

データセットの作成

詳細な手順については、「データセットの作成と管理」をご参照ください。以下の制限事項にご注意ください：

OSS の制限事項：OSS はファイルシステムではなく、分散オブジェクトストレージサービスです。OSS バケットをマウントした後、データを追加したり、既存のファイルを上書きしたりすることはできません。
CPFS の VPC 要件：トレーニングジョブが CPFS ファイルシステムと同じ VPC を使用するように設定します。VPC が一致しない場合、ジョブは [環境準備中] の状態で無期限に留まります。

データセットの高速化の有効化

データセットの高速化を有効にすると、データの読み取り効率が向上します。詳細については、「PAI でデータセットアクセラレータを使用する」をご参照ください。

ステップ 4：ソースコードの準備

複数のトレーニングジョブで再利用できるように、トレーニングコードをワークスペースの AI Asset Management > Code Configuration ページに AI アセットとして追加します。詳細については、「コード構成」をご参照ください。

次のステップ

これらの準備が完了したら、トレーニングジョブを作成します。詳細については、「トレーニングジョブの作成」をご参照ください。