すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:分散トレーニングジョブの作成と管理

最終更新日:Mar 12, 2026

Deep Learning Containers (DLC) で分散トレーニングジョブを作成し、実行ステータスを監視し、キーワードでログを検索し、ジョブをクローンまたは削除します。

前提条件

  • Alibaba Cloud アカウント: 追加の権限付与は不要です。

  • RAM ユーザー: RAM ユーザーをワークスペースメンバーとして追加し、必要な権限を持つロールを割り当てます。各ロールの権限については、「付録: ロールと権限のリスト」をご参照ください。

トレーニングジョブの作成

Deep Learning Containers (DLC) タブで、DLC 分散トレーニングジョブを作成します。

  1. ジョブ管理ページにアクセスします。

    1. PAI コンソールにログインします。

    2. 左側のナビゲーションウィンドウで、[ワークスペースリスト] をクリックし、ワークスペース名をクリックします。

    3. ワークスペースページの左側のナビゲーションウィンドウで、[AI Asset Management] > [ジョブ] を選択します。

  2. Deep Learning Containers (DLC) タブで、[ジョブの作成] をクリックします。

  3. パラメーターを設定し、[OK] をクリックします。

    パラメーターの説明については、「トレーニングタスクの作成」をご参照ください。

トレーニングジョブの管理

ジョブリストには、DLC、DLC で実行されている Designer アルゴリズムノード、および DLC コマンドラインインターフェイスからのジョブが集約されます。a95d0b5d2be165babe046176dcf0cdc8

警告

削除されたジョブは回復できません。

  • ①: 名前、ID、期間、フレームワーク、またはステータスでジョブを検索します。

  • ②: ジョブ名をクリックして、実行ステータス、インスタンスステータス、リソースビュー、およびログを表示します。

  • ③: ステータスアイコンにカーソルを合わせると、実行ステータスが表示されます。

  • ④: ジョブを [クローン] するか、[アクション] 列の [TensorBoard] をクリックしてトレーニング結果表示用の TensorBoard インスタンスを作成します。

キーワードによる集約ログのクエリ

クエリログ

[ログ] タブで、キーワードでログイベントをクエリします。

  1. 左側のナビゲーションウィンドウで、[AI アセット管理] > [ジョブ] を選択します。[Deep Learning Containers (DLC)] ページで、ジョブ名をクリックします。

  2. [ログ] タブをクリックし、設定を構成します。

    1. [ジョブ情報] の上で、ログ収集の期間を選択します。

      説明

      ログ収集はジョブの終了時間を超える場合があります。要件を満たす期間を選択してください。

    2. [インスタンスリスト] で、インスタンスを選択します。

    3. 検索ボックスに、ログまたはイベントを検索するためのキーワードを入力します。

基本的なクエリルール

ログをクエリする際は、完全な単語を使用してください。DLC は、ログ検索に Simple Log Service (SLS) を使用します。これは検索語をトークン化します。用語検索では、キーワードフレーズと完全に一致する結果が見つからない場合があります。

たとえば、キーワード abc def は、正確なフレーズ abc def を含むログに限定されず、abc を含むすべてのログおよび def を含むすべてのログを返します。

あいまい検索ルール

あいまい検索には、アスタリスク (*) と疑問符 (?) を使用します。その他の特殊文字はサポートされていません。

  • アスタリスク (*) は複数の文字に一致します。疑問符 (?) は単一の文字に一致します。

  • アスタリスク (*) または疑問符 (?) は、キーワードの中央または末尾に配置します。ワイルドカードは先頭に配置できません。

たとえば、abc* は abc で始まる用語を検索します。ab?d は、ab で始まり、d で終わり、その間に 1 文字を含む用語を検索します。

説明

あいまい検索中、サービスは Logstore で最大 100 個の一致する用語を検索し、これらの用語を含むログを返します。あいまい検索で 100 個を超える用語に一致する短いプレフィックスを使用すると、結果が不正確になる場合があります。より正確な結果を得るには、より具体的な用語を使用してください。

トークナイザーの制限

SLS は、トレーニングログをトークン化する際に、これらの一般的な文字をデリミタとして扱います。, '";=()[\",\"]{}?@&<>/: \t\r

デリミタは、クエリのためにログコンテンツをトークンに分割します。デリミタのみで構成されるキーワードは、完全な単語として扱われず、結果を返しません。

例 1: キーワード &&& は、一致するログを見つけません。検索するコンテンツのコンテキストに基づいてキーワードを作成してください。

例 2: a&b を含むログをクエリするには、& の代わりに a&b をキーワードとして使用します。このクエリは、ab の両方を含むログを返します。より詳細なキーワードは、より正確な結果を生成します。

クエリの例

クエリ要件

キーワード

Error を含むログ

Error

lossacc の両方を含むログ

loss acc

Traceback に関連するすべてのログ

Traceback*

abc&def を含むログ

abc&def