すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:トレーニングジョブの詳細

最終更新日:Apr 21, 2026

トレーニングジョブの基本情報、構成、イベント、リソース、ログを表示して、実行状況とステータスをモニターします。

ジョブの基本情報と構成

  1. PAI コンソールにログインし、リージョンとワークスペースを選択して、[DLC に移動] をクリックします。

  2. ジョブ名をクリックして概要ページを開きます。

  3. Overview タブで、ジョブの基本情報、環境情報、リソース情報を表示します。 主要な詳細情報もページの上部に表示されます。

    image

ジョブイベント

イベントログは、ジョブのスケジューリングとリソース割り当ての進捗を追跡します。 イベントを使用して、問題を特定し、トラブルシューティングを行います。

  • ジョブレベルのイベントを表示するには:

    Event タブに移動します。

    image

  • ノードレベルのイベントを表示するには:

    Overview タブの Instance セクションに移動します。 インスタンスを見つけ、Actions 列の Log をクリックします。 System Log タブに移動して、ノードイベントの詳細を表示します。

    image

リソースビュー

リソースビューには、GPU 使用率、GPU メモリ使用量、CPU 使用率、メモリ使用量、ネットワーク I/O のメトリックが表示されます。 これを使用して、リアルタイムのリソース消費をモニターし、最適化を計画します。

Monitoring タブに移動します。

image

リソースクォータを使用して作成されたトレーニングジョブは、追加のモニタリング機能をサポートします:

  1. メトリックは、[ジョブディメンション][Pod ディメンション][GPU ディメンション] の各レベルで利用できます。

    image

  2. 期間とメトリクスタイプでフィルターします。 More をクリックして表示するメトリックを選択し、その順序を変更して、パーソナライズされたモニタリングダッシュボードを作成します。

    image

  3. DLC は、トレーニングジョブのリソースに対するモニタリングとアラートも提供します。 詳細については、「トレーニングのモニタリングとアラート」をご参照ください。

ジョブログ

エラーのトラブルシューティングや実行履歴の確認を行うには、次のいずれかの方法でジョブログを表示します:

  • Overview タブの Instance セクションに移動します。 インスタンスを見つけ、Actions 列の Log をクリックして、特定のノードの出力ログを表示します。

    image

  • Log タブに移動して、キーワードでログを検索します。 詳細については、「キーワードによる集計ログのクエリ」をご参照ください。

    image

監査ログ

PAI は ActionTrail と統合されており、ご利用の Alibaba Cloud アカウントの DLC 操作イベントを記録します。 過去 90 日間のイベントを表示および検索できます。 詳細については、「ActionTrail」をご参照ください。

関連トピック

ジョブのステータスに基づいてトレーニングジョブを管理します。 詳細については、「トレーニングジョブの管理」をご参照ください。