トレーニングジョブの基本情報、構成、イベント、リソース、ログを表示して、実行状況とステータスをモニターします。
ジョブの基本情報と構成
-
PAI コンソールにログインし、リージョンとワークスペースを選択して、[DLC に移動] をクリックします。
-
ジョブ名をクリックして概要ページを開きます。
-
Overview タブで、ジョブの基本情報、環境情報、リソース情報を表示します。 主要な詳細情報もページの上部に表示されます。

ジョブイベント
イベントログは、ジョブのスケジューリングとリソース割り当ての進捗を追跡します。 イベントを使用して、問題を特定し、トラブルシューティングを行います。
-
ジョブレベルのイベントを表示するには:
Event タブに移動します。

-
ノードレベルのイベントを表示するには:
Overview タブの Instance セクションに移動します。 インスタンスを見つけ、Actions 列の Log をクリックします。 System Log タブに移動して、ノードイベントの詳細を表示します。

リソースビュー
リソースビューには、GPU 使用率、GPU メモリ使用量、CPU 使用率、メモリ使用量、ネットワーク I/O のメトリックが表示されます。 これを使用して、リアルタイムのリソース消費をモニターし、最適化を計画します。
Monitoring タブに移動します。

リソースクォータを使用して作成されたトレーニングジョブは、追加のモニタリング機能をサポートします:
-
メトリックは、[ジョブディメンション]、[Pod ディメンション]、[GPU ディメンション] の各レベルで利用できます。

-
期間とメトリクスタイプでフィルターします。 More をクリックして表示するメトリックを選択し、その順序を変更して、パーソナライズされたモニタリングダッシュボードを作成します。

-
DLC は、トレーニングジョブのリソースに対するモニタリングとアラートも提供します。 詳細については、「トレーニングのモニタリングとアラート」をご参照ください。
ジョブログ
エラーのトラブルシューティングや実行履歴の確認を行うには、次のいずれかの方法でジョブログを表示します:
-
Overview タブの Instance セクションに移動します。 インスタンスを見つけ、Actions 列の Log をクリックして、特定のノードの出力ログを表示します。

-
Log タブに移動して、キーワードでログを検索します。 詳細については、「キーワードによる集計ログのクエリ」をご参照ください。

監査ログ
PAI は ActionTrail と統合されており、ご利用の Alibaba Cloud アカウントの DLC 操作イベントを記録します。 過去 90 日間のイベントを表示および検索できます。 詳細については、「ActionTrail」をご参照ください。
関連トピック
ジョブのステータスに基づいてトレーニングジョブを管理します。 詳細については、「トレーニングジョブの管理」をご参照ください。