トレーニングタスクを送信した後、その基本情報、構成、イベント、リソース使用量、およびログを表示して、実行状況を把握できます。
基本タスク情報と構成の表示
-
PAI コンソールにログインします。 ページの上部で、ターゲットリージョンを選択します。 右上隅で、ターゲットワークスペースを選択し、[Enter DLC] をクリックします。
-
ターゲットタスクの名前をクリックして、タスク概要ページを開きます。
-
「[概要]」ページでは、タスクの基本情報、環境コンテキスト、およびリソース情報を表示できます。

タスクイベントの表示
イベントログには、タスクスケジューリングとリソース関連のアクティビティの進捗状況が記録されます。これらのイベントを表示して、問題を特定し、トラブルシューティングを行うことができます。
-
タスクのイベントログを表示します。
[イベント] タブに切り替えて、イベントログを表示します。

-
ノードのイベントログを表示します。
[概要]ページの[インスタンス]セクションで、インスタンスの[操作]列にある[ログ]をクリックします。次に、[イベント]タブでノードのイベントログを表示します。

リソースビューの表示
リソース使用量ビューには、GPU 使用量、GPU メモリ使用量、CPU 使用量、メモリ使用量、ネットワーク I/O などの主要メトリックが表示されます。このビューを使用して、タスクのリソース使用量をリアルタイムでモニターできます。これにより、タスクのリソース要件を理解し、利用状況を追跡し、リソースの最適化を計画するのに役立ちます。
タスクのリソース使用量を表示するには、[モニタリング] タブに切り替えてください。
モニタリングメトリックは、[Job]、[Pod]、および[GPU]ディメンションで利用可能です。モニタリングとアラート機能を使用すると、DLC ジョブのリソース使用量をリアルタイムでモニターできます。詳細については、「トレーニングのモニタリングとアラート」をご参照ください。
タスクログの表示
タスクが異常な場合、またはその実行履歴を表示する必要がある場合は、次のいずれかの方法を使用してログを表示できます。
-
[概要]ページの[インスタンス]セクションで、インスタンスの[アクション]列にある[ログ]をクリックすると、そのノードの出力ログが表示されます。

-
「[ログ]」タブに切り替えて、キーワードでログイベントを検索できます。詳細については、「キーワードによる集約ログのクエリ実行」をご参照ください。

動作イベントログの表示
PAI は ActionTrail と統合されています。ActionTrail を使用して、Alibaba Cloud アカウントの過去 90 日間の DLC 動作イベントログを表示および取得できます。詳細については、「ActionTrail」をご参照ください。
参考資料
タスクの実行状況に基づいてタスクを管理できます。詳細については、「トレーニングタスクの管理」をご参照ください。