すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:トレーニングジョブの監視とアラートの設定

最終更新日:Apr 03, 2026

DLC は、トレーニングジョブのリアルタイムのリソース使用量を追跡し、GPU 使用率などのメトリックがしきい値を超えた場合にアラート通知を送信します。CloudMonitor または Application Real-Time Monitoring Service (ARMS) を使用して、モニタリングデータを表示し、アラートを設定し、メトリックをサブスクライブできます。

前提条件

少なくとも 1 つの DLC トレーニングジョブが作成されていること。詳細については、「トレーニングジョブの作成」をご参照ください。

制限事項

汎用コンピューティングリソースを使用する従量課金のトレーニングジョブでは、モニタリングは利用できません。

アカウントと権限

  • Alibaba Cloud アカウント (root ユーザー):追加の権限付与なしですべての操作を実行できます。

  • RAM ユーザー:

    • ワークスペース内の DLC ジョブのモニタリングデータを表示するには、RAM ユーザーに以下の権限を付与します:

      • RAM ユーザーを、管理者、アルゴリズム開発者、またはアルゴリズム O&M エンジニアのロールでワークスペースメンバーとして追加します。詳細については、「ワークスペースメンバーの管理」をご参照ください。

      • RAM ユーザーに CloudMonitor への読み取り専用アクセス権 (AliyunCloudMonitorReadOnlyAccess) を付与します。詳細については、「RAM ユーザー権限の管理」をご参照ください。

    • ワークスペース内の DLC ジョブのモニタリングデータを表示し、アラートを設定するには、RAM ユーザーに以下の権限を付与します:

      • RAM ユーザーを、管理者、アルゴリズム開発者、またはアルゴリズム O&M エンジニアのロールでワークスペースメンバーとして追加します。詳細については、「ワークスペースメンバーの管理」をご参照ください。

      • RAM ユーザーに CloudMonitor への管理アクセス権 (AliyunCloudMonitorFullAccess) を付与します。詳細については、「RAM ユーザー権限の管理」をご参照ください。

監視メトリクス

監視メトリクスには、GPU、CPU、メモリ、ディスク、ネットワーク、RDMA、CPFS のメトリックが含まれます。サポートされるディメンションには、ジョブ、Pod (ワーカー)、個別の GPU カードがあります。以下の表は、典型的な正常性メトリックの一覧です。完全なリストと詳細な説明については、「Deep Learning Containers (DLC) のメトリック」をご参照ください。

ジョブディメンション

メトリック

説明

CPU 使用率 (ジョブディメンション)

CPU 使用率 (%)。

メモリ使用率 (ジョブディメンション)

メモリ使用率 (%)。

ディスク読み取りレート (ジョブディメンション)

ディスク読み取りレート (MiB/s)。

ディスク書き込みレート (ジョブディメンション)

ディスク書き込みレート (MiB/s)。

ネットワーク受信レート (ジョブディメンション)

ネットワーク受信レート (MiB/s)。

ネットワーク送信レート (ジョブディメンション)

ネットワーク送信レート (MiB/s)。

GPU コンピューティング使用率 (ジョブディメンション)

GPU コンピューティング使用率 (%)。

GPU メモリ使用率 (ジョブディメンション)

GPU メモリ使用率 (%)。

GPU SM 使用率 (ジョブディメンション)

GPU ストリーミングマルチプロセッサ (SM) 使用率 (%)。

GPU 消費電力 (ジョブディメンション)

GPU 消費電力 (ワット)。

GPU 温度 (ジョブディメンション)

GPU 温度 (摂氏)。

GPU 全体正常性 (ジョブディメンション)

GPU 全体の正常性。100% = すべての GPU が正常。100% 未満 = 1 つ以上の GPU が異常。

RDMA 受信レート (ジョブディメンション)

RDMA 受信レート。

RDMA 送信レート (ジョブディメンション)

RDMA 送信レート。

CPFS 書き込みレート (ジョブディメンション)

CPFS 書き込みレート (MiB/s)。

CPFS 読み取りレート (ジョブディメンション)

CPFS 読み取りレート (MiB/s)。

NVLink 受信ボリューム (ジョブディメンション)

NVLink 経由で受信したデータボリューム。

NVLink 送信ボリューム (ジョブディメンション)

NVLink 経由で送信したデータボリューム。

PCIe 受信ボリューム (ジョブディメンション)

PCIe 経由で受信したデータボリューム。

PCIe 送信ボリューム (ジョブディメンション)

PCIe 経由で送信したデータボリューム。

その他のメトリクスについては、「Deep Learning Containers (DLC) のメトリック」をご参照ください。

Pod (ワーカー) ディメンション

メトリック

説明

CPU 使用率 (Pod ディメンション)

CPU 使用率 (%)。

メモリ使用率 (Pod ディメンション)

メモリ使用率 (%)。

ディスク読み取りレート (Pod ディメンション)

ディスク読み取りレート (MiB/s)。

ディスク書き込みレート (Pod ディメンション)

ディスク書き込みレート (MiB/s)。

ネットワーク受信レート (Pod ディメンション)

ネットワーク受信レート (MiB/s)。

ネットワーク送信レート (Pod ディメンション)

ネットワーク送信レート (MiB/s)。

GPU コンピューティング使用率 (Pod ディメンション)

GPU コンピューティング使用率 (%)。

GPU メモリ使用率 (Pod ディメンション)

GPU メモリ使用率 (%)。

GPU SM 使用率 (Pod ディメンション)

GPU SM 使用率 (%)。

GPU 消費電力 (Pod ディメンション)

GPU 消費電力 (ワット)。

GPU 温度 (Pod ディメンション)

GPU 温度 (摂氏)。

GPU 全体正常性 (Pod ディメンション)

GPU 全体の正常性。100% = すべての GPU が正常。100% 未満 = 1 つ以上の GPU が異常。

RDMA 受信レート (Pod ディメンション)

RDMA 受信レート (MiB/s)。

RDMA 送信レート (Pod ディメンション)

RDMA 送信レート (MiB/s)。

CPFS 読み取りレート (Pod ディメンション)

CPFS 読み取りレート (MiB/s)。

CPFS 書き込みレート (Pod ディメンション)

CPFS 書き込みレート (MiB/s)。

NVLink 受信ボリューム (Pod ディメンション)

NVLink 経由で受信したデータボリューム。

NVLink 送信ボリューム (Pod ディメンション)

NVLink 経由で送信したデータボリューム。

PCIe 受信ボリューム (Pod ディメンション)

PCIe 経由で受信したデータボリューム。

PCIe 送信ボリューム (Pod ディメンション)

PCIe 経由で送信したデータボリューム。

その他のメトリクスについては、「Deep Learning Containers (DLC) のメトリック」をご参照ください。

GPU カードディメンション

メトリック

説明

GPU メモリインターフェイス使用率 (カードディメンション)

カードごとの GPU メモリインターフェイス使用率。

GPU SM 使用率 (カードディメンション)

カードごとの GPU SM 使用率。

GPU 消費電力 (カードディメンション)

カードごとの GPU 消費電力 (ワット)。

GPU 温度 (カードディメンション)

カードごとの GPU 温度 (摂氏)。

GPU 全体正常性 (カードディメンション)

GPU カード全体の正常性。100% = カードが正常。100% 未満 = カードが異常。

その他のメトリクスについては、「Deep Learning Containers (DLC) のメトリック」をご参照ください。

モニタリングチャートの表示

  1. ジョブ詳細ページで、Monitoring タブに移動して、ジョブのモニタリングデータを表示します。注意:ジョブのモニタリングデータは最大 30 日間保持されます。

    image

  2. Job LevelInstance DimensionGPU Level タブには、GPU、CPU、メモリ、ネットワーク、ディスクのメトリックが表示されます。

  3. More をクリックして主要なメトリックを選択し、ドラッグして表示の優先度を調整します。

    image

  4. 領域をズームインしたり、ズームを元に戻したり、ビューをリセットしたり、チャートをダウンロードしたりできます。

    image

  5. チャート同期:この機能を有効にすると、すべてのチャートでズーム操作が同期され、比較が容易になります。

    image

  6. 1 行に表示されるチャートの数をカスタマイズします。

CloudMonitor の使用

CloudMonitor は、Alibaba Cloud のリソースとインターネットアプリケーションを監視します。CloudMonitor コンソールを使用して、DLC ジョブのモニタリングデータを表示し、アラート通知を設定できます。CloudMonitor は、カスタムの監視システムやダッシュボードを構築するためにメトリックデータをサブスクライブするための API も提供しています。詳細については、「CloudMonitor とは」をご参照ください。

課金

CloudMonitor は料金が発生します。課金の詳細については、「CloudMonitor の課金」をご参照ください。

モニタリングデータの表示

  1. CloudMonitor コンソールにログインします。

  2. 左側のナビゲーションウィンドウで、[可視化] > [クラウドサービスモニタリングダッシュボード] を選択します。

  3. [クラウドサービスモニタリングダッシュボード] ページで、[PAI-Deep Learning Containers (DLC)] を選択し、[ワークスペース ID] を選択または検索して、対応するモニタリングチャートを表示します。ワークスペース ID を見つけるには、「ワークスペースの管理」をご参照ください。

    image

    モニタリングチャートで、以下の操作を実行します:

    • 監視ディメンションの切り替え:システムは、ジョブ、Pod (ワーカー)、GPU のディメンション別に監視メトリクスを表示します。

      • [ジョブディメンション] タブをクリックします。DLC ジョブ ID を選択または入力して、単一ジョブのモニタリングデータを表示します。

      • [Pod ディメンション] タブをクリックします。Pod ID を選択または入力して、単一 Pod のモニタリングデータを表示します。

      • GPU Level タブをクリックします。Pod ID を選択または入力して、単一 Pod の GPU レベルのモニタリングデータを表示します。

    • 時間範囲の変更image

    • ズームイン:各チャートの右上隅にあるズームインアイコン image.png をクリックして、詳細なモニタリングデータを表示します。

アラートの設定

DLC ジョブのリソースレベルを監視するためにアラートルールを設定します。メトリックがルールに違反すると、システムは通知を送信します。アラートは CloudMonitor コンソールまたは API を通じて設定します。

アラート連絡先の設定

  1. CloudMonitor コンソールにログインします。

  2. 左側のナビゲーションウィンドウで、[アラートサービス] > [アラート連絡先] を選択します。

  3. [アラート連絡先] タブで、[アラート連絡先の作成] をクリックし、連絡先の名前、電話番号、メールアドレス、または Webhook URL を入力して、[OK] をクリックします。

  4. [アラート連絡先グループ] タブで、[アラート連絡先グループの作成] をクリックし、グループ名を入力し、既存のアラート連絡先をグループに追加して、[OK] をクリックします。

アラートルールの設定

  1. CloudMonitor コンソールの左側のナビゲーションウィンドウで、[クラウドサービスの監視] を選択します。

  2. クラウドサービス監視」ページで、PAI-Deep Learning Containers (DLC) を検索して選択します。イメージ

  3. [PAI-Deep Learning Containers (DLC)] ページで、サービスが配置されているリージョンを選択し、[アラートルールの作成] をクリックします。

  4. [アラートルールの作成] パネルで、以下のパラメーターを設定し、[OK] をクリックします。

    パラメーター

    説明

    プロダクト

    [PAI-Deep Learning Containers (DLC)] を選択します。

    リソース範囲

    アラートルールの範囲:すべてのリソースまたはインスタンス。

    • すべてのリソース:いずれかの DLC リソースがアラートルールを満たした場合にアラートが送信されます。

    • インスタンス[関連リソース] セクションでワークスペースを追加します。それらのワークスペース内の DLC ジョブがアラートルールを満たした場合にのみアラートが送信されます。

    ルール

    アラートをトリガーする条件。詳細については、「アラートルールの作成」をご参照ください。

    ミュート期間

    アラートが解決されない場合にアラート通知を再送信する間隔。

    有効期間

    アラートルールがアクティブになる期間。

    タグ

    アラートルール用のカスタムタグで、キーと値のペアで構成されます。

    連絡先グループ

    アラート通知を受信する連絡先グループ。

  5. [PAI-Deep Learning Containers (DLC)] ページで、[アラートルール] をクリックして、アラートルールの詳細と履歴を表示します。

プログラムでアラートルールを設定するには、アラート履歴、テンプレート、ルール、連絡先に関する CloudMonitor API を使用します。詳細については、「CloudMonitor API リファレンス:アラートサービス」をご参照ください。

監視メトリクスのサブスクライブ

CloudMonitor は、カスタムの監視システムやダッシュボードを構築するために DLC 監視メトリックをサブスクライブするための API を提供しています。手順については、「クラウドサービス監視 API ディレクトリ」をご参照ください。

CloudMonitor API

概要

DescribeMetricLast

メトリックの最新のモニタリングデータをクエリします。

DescribeMetricList

クラウドサービスのメトリックのモニタリングデータをクエリします。

DescribeMetricData

クラウドサービスのメトリックのモニタリングデータをクエリします。

DescribeMetricMetaList

CloudMonitor で利用可能なメトリックの詳細をクエリします。

DescribeProjectMeta

CloudMonitor で時系列メトリックをサポートするクラウドサービスをクエリします。

DescribeMetricTop

クラウドサービスのメトリックの最新のモニタリングデータを値でソートしてクエリします。

以下の例では、DescribeMetricList API を使用して DLC メトリックのモニタリングデータをクエリします。

  1. Deep Learning Containers (DLC) のメトリックページに移動します。

  2. メトリックリストで対象のメトリックを見つけ、[操作] 列の [メトリックデータの取得] をクリックします。image

  3. OpenAPI Explorer ページで、以下の主要なパラメーターを設定し、その他はデフォルト値のままにします。詳細については、「DescribeMetricList」をご参照ください。

    パラメーター

    説明

    Namespace

    これを acs_pai_dlc に設定します。

    MetricName

    対象の監視メトリック。例:CARD_GPU_DRAM_ACTIVE_UTIL

    StartTime

    開始時刻。例:2024-05-15 00:00:00。

    EndTime

    終了時刻。例:2024-05-28 00:00:00。

    説明

    StartTime と EndTime の間隔は 31 日以下である必要があります。

  4. パラメーターを設定した後、[呼び出し開始] をクリックして、指定した時間範囲のモニタリングデータを表示します。

ARMS の使用

Application Real-Time Monitoring Service (ARMS) は可観測性プラットフォームです。ARMS を使用して、DLC 分散トレーニングジョブ用の Grafana ダッシュボードと Prometheus アラートルールを作成します。詳細については、「Application Real-Time Monitoring Service (ARMS) とは」をご参照ください。

課金

ARMS は料金が発生します。課金の詳細については、「ARMS の課金」をご参照ください。

モニタリングデータの統合

DLC モニタリングデータを ARMS に統合するには:

  1. ARMS コンソールにログインし、左側のナビゲーションウィンドウで [インテグレーションセンター] をクリックします。

  2. [インテグレーションセンター] ページで、[人工知能] タブをクリックし、次に [Alibaba Cloud PAI-DLC 分散トレーニングサービス] をクリックします。image

  3. 表示されるパネルの [プロビジョニングの開始] タブで、[データストレージリージョン] を選択し、[インテグレーション名] を入力して、[OK] をクリックします。

    統合には約 1~2 分かかります。[効果プレビュー][収集されたメトリクス][アラートルールテンプレート] タブに切り替えて、メトリックダッシュボード、サポートされているメトリック、アラートルールテンプレートを表示します。

  4. 統合が完了したら、[プロビジョニング] ページに移動して、統合された環境の詳細を表示します。

Grafana ダッシュボードの表示

  1. ARMS コンソールにログインします。左側のナビゲーションウィンドウで、[プロビジョニング] を選択します。[プロビジョニングされた環境] > [クラウドサービスリージョン環境] タブで、環境名をクリックします。

  2. [コンポーネント管理] タブの [コンポーネントタイプ] セクションで、[Alibaba Cloud PAI-DLC 分散トレーニングサービス] を選択し、右側の [ダッシュボード] をクリックして、組み込みの Grafana ダッシュボードを表示します。image

  3. ダッシュボード名をクリックして、モニタリングダッシュボードを表示します。image

Prometheus アラートの設定

DLC トレーニングジョブの Prometheus アラートルールを設定します:

  1. ARMS コンソールにログインします。左側のナビゲーションウィンドウで、[プロビジョニング] を選択します。[プロビジョニングされた環境] > [クラウドサービスリージョン環境] タブで、環境名をクリックします。

  2. [コンポーネント管理] タブの [コンポーネントタイプ] リストで、[Alibaba Cloud PAI-DLC 分散トレーニングサービス] を選択し、[アラートルール] をクリックして、組み込みのアラートルールを表示します。image

  3. 組み込みのアラートルールはイベントを生成しますが、通知は送信しません。以下のいずれかの方法で通知を設定します:

    • アラートイベントの一致ルールを持つ通知ポリシーを設定します。ルールが一致すると、システムは指定された受信者にアラートを送信します。詳細については、「通知ポリシー」をご参照ください。

    • アラートルールを編集して通知方法を設定します。image Prometheus アラートルール編集ページで、アラート条件、持続時間、内容、通知をカスタマイズします。詳細については、「Prometheus アラートルールの作成」をご参照ください。image