トレーニングジョブのモニタリングとアラート設定 - Platform for AI (PAI)

DLC トレーニングジョブのリソース使用量をリアルタイムでモニタリングし、しきい値を超えた場合にアラート通知を受け取ります。ジョブ、Pod、GPU カードの各レベルで、CPU、GPU、メモリ、ディスク、ネットワーク、RDMA、CPFS の各メトリクスを Cloud Monitor または ARMS を使用して確認できます。

前提条件

1 つ以上の DLC トレーニングジョブを作成します。詳細については、「トレーニングタスクの作成」をご参照ください。

制限事項

汎用コンピューティングリソースを使用する従量課金制のトレーニングジョブでは、モニタリングはサポートされていません。

必要な権限

Alibaba Cloud アカウント (root ユーザー)：追加の権限付与なしで、すべての操作が可能です。
Resource Access Management (RAM) ユーザー：
- ワークスペース内の DLC ジョブのモニタリングデータを表示する場合：
  - RAM ユーザーをワークスペースメンバーとして追加し、管理者、アルゴリズム開発者、またはアルゴリズム O&M エンジニアのロールを付与します。詳細については、「ワークスペースメンバーの管理」をご参照ください。
  - RAM ユーザーに Cloud Monitor の読み取り専用アクセス権限 (AliyunCloudMonitorReadOnlyAccess) を付与します。詳細については、「RAM ユーザーの権限管理」をご参照ください。
- モニタリングデータの表示およびアラート通知の設定を行う場合：
  - RAM ユーザーをワークスペースメンバーとして追加し、管理者、アルゴリズム開発者、またはアルゴリズム O&M エンジニアのロールを付与します。詳細については、「ワークスペースメンバーの管理」をご参照ください。
  - RAM ユーザーに Cloud Monitor の管理権限 (AliyunCloudMonitorFullAccess) を付与します。詳細については、「RAM ユーザーの権限管理」をご参照ください。

利用可能なメトリクス

利用可能なメトリクスには、CPU、メモリ、ディスク、ネットワーク、RDMA、CPFS、および GPU 関連のメトリクス（メモリ使用量、計算能力、SM デバイス使用量）が含まれます。これらのメトリクスは、ジョブ、Pod、GPU カードの各ディメンションで利用可能です。完全なリストについては、「Deep Learning Containers (DLC) メトリクス」をご参照ください。

ジョブ（タスク）ディメンション

メトリクス	説明
CPU 使用率（ジョブディメンション）	指定されたジョブの CPU 使用率（パーセント）です。
メモリ使用率（ジョブディメンション）	指定されたジョブのメモリ使用率（パーセント）です。
ディスク読み取りレート（ジョブディメンション）	指定されたジョブのディスク読み取りレート（MiB/s）です。
ディスク書き込みレート（ジョブディメンション）	指定されたジョブのディスク書き込みレート（MiB/s）です。
ネットワーク受信レート（ジョブディメンション）	指定されたジョブのネットワーク受信レート（MiB/s）です。
ネットワーク送信レート（ジョブディメンション）	指定されたジョブのネットワーク送信レート（MiB/s）です。
GPU 計算能力使用率（ジョブディメンション）	指定されたジョブの GPU 計算能力使用率です。
GPU メモリ使用率（ジョブディメンション）	指定されたジョブの GPU メモリ使用率です。
GPU SM デバイス使用率（ジョブディメンション）	指定されたジョブの GPU SM デバイス使用率です。
GPU デバイス消費電力（ジョブディメンション）	指定されたジョブの GPU デバイス消費電力です。
GPU 温度（ジョブディメンション）	指定されたジョブの GPU 温度です。
GPU カード全体の健全性（ジョブディメンション）	指定されたジョブ内の GPU の全体的な健全性です。100 % は正常な状態を示します。100 % 未満は、1 枚以上が異常であることを示します。
RDMA 受信レート（ジョブディメンション）	指定されたジョブの RDMA 受信レートです。
RDMA 送信レート（ジョブディメンション）	指定されたジョブの RDMA 送信レートです。
CPFS 書き込みレート（ジョブディメンション）	指定されたジョブの CPFS デバイス書き込みレート（MiB/s）です。
CPFS 読み取りレート（ジョブディメンション）	指定されたジョブの CPFS デバイス読み取りレート（MiB/s）です。
NVLink 受信データ量（ジョブディメンション）	指定されたジョブ内の GPU デバイスが NVLink 経由で受信したデータ量です。
NVLink 送信データ量（ジョブディメンション）	指定されたジョブ内の GPU デバイスが NVLink 経由で送信したデータ量です。
PCIe 受信データ量（ジョブディメンション）	指定されたジョブ内の GPU デバイスが PCIe 経由で受信したデータ量です。
PCIe 送信データ量（ジョブディメンション）	指定されたジョブ内の GPU デバイスが PCIe 経由で送信したデータ量です。
その他のメトリクスについては、「Deep Learning Containers (DLC) メトリクス」をご参照ください。

Pod（ワーカー）ディメンション

メトリクス	説明
CPU 使用率（Pod ディメンション）	指定された Pod の CPU 使用率（パーセント）です。
メモリ使用率（Pod ディメンション）	指定された Pod のメモリ使用率（パーセント）です。
ディスク読み取りレート（Pod ディメンション）	指定された Pod のディスク読み取りレート（MiB/s）です。
ディスク書き込みレート（Pod ディメンション）	指定された Pod のディスク書き込みレート（MiB/s）です。
ネットワーク受信レート（Pod ディメンション）	指定された Pod のネットワーク受信レート（MiB/s）です。
ネットワーク送信レート（Pod ディメンション）	指定された Pod のネットワーク送信レート（MiB/s）です。
GPU 計算能力使用率（Pod ディメンション）	指定された Pod の GPU 計算能力使用率です。
GPU メモリ使用率（Pod ディメンション）	指定された Pod の GPU メモリ使用率です。
GPU SM デバイス使用率（Pod ディメンション）	指定された Pod の GPU SM デバイス使用率です。
GPU デバイス消費電力（Pod ディメンション）	指定された Pod の GPU デバイス消費電力です。
GPU 温度（Pod ディメンション）	指定された Pod の GPU 温度です。
GPU カード全体の健全性（Pod ディメンション）	指定された Pod 内の GPU の全体的な健全性です。100 % は正常な状態を示します。100 % 未満は、1 枚以上が異常であることを示します。
RDMA 受信レート（Pod ディメンション）	指定された Pod の RDMA 受信レート（MiB/s）です。
RDMA 送信レート（Pod ディメンション）	指定された Pod の RDMA 送信レート（MiB/s）です。
CPFS 読み取りレート（Pod ディメンション）	指定された Pod の CPFS デバイス読み取りレート（MiB/s）です。
CPFS 書き込みレート（Pod ディメンション）	指定された Pod の CPFS デバイス書き込みレート（MiB/s）です。
NVLink 受信データ量（Pod ディメンション）	指定された Pod 内の GPU デバイスが NVLink 経由で受信したデータ量です。
NVLink 送信データ量（Pod ディメンション）	指定された Pod 内の GPU デバイスが NVLink 経由で送信したデータ量です。
PCIe 受信データ量（Pod ディメンション）	指定された Pod 内の GPU デバイスが PCIe 経由で受信したデータ量です。
PCIe 送信データ量（Pod ディメンション）	指定された Pod 内の GPU デバイスが PCIe 経由で送信したデータ量です。
その他のメトリクスについては、「Deep Learning Containers (DLC) メトリクス」をご参照ください。

単一 GPU カードディメンション

メトリクス	説明
GPU メモリデバイスインターフェイス使用率（カードディメンション）	指定された Pod 内の 1 枚以上または複数枚の GPU カードにおける GPU メモリデバイスインターフェイス使用率です。
GPU SM デバイス使用率（カードディメンション）	指定された Pod 内の 1 枚以上または複数枚の GPU カードにおける GPU SM デバイス使用率です。
GPU デバイス消費電力（カードディメンション）	指定された Pod 内の 1 枚以上または複数枚の GPU カードにおける GPU デバイス消費電力です。
GPU 温度（カードディメンション）	指定された Pod 内の 1 枚以上または複数枚の GPU カードにおける GPU デバイス温度です。
GPU カード全体の健全性（カードディメンション）	指定された Pod 内の 1 枚以上または複数枚の GPU カードの全体的な健全性です。100 % は正常な状態を示します。100 % 未満は、1 枚以上が異常であることを示します。
その他のメトリクスについては、「Deep Learning Containers (DLC) メトリクス」をご参照ください。

Cloud Monitor の使用

Cloud Monitor は、Alibaba Cloud リソースおよびインターネットアプリケーション向けのエンタープライズグレードのモニタリングサービスです。PAI-DLC ジョブのモニタリングデータを表示したり、アラートを設定したり、API 経由でメトリクスをサブスクライブしたりすることで、カスタムダッシュボードを構築できます。詳細については、「Cloud Monitor とは」をご参照ください。

課金

Cloud Monitor は課金対象です。詳細については、「Cloud Monitor の課金」をご参照ください。

モニタリングデータの表示

Cloud Monitor コンソールにログインします。
左側のナビゲーションウィンドウで、可視化 > クラウドサービスモニタリングダッシュボード を選択します。
クラウドサービスダッシュボード ページで、PAI-Deep Learning Containers (DLC) を選択し、その後、モニタリングチャートを表示するための ワークスペース ID を選択または検索します。ワークスペース ID の確認方法については、「ワークスペースの管理」をご参照ください。モニタリングチャートで利用可能な操作：
- モニタリングディメンションの切り替え：ジョブ、Pod、GPU の各レベルでメトリクスを表示します。
  - ジョブディメンション タブをクリックします。DLC ジョブ ID を選択または入力して、特定のジョブのモニタリングデータを表示します。
  - Pod ディメンション タブをクリックします。Pod ID を選択または入力して、特定の Pod のモニタリングデータを表示します。
  - GPU ディメンション タブをクリックします。Pod ID を選択または入力して、指定された DLC ジョブ内の Pod に関する GPU 固有のモニタリングデータを表示します。
- 時間範囲の切り替え：
- 拡大表示：各チャートの右上隅にある拡大ボタンをクリックして、モニタリングデータの詳細を表示します。

アラートの設定

DLC ジョブのリソース使用量をモニタリングするためのアラートルールを設定します。しきい値を超えた場合に通知を受け取れます。アラートは Cloud Monitor コンソールまたは API を使用して設定できます。

アラート連絡先の設定

Cloud Monitor コンソールにログインします。
左側のナビゲーションウィンドウで、アラートサービス > アラート連絡先 を選択します。
アラート連絡先 タブで、連絡先の作成 をクリックします。アラート連絡先の名前、携帯電話番号、メールアドレス、または Webhook URL を入力し、OK をクリックします。
アラートグループ タブで、連絡先グループの作成 をクリックします。アラート連絡先グループの名前を入力し、既存のアラート連絡先を選択します。次に、OK をクリックします。

アラートルールの設定

CloudMonitor コンソールの左側にあるナビゲーションウィンドウで、[クラウドリソース監視] > [クラウドサービス監視]を選択します。
「[クラウドサービスモニター]」ページで、PAI-Deep Learning Containers (DLC) を検索して移動します。
PAI-Deep Learning Containers (DLC) ページで、サービスが展開されているリージョンを選択し、アラートルールの作成 をクリックします。

アラートルールの作成 パネルで、パラメーターを設定し、確認をクリックします。

パラメーター	説明
製品	Cloud Monitor が管理するプロダクトです。PAI-Deep Learning Containers (DLC) を選択します。
適用範囲	アラートルールの適用範囲です。「すべてのリソース」と「インスタンス」をサポートしています。すべてのリソース：任意の DLC リソースがアラートルールを満たす場合にアラートが送信されます。インスタンス：必要なワークスペースを関連インスタンスに追加します。追加されたワークスペース内の DLC ジョブがアラートルールを満たした場合にのみアラートが送信されます。
ルールの説明	アラートルールの条件です。モニタリングデータが指定された条件を満たすとアラートがトリガーされます。詳細については、「アラートルールの作成」をご参照ください。
ミュート期間	アラートが解決されないまま継続している場合の、繰り返しのアラート通知の間隔です。
有効期間	アラートルールが有効となる期間です。この期間内でのみ、アラートのチェックが実行されます。
タグ	アラートルールのカスタムタグです。タグはキーと値から構成されます。
アラート連絡先グループ	通知を受信するアラートグループです。アラート連絡先が設定済みのグループを選択してください。

PAI-Deep Learning Containers (DLC) ページで、アラートルールの表示 をクリックして、詳細およびアラート履歴を確認します。必要に応じてルールを変更できます。

アラート履歴の表示、アラートテンプレートの管理、アラートルールおよびアラート連絡先の設定など、アラートサービス関連の API を呼び出して設定できます。詳細については、「Cloud Monitor API リファレンス：アラートサービス」をご参照ください。

メトリクスのサブスクライブ

Cloud Monitor の API を呼び出して DLC のモニタリングメトリクスをサブスクライブし、カスタムモニタリングシステムおよびダッシュボードを構築できます。詳細については、「クラウドサービスモニタリング API リファレンス」をご参照ください。

Cloud Monitor API	説明
DescribeMetricLast	指定されたメトリクスの最新のモニタリングデータを照会します。
DescribeMetricList	指定されたクラウドサービスの指定メトリクスのモニタリングデータを照会します。
DescribeMetricData	指定されたクラウドサービスのメトリクスのモニタリングデータを照会します。
DescribeMetricMetaList	Cloud Monitor で利用可能なメトリクスの詳細を照会します。
DescribeProjectMeta	Cloud Monitor で時系列メトリクスをサポートするクラウドサービスを照会します。
DescribeMetricTop	クラウドサービスの指定メトリクスについて最新のモニタリングデータを照会し、その後、並べ替えられたモニタリングデータを照会します。

この例では、DescribeMetricList API を使用して、指定された PAI-DLC メトリクスのモニタリングデータを照会します。

Deep Learning Containers (DLC) メトリクスページに移動します。
メトリクスページで対象のメトリクスを見つけ、メトリクスデータの取得 を操作列からクリックします。

OpenAPI Explorer ページで、主要なパラメーターを設定し、その他のパラメーターはデフォルト値を使用します。パラメーターの詳細については、「DescribeMetricList」をご参照ください。

パラメーター	説明
Namespace	このパラメーターを acs_pai_dlc に設定します。
MetricName	対応するモニタリングメトリクスに設定します（例：CARD_GPU_DRAM_ACTIVE_UTIL）。
StartTime	開始時刻（例：2024-05-15 00:00:00）。
EndTime	終了時刻（例：2024-05-28 00:00:00）。説明 StartTime と EndTime の間隔は 31 日を超えてはいけません。

パラメーターを設定後、呼び出しの実行 をクリックして、指定された時間範囲のモニタリングデータを表示します。

ARMS の使用

ARMS は Alibaba Cloud の可観測性プラットフォームです。PAI-DLC 分散トレーニング向けに Grafana ダッシュボードをカスタマイズし、Prometheus のアラートルールを設定して、ジョブの各メトリクスを詳細にモニタリングできます。詳細については、「Application Real-Time Monitoring Service (ARMS)」をご参照ください。

課金

ARMS は課金対象です。詳細については、「ARMS の課金」をご参照ください。

モニタリングデータの取り込み

以下の手順に従ってモニタリングデータを取り込みます：

ARMS コンソールにログインします。ナビゲーションウィンドウで、インテグレーションセンター をクリックします。
インテグレーションセンター ページで、人工知能 タブをクリックし、次に Alibaba Cloud PAI-DLC 分散トレーニングサービス をクリックします。
プロビジョニングの開始 タブで、データ保存リージョン を選択し、インテグレーション名 を指定して、確認をクリックします。

プロビジョニングには 1～2 分かかります。効果のプレビュー、収集されたメトリクス、または アラートルールテンプレート タブを選択して、ダッシュボード、メトリクス、アラートテンプレートを表示できます。
インストール完了後、プロビジョニング をクリックして環境の詳細を表示します。

Grafana ダッシュボードの表示

ARMS コンソールにログインします。左側のナビゲーションウィンドウで、プロビジョニング を選択します。プロビジョニング済み環境 > クラウドサービスリージョン環境 タブで、環境名をクリックします。
コンポーネント管理 タブの コンポーネントタイプ エリアで、Alibaba Cloud PAI-DLC 分散トレーニングサービスを選択し、ダッシュボード をクリックして、組み込みの Grafana ダッシュボードを表示します。
ダッシュボード名をクリックして、モニタリングダッシュボードを表示します。

Prometheus アラートの設定

Prometheus アラートを設定するには、以下の手順を実行します：

ARMS コンソールにログインします。左側のナビゲーションウィンドウで、プロビジョニング を選択します。プロビジョニング済み環境 > クラウドサービスリージョン環境 タブで、環境名をクリックします。
「[コンポーネントの種類]」リスト（「[コンポーネント管理]」タブ内）で、Alibaba Cloud PAI-DLC 分散学習サービスを選択し、「[アラートルール]」をクリックして、組み込みアラートルールを表示します。
組み込みのアラートルールはイベントを生成しますが、通知は送信しません。メールやその他のプラットフォーム経由で通知を送信するには、以下のいずれかの方法を使用します：
- 通知ポリシーを設定して、アラートイベントに一致するルールを作成します。ルールがトリガーされると、システムは指定された受信者に対して、指定された方法でアラートを送信します。詳細については、「通知ポリシー」をご参照ください。
- アラートルールを編集して、通知方法を設定します。Prometheus アラートルール編集ページで、アラート条件、持続時間、内容、通知をカスタマイズします。詳細については、「Prometheus アラートルールの作成」をご参照ください。