DLC は、トレーニングジョブのリアルタイムのリソース使用量を追跡し、GPU 使用率などのメトリックがしきい値を超えた場合にアラート通知を送信します。CloudMonitor または Application Real-Time Monitoring Service (ARMS) を使用して、モニタリングデータを表示し、アラートを設定し、メトリックをサブスクライブできます。
前提条件
少なくとも 1 つの DLC トレーニングジョブが作成されていること。詳細については、「トレーニングジョブの作成」をご参照ください。
制限事項
汎用コンピューティングリソースを使用する従量課金のトレーニングジョブでは、モニタリングは利用できません。
アカウントと権限
-
Alibaba Cloud アカウント (root ユーザー):追加の権限付与なしですべての操作を実行できます。
-
RAM ユーザー:
-
ワークスペース内の DLC ジョブのモニタリングデータを表示するには、RAM ユーザーに以下の権限を付与します:
-
RAM ユーザーを、管理者、アルゴリズム開発者、またはアルゴリズム O&M エンジニアのロールでワークスペースメンバーとして追加します。詳細については、「ワークスペースメンバーの管理」をご参照ください。
-
RAM ユーザーに CloudMonitor への読み取り専用アクセス権 (
AliyunCloudMonitorReadOnlyAccess) を付与します。詳細については、「RAM ユーザー権限の管理」をご参照ください。
-
-
ワークスペース内の DLC ジョブのモニタリングデータを表示し、アラートを設定するには、RAM ユーザーに以下の権限を付与します:
-
RAM ユーザーを、管理者、アルゴリズム開発者、またはアルゴリズム O&M エンジニアのロールでワークスペースメンバーとして追加します。詳細については、「ワークスペースメンバーの管理」をご参照ください。
-
RAM ユーザーに CloudMonitor への管理アクセス権 (
AliyunCloudMonitorFullAccess) を付与します。詳細については、「RAM ユーザー権限の管理」をご参照ください。
-
-
監視メトリクス
監視メトリクスには、GPU、CPU、メモリ、ディスク、ネットワーク、RDMA、CPFS のメトリックが含まれます。サポートされるディメンションには、ジョブ、Pod (ワーカー)、個別の GPU カードがあります。以下の表は、典型的な正常性メトリックの一覧です。完全なリストと詳細な説明については、「Deep Learning Containers (DLC) のメトリック」をご参照ください。
ジョブディメンション
|
メトリック |
説明 |
|
CPU 使用率 (ジョブディメンション) |
CPU 使用率 (%)。 |
|
メモリ使用率 (ジョブディメンション) |
メモリ使用率 (%)。 |
|
ディスク読み取りレート (ジョブディメンション) |
ディスク読み取りレート (MiB/s)。 |
|
ディスク書き込みレート (ジョブディメンション) |
ディスク書き込みレート (MiB/s)。 |
|
ネットワーク受信レート (ジョブディメンション) |
ネットワーク受信レート (MiB/s)。 |
|
ネットワーク送信レート (ジョブディメンション) |
ネットワーク送信レート (MiB/s)。 |
|
GPU コンピューティング使用率 (ジョブディメンション) |
GPU コンピューティング使用率 (%)。 |
|
GPU メモリ使用率 (ジョブディメンション) |
GPU メモリ使用率 (%)。 |
|
GPU SM 使用率 (ジョブディメンション) |
GPU ストリーミングマルチプロセッサ (SM) 使用率 (%)。 |
|
GPU 消費電力 (ジョブディメンション) |
GPU 消費電力 (ワット)。 |
|
GPU 温度 (ジョブディメンション) |
GPU 温度 (摂氏)。 |
|
GPU 全体正常性 (ジョブディメンション) |
GPU 全体の正常性。100% = すべての GPU が正常。100% 未満 = 1 つ以上の GPU が異常。 |
|
RDMA 受信レート (ジョブディメンション) |
RDMA 受信レート。 |
|
RDMA 送信レート (ジョブディメンション) |
RDMA 送信レート。 |
|
CPFS 書き込みレート (ジョブディメンション) |
CPFS 書き込みレート (MiB/s)。 |
|
CPFS 読み取りレート (ジョブディメンション) |
CPFS 読み取りレート (MiB/s)。 |
|
NVLink 受信ボリューム (ジョブディメンション) |
NVLink 経由で受信したデータボリューム。 |
|
NVLink 送信ボリューム (ジョブディメンション) |
NVLink 経由で送信したデータボリューム。 |
|
PCIe 受信ボリューム (ジョブディメンション) |
PCIe 経由で受信したデータボリューム。 |
|
PCIe 送信ボリューム (ジョブディメンション) |
PCIe 経由で送信したデータボリューム。 |
|
その他のメトリクスについては、「Deep Learning Containers (DLC) のメトリック」をご参照ください。 |
|
Pod (ワーカー) ディメンション
|
メトリック |
説明 |
|
CPU 使用率 (Pod ディメンション) |
CPU 使用率 (%)。 |
|
メモリ使用率 (Pod ディメンション) |
メモリ使用率 (%)。 |
|
ディスク読み取りレート (Pod ディメンション) |
ディスク読み取りレート (MiB/s)。 |
|
ディスク書き込みレート (Pod ディメンション) |
ディスク書き込みレート (MiB/s)。 |
|
ネットワーク受信レート (Pod ディメンション) |
ネットワーク受信レート (MiB/s)。 |
|
ネットワーク送信レート (Pod ディメンション) |
ネットワーク送信レート (MiB/s)。 |
|
GPU コンピューティング使用率 (Pod ディメンション) |
GPU コンピューティング使用率 (%)。 |
|
GPU メモリ使用率 (Pod ディメンション) |
GPU メモリ使用率 (%)。 |
|
GPU SM 使用率 (Pod ディメンション) |
GPU SM 使用率 (%)。 |
|
GPU 消費電力 (Pod ディメンション) |
GPU 消費電力 (ワット)。 |
|
GPU 温度 (Pod ディメンション) |
GPU 温度 (摂氏)。 |
|
GPU 全体正常性 (Pod ディメンション) |
GPU 全体の正常性。100% = すべての GPU が正常。100% 未満 = 1 つ以上の GPU が異常。 |
|
RDMA 受信レート (Pod ディメンション) |
RDMA 受信レート (MiB/s)。 |
|
RDMA 送信レート (Pod ディメンション) |
RDMA 送信レート (MiB/s)。 |
|
CPFS 読み取りレート (Pod ディメンション) |
CPFS 読み取りレート (MiB/s)。 |
|
CPFS 書き込みレート (Pod ディメンション) |
CPFS 書き込みレート (MiB/s)。 |
|
NVLink 受信ボリューム (Pod ディメンション) |
NVLink 経由で受信したデータボリューム。 |
|
NVLink 送信ボリューム (Pod ディメンション) |
NVLink 経由で送信したデータボリューム。 |
|
PCIe 受信ボリューム (Pod ディメンション) |
PCIe 経由で受信したデータボリューム。 |
|
PCIe 送信ボリューム (Pod ディメンション) |
PCIe 経由で送信したデータボリューム。 |
|
その他のメトリクスについては、「Deep Learning Containers (DLC) のメトリック」をご参照ください。 |
|
GPU カードディメンション
|
メトリック |
説明 |
|
GPU メモリインターフェイス使用率 (カードディメンション) |
カードごとの GPU メモリインターフェイス使用率。 |
|
GPU SM 使用率 (カードディメンション) |
カードごとの GPU SM 使用率。 |
|
GPU 消費電力 (カードディメンション) |
カードごとの GPU 消費電力 (ワット)。 |
|
GPU 温度 (カードディメンション) |
カードごとの GPU 温度 (摂氏)。 |
|
GPU 全体正常性 (カードディメンション) |
GPU カード全体の正常性。100% = カードが正常。100% 未満 = カードが異常。 |
|
その他のメトリクスについては、「Deep Learning Containers (DLC) のメトリック」をご参照ください。 |
|
モニタリングチャートの表示
-
ジョブ詳細ページで、Monitoring タブに移動して、ジョブのモニタリングデータを表示します。注意:ジョブのモニタリングデータは最大 30 日間保持されます。

-
Job Level、Instance Dimension、GPU Level タブには、GPU、CPU、メモリ、ネットワーク、ディスクのメトリックが表示されます。
-
More をクリックして主要なメトリックを選択し、ドラッグして表示の優先度を調整します。

-
領域をズームインしたり、ズームを元に戻したり、ビューをリセットしたり、チャートをダウンロードしたりできます。

-
チャート同期:この機能を有効にすると、すべてのチャートでズーム操作が同期され、比較が容易になります。

-
1 行に表示されるチャートの数をカスタマイズします。
CloudMonitor の使用
CloudMonitor は、Alibaba Cloud のリソースとインターネットアプリケーションを監視します。CloudMonitor コンソールを使用して、DLC ジョブのモニタリングデータを表示し、アラート通知を設定できます。CloudMonitor は、カスタムの監視システムやダッシュボードを構築するためにメトリックデータをサブスクライブするための API も提供しています。詳細については、「CloudMonitor とは」をご参照ください。
課金
CloudMonitor は料金が発生します。課金の詳細については、「CloudMonitor の課金」をご参照ください。
モニタリングデータの表示
-
CloudMonitor コンソールにログインします。
-
左側のナビゲーションウィンドウで、 を選択します。
-
[クラウドサービスモニタリングダッシュボード] ページで、[PAI-Deep Learning Containers (DLC)] を選択し、[ワークスペース ID] を選択または検索して、対応するモニタリングチャートを表示します。ワークスペース ID を見つけるには、「ワークスペースの管理」をご参照ください。

モニタリングチャートで、以下の操作を実行します:
-
監視ディメンションの切り替え:システムは、ジョブ、Pod (ワーカー)、GPU のディメンション別に監視メトリクスを表示します。
-
[ジョブディメンション] タブをクリックします。DLC ジョブ ID を選択または入力して、単一ジョブのモニタリングデータを表示します。
-
[Pod ディメンション] タブをクリックします。Pod ID を選択または入力して、単一 Pod のモニタリングデータを表示します。
-
GPU Level タブをクリックします。Pod ID を選択または入力して、単一 Pod の GPU レベルのモニタリングデータを表示します。
-
-
時間範囲の変更:

-
ズームイン:各チャートの右上隅にあるズームインアイコン
をクリックして、詳細なモニタリングデータを表示します。
-
アラートの設定
DLC ジョブのリソースレベルを監視するためにアラートルールを設定します。メトリックがルールに違反すると、システムは通知を送信します。アラートは CloudMonitor コンソールまたは API を通じて設定します。
アラート連絡先の設定
-
CloudMonitor コンソールにログインします。
左側のナビゲーションウィンドウで、 を選択します。
-
[アラート連絡先] タブで、[アラート連絡先の作成] をクリックし、連絡先の名前、電話番号、メールアドレス、または Webhook URL を入力して、[OK] をクリックします。
-
[アラート連絡先グループ] タブで、[アラート連絡先グループの作成] をクリックし、グループ名を入力し、既存のアラート連絡先をグループに追加して、[OK] をクリックします。
アラートルールの設定
-
CloudMonitor コンソールの左側のナビゲーションウィンドウで、[クラウドサービスの監視] を選択します。
-
「クラウドサービス監視」ページで、PAI-Deep Learning Containers (DLC) を検索して選択します。

-
[PAI-Deep Learning Containers (DLC)] ページで、サービスが配置されているリージョンを選択し、[アラートルールの作成] をクリックします。
-
[アラートルールの作成] パネルで、以下のパラメーターを設定し、[OK] をクリックします。
パラメーター
説明
プロダクト
[PAI-Deep Learning Containers (DLC)] を選択します。
リソース範囲
アラートルールの範囲:すべてのリソースまたはインスタンス。
-
すべてのリソース:いずれかの DLC リソースがアラートルールを満たした場合にアラートが送信されます。
-
インスタンス:[関連リソース] セクションでワークスペースを追加します。それらのワークスペース内の DLC ジョブがアラートルールを満たした場合にのみアラートが送信されます。
ルール
アラートをトリガーする条件。詳細については、「アラートルールの作成」をご参照ください。
ミュート期間
アラートが解決されない場合にアラート通知を再送信する間隔。
有効期間
アラートルールがアクティブになる期間。
タグ
アラートルール用のカスタムタグで、キーと値のペアで構成されます。
連絡先グループ
アラート通知を受信する連絡先グループ。
-
-
[PAI-Deep Learning Containers (DLC)] ページで、[アラートルール] をクリックして、アラートルールの詳細と履歴を表示します。
プログラムでアラートルールを設定するには、アラート履歴、テンプレート、ルール、連絡先に関する CloudMonitor API を使用します。詳細については、「CloudMonitor API リファレンス:アラートサービス」をご参照ください。
監視メトリクスのサブスクライブ
CloudMonitor は、カスタムの監視システムやダッシュボードを構築するために DLC 監視メトリックをサブスクライブするための API を提供しています。手順については、「クラウドサービス監視 API ディレクトリ」をご参照ください。
|
CloudMonitor API |
概要 |
|
メトリックの最新のモニタリングデータをクエリします。 |
|
|
クラウドサービスのメトリックのモニタリングデータをクエリします。 |
|
|
クラウドサービスのメトリックのモニタリングデータをクエリします。 |
|
|
CloudMonitor で利用可能なメトリックの詳細をクエリします。 |
|
|
CloudMonitor で時系列メトリックをサポートするクラウドサービスをクエリします。 |
|
|
クラウドサービスのメトリックの最新のモニタリングデータを値でソートしてクエリします。 |
以下の例では、DescribeMetricList API を使用して DLC メトリックのモニタリングデータをクエリします。
-
Deep Learning Containers (DLC) のメトリックページに移動します。
-
メトリックリストで対象のメトリックを見つけ、[操作] 列の [メトリックデータの取得] をクリックします。

-
OpenAPI Explorer ページで、以下の主要なパラメーターを設定し、その他はデフォルト値のままにします。詳細については、「DescribeMetricList」をご参照ください。
パラメーター
説明
Namespace
これを
acs_pai_dlcに設定します。MetricName
対象の監視メトリック。例:
CARD_GPU_DRAM_ACTIVE_UTIL。StartTime
開始時刻。例:2024-05-15 00:00:00。
EndTime
終了時刻。例:2024-05-28 00:00:00。
説明StartTime と EndTime の間隔は 31 日以下である必要があります。
-
パラメーターを設定した後、[呼び出し開始] をクリックして、指定した時間範囲のモニタリングデータを表示します。
ARMS の使用
Application Real-Time Monitoring Service (ARMS) は可観測性プラットフォームです。ARMS を使用して、DLC 分散トレーニングジョブ用の Grafana ダッシュボードと Prometheus アラートルールを作成します。詳細については、「Application Real-Time Monitoring Service (ARMS) とは」をご参照ください。
課金
ARMS は料金が発生します。課金の詳細については、「ARMS の課金」をご参照ください。
モニタリングデータの統合
DLC モニタリングデータを ARMS に統合するには:
-
ARMS コンソール にログインし、左側のナビゲーションウィンドウで [インテグレーションセンター] をクリックします。 -
[インテグレーションセンター] ページで、[人工知能] タブをクリックし、次に [Alibaba Cloud PAI-DLC 分散トレーニングサービス] をクリックします。

-
表示されるパネルの [プロビジョニングの開始] タブで、[データストレージリージョン] を選択し、[インテグレーション名] を入力して、[OK] をクリックします。
統合には約 1~2 分かかります。[効果プレビュー]、[収集されたメトリクス]、[アラートルールテンプレート] タブに切り替えて、メトリックダッシュボード、サポートされているメトリック、アラートルールテンプレートを表示します。
-
統合が完了したら、[プロビジョニング] ページに移動して、統合された環境の詳細を表示します。
Grafana ダッシュボードの表示
-
ARMS コンソール にログインします。左側のナビゲーションウィンドウで、[プロビジョニング] を選択します。[プロビジョニングされた環境] > [クラウドサービスリージョン環境] タブで、環境名をクリックします。 -
[コンポーネント管理] タブの [コンポーネントタイプ] セクションで、[Alibaba Cloud PAI-DLC 分散トレーニングサービス] を選択し、右側の [ダッシュボード] をクリックして、組み込みの Grafana ダッシュボードを表示します。

-
ダッシュボード名をクリックして、モニタリングダッシュボードを表示します。

Prometheus アラートの設定
DLC トレーニングジョブの Prometheus アラートルールを設定します:
-
ARMS コンソール にログインします。左側のナビゲーションウィンドウで、[プロビジョニング] を選択します。[プロビジョニングされた環境] > [クラウドサービスリージョン環境] タブで、環境名をクリックします。 -
[コンポーネント管理] タブの [コンポーネントタイプ] リストで、[Alibaba Cloud PAI-DLC 分散トレーニングサービス] を選択し、[アラートルール] をクリックして、組み込みのアラートルールを表示します。

-
組み込みのアラートルールはイベントを生成しますが、通知は送信しません。以下のいずれかの方法で通知を設定します:
-
アラートイベントの一致ルールを持つ通知ポリシーを設定します。ルールが一致すると、システムは指定された受信者にアラートを送信します。詳細については、「通知ポリシー」をご参照ください。
-
アラートルールを編集して通知方法を設定します。
Prometheus アラートルール編集ページで、アラート条件、持続時間、内容、通知をカスタマイズします。詳細については、「Prometheus アラートルールの作成」をご参照ください。
-