すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:リソースクォータのモニタリングとアラート

最終更新日:May 08, 2026

リソースクォータのステータスおよび負荷を、幅広いメトリックを使用してモニタリングできます。また、柔軟なアラートルールと通知を構成し、リソース使用量をリアルタイムで追跡することも可能です。CPU 使用率などのメトリックが指定されたしきい値を超えると、システムからアラート通知が送信されます。本記事では、CloudMonitor および ARMS を使用してモニタリングデータを表示し、アラート通知を構成し、メトリックをサブスクライブする方法について説明します。

前提条件

リソースクォータをモニタリングしたり、そのクォータに対してアラートを作成したりするには、まずリソースクォータを作成しておく必要があります。詳細については、「リソースクォータの概要」をご参照ください。

メトリック

PAI-Quota は、GPU、CPU、メモリ、ディスク、ネットワークリソースに関する主要なパフォーマンスメトリックを提供します。これらのメトリックは、クォータ単位またはノード単位で表示できます。すべてのメトリックの完全な一覧と詳細な説明については、「PAI-Quota メトリック」をご参照ください。

クォータ単位

メトリック

説明

GPU コンピュート使用率 (クォータ単位)

指定されたリソースクォータの GPU コンピュート使用率です。

GPU メモリ使用率 (クォータ単位)

指定されたリソースクォータの GPU メモリ使用率です。

スケジュール済み GPU 数 (クォータ単位)

指定されたリソースクォータのスケジュール済み GPU 数です。

GPU 総数 (クォータ単位)

指定されたリソースクォータの GPU 総数です。

GPU 消費電力 (クォータ単位)

指定されたリソースクォータの GPU 消費電力です。

スケジュール済み CPU コア数 (クォータ単位)

指定されたリソースクォータのスケジュール済み CPU コア数です。

CPU コア総数 (クォータ単位)

指定されたリソースクォータの CPU コア総数です。

CPU 使用率 (クォータ単位)

指定されたリソースクォータの CPU 使用率です。

メモリ使用量 (クォータ単位)

指定されたリソースクォータのメモリ使用量です。

その他のメトリックについては、「PAI-Quota メトリック」をご参照ください。

ノード別

メトリック

説明

GPU コンピュート使用率 (ノード単位)

指定されたノードの GPU コンピュート使用率です。

GPU メモリ使用率 (ノード単位)

指定されたノードの GPU メモリ使用率です。

スケジュール済み GPU 数 (ノード単位)

指定されたノードのスケジュール済み GPU 数です。

GPU 総数 (ノード単位)

指定されたノードの GPU 総数です。

GPU 消費電力 (ノード単位)

指定されたノードの GPU 消費電力です。

スケジュール済み CPU コア数 (ノード単位)

指定されたノードのスケジュール済み CPU コア数です。

CPU コア総数 (ノード単位)

指定されたノードの CPU コア総数です。

CPU 使用率 (ノード単位)

指定されたノードの CPU 使用率です。

メモリ使用量 (ノード単位)

指定されたノードのメモリ使用量です。

その他のメトリックについては、「PAI-Quota メトリック」をご参照ください。

モニタリングダッシュボードの表示

PAI コンソールにログインします。リソースクォータの詳細ページで、モニタリング タブをクリックしてモニタリング情報を表示します。

image

  1. モニタリングページには、クォータ単位およびノード単位での GPU、CPU、メモリ、ネットワーク、ディスク使用率に関するメトリックが表示されます。(注記:モニタリングデータは 30 日間保持されます。)

  2. 詳細 をクリックして、ビジネス要件に基づいて主要なメトリックを選択します。メトリックをドラッグ&ドロップして並べ替えることができ、コアデータに集中し、カスタマイズされた比較を行うことができます。

  3. モニタリングチャートでは、選択したエリアを拡大表示したり、直前の拡大操作を元に戻したり、ビューを初期状態にリセットしたり、チャートデータをダウンロードしたりできます。

    image

  4. チャート同期機能:有効にすると、すべてのチャートで拡大表示が同期され、複数のビューを簡単に比較できます。

    image

  5. 1 行あたりに表示するチャートの数をカスタマイズできます。

CloudMonitor の使用

CloudMonitor は、Alibaba Cloud リソースおよびインターネットアプリケーションをモニタリングするサービスです。企業向けに、すぐに使えるワンストップのモニタリングソリューションを提供します。CloudMonitor コンソールにログインして PAI-Quota のモニタリングデータを表示し、アラート通知を設定できます。また、CloudMonitor は API も提供しており、メトリックデータをサブスクライブして独自のモニタリングシステムやダッシュボードを構築することも可能です。詳細については、「CloudMonitor とは」をご参照ください。

課金

CloudMonitor の使用により料金が発生する場合があります。詳細な請求情報については、「CloudMonitor 課金」をご参照ください。

モニタリングデータの表示

  1. Cloud Monitor コンソールにログインします。

  2. 左側のナビゲーションウィンドウで、可視化 > クラウドサービス監視ダッシュボード を選択します。

  3. クラウドサービス監視 ページで、PAI-Quota を選択します。リソースクォータ名 の検索ボックスで、クォータ名を選択または入力すると、対応するモニタリングチャートが下部に表示されます。

    モニタリングチャートでは、以下の操作が可能です。

    • モニタリングディメンションの切り替えクォータ 単位および ノード 単位でメトリックを表示できます。image

    • 時間範囲の変更image

    • 拡大表示:チャート右上隅の拡大アイコン image.png をクリックして、モニタリングデータの詳細ビューを表示します。image

アラートルールの構成

アラート機能を使用して、リソースクォータ内のリソース使用量をモニタリングし、柔軟なアラートルールを構成できます。リソース使用量が変動して構成済みのしきい値を超えた場合、システムからアラート通知が送信されます。CloudMonitor コンソールでアラート通知を構成する手順は次のとおりです。

ステップ 1:アラート連絡先の構成

  1. Cloud Monitor コンソールにログインします。

  2. 左側のナビゲーションウィンドウで、アラームサービス > アラーム送信先 を選択します。

  3. アラート連絡先 タブで、アラート連絡先の作成 をクリックし、連絡先の名前、電話番号、メールアドレス、または Webhook URL を入力して、OK をクリックします。

  4. アラート連絡先グループ タブで、アラート連絡先グループの作成 をクリックし、グループ名を入力して既存のアラート連絡先をグループに追加し、OK をクリックします。

ステップ 2:アラートルールの構成

  1. CloudMonitor コンソールの左側ナビゲーションウィンドウで、クラウドサービス監視 を選択します。

  2. クラウドサービス監視 ページで、PAI-Quota を検索して移動します。image

  3. PAI-Quota ページで、ご利用のサービスが配置されているリージョンを選択し、アラートルールの作成 をクリックします。

  4. アラートルールの作成 パネルで、以下のパラメーターを構成し、OK をクリックします。

    パラメーター

    説明

    プロダクト

    CloudMonitor で管理されるサービスの名前です。PAI-Quota を選択します。

    リソース範囲

    アラートルールの適用範囲です。オプションは「すべてのリソース」、「アプリケーショングループ」、「インスタンス」です。

    • すべてのリソース:いずれかのリソースがルールの条件を満たすと、アラートが送信されます。

    • インスタンス:ルールを適用する特定のリソースクォータ(関連リソース)を選択します。選択されたインスタンスのいずれかがアラート条件を満たした場合にのみ、アラートがトリガーされます。

    ルールの説明

    アラートをトリガーする条件です。モニタリングデータがこの条件を満たすと、アラートが送信されます。アラートルールの構成方法については、「アラートルールの作成」をご参照ください。

    ミュート期間

    未解決のアラートについて、通知を再送信する間隔です。

    有効期間

    アラートルールがアクティブになる期間です。この期間内でのみ、システムはモニタリングデータをチェックしてアラート条件を評価します。

    アラート連絡先グループ

    アラート通知を受信する連絡先グループです。アラート連絡先が割り当てられているグループを選択します。

    タグ

    アラートルールに付与するキーと値のペアです。

  5. PAI-Quota ページで、アラートルールの表示 をクリックして、作成済みのアラートルールの詳細を確認したり、アラート履歴を表示したり、ルールを変更したりできます。

API オペレーションを使用してアラート通知を構成することも可能です。これらのオペレーションを使用して、アラート履歴の表示、アラートテンプレートの管理、アラートルールおよび連絡先の構成ができます。詳細については、「CloudMonitor API リファレンス:アラート」をご参照ください。

メトリックのサブスクライブ

CloudMonitor は包括的な API サービスを提供しており、リソースクォータのメトリックをサブスクライブできます。このサービスを使用して、独自のモニタリングシステムやダッシュボードを構築できます。詳細については、「クラウドサービス監視 API リファレンス」をご参照ください。

CloudMonitor API

概要

DescribeMetricLast

メトリックの最新のモニタリングデータを照会します。

DescribeMetricList

クラウドサービスのメトリックに関するモニタリングデータを照会します。

DescribeMetricData

クラウドサービスのメトリックに関するモニタリングデータを照会します。

DescribeMetricMetaList

CloudMonitor で利用可能なメトリックの詳細を照会します。

DescribeProjectMeta

CloudMonitor で時系列メトリックをサポートするクラウドサービスを照会します。

DescribeMetricTop

クラウドサービスのメトリックに関する最新のモニタリングデータを、値でソートして照会します。

次の例では、DescribeMetricList API オペレーションを使用してメトリックデータを照会する方法を示します。

  1. PAI-Quota メトリック ページに移動します。

  2. 対象のメトリックの行で、操作 > メトリックデータの取得 を選択します。image

  3. OpenAPI Explorer で、以下の主要なパラメーターを構成し、他のパラメーターはデフォルト設定のままにしておきます。パラメーターの詳細については、「DescribeMetricList」をご参照ください。

    パラメーター

    説明

    Namespace

    acs_pai_quota に設定します。

    MetricName

    照会するメトリックの名前です。例: QUOTA_CPU_REQUEST

    StartTime

    照会の時間範囲の開始時刻です。例: 2024-05-15 00:00:00。

    EndTime

    クエリの時間範囲の終了時刻です。例:2024-05-28 00:00:00。

    説明

    StartTime と EndTime の間の期間は 31 日を超えることはできません。

  4. パラメーターを構成したら、呼び出しの実行 をクリックして、指定された時間範囲のメトリックデータを表示します。

ARMS の使用

Application Real-Time Monitoring Service (ARMS) は Alibaba Cloud ネイティブの可観測性プラットフォームです。ARMS を使用して、PAI-Quota 専用のカスタム Grafana ダッシュボードを作成し、Prometheus アラートルールを構成してメトリックデータをモニタリングできます。詳細については、「ARMS とは」をご参照ください。

課金

ARMS の使用により料金が発生する場合があります。詳細な請求情報については、「ARMS 課金」をご参照ください。

モニタリングデータの統合

以下の手順に従ってください。

  1. ARMS コンソールにログインします。

  2. 左側のナビゲーションウィンドウで、インテグレーションセンター をクリックします。

  3. インテグレーションセンター ページで、左側の 人工知能 タブをクリックし、Alibaba Cloud PAI-Quota サービス をクリックします。image

  4. (任意)表示されたパネルで、モニタリングダッシュボードをプレビューし、収集されるメトリックおよびアラートルールテンプレートを確認できます。

    プレビュー

    プレビュー タブをクリックして、メトリックダッシュボードを表示します。image

    メトリックの収集

    メトリックの収集 タブをクリックして、収集されるメトリックの一覧を表示します。image

    アラートルールテンプレート

    アラートルールテンプレート タブをクリックして、事前定義されたアラートルールテンプレートを表示します。image

  5. 統合の開始 タブで、以下のパラメーターを構成し、OK をクリックします。

    パラメーター

    説明

    データストレージのリージョンを選択

    データを保存するリージョンを選択します。

    統合名

    コンソールの指示に従って、サービスの統合名を構成します。

    PAI-Quota モニタリングデータの統合には、約 1~2 分かかります。

  6. 統合が完了したら、統合管理 をクリックして、統合済み環境の詳細を表示できます。

Grafana ダッシュボードの表示

  1. ARMS コンソールにログインします。左側のナビゲーションウィンドウで、統合管理 を選択します。統合済み環境 > クラウドサービス環境 タブで、環境の名前をクリックします。

  2. コンポーネント管理 タブで、Addon タイプ セクションの ダッシュボード をクリックして、組み込みの Grafana ダッシュボードを表示します。image

  3. ダッシュボード名をクリックして、モニタリングダッシュボードを表示します。d3bae3f2d8c2bc286812e5969e1b9118

Prometheus アラートの構成

Prometheus を使用してモニタリングアラートを構成できます。以下の手順に従ってください。

  1. ARMS コンソールにログインします。左側のナビゲーションウィンドウで、統合管理 を選択します。統合済み環境 > クラウドサービス環境 タブで、環境の名前をクリックします。

  2. コンポーネント管理 ページで、Addon タイプ セクションの アラートルール をクリックして、組み込みのアラートルールを表示します。image

  3. 組み込みのアラートルールはアラートイベントを生成しますが、通知は送信しません。以下のいずれかの方法で、メールやその他のプラットフォームに通知を送信するように構成できます。

    • 通知ポリシーを構成して、アラートイベントのマッチングルールを定義します。ルールがトリガーされると、システムは指定された連絡先に選択した方法でアラートを送信します。詳細については、「通知ポリシー」をご参照ください。

    • アラートルールを編集して、通知方法を構成します。image

      Prometheus アラートルールの編集ページでは、アラート条件、持続時間、内容、通知をカスタマイズすることもできます。詳細な構成情報については、「Prometheus アラートルールの作成」をご参照ください。