すべてのプロダクト
Search
ドキュメントセンター

Container Compute Service:ACS GPU-HPN ノードメトリック

最終更新日:Nov 09, 2025

このトピックでは、ACS クラスター内の GPU-HPN ノードの Prometheus メトリックについて説明します。

メトリック

メトリック

説明

ラベル

node_cpu_seconds_total

ノードで使用された合計 CPU 時間。

  • NodeName: ノードの名前。Node オブジェクトの spec.nodeName に対応します。

  • instance: ノードの名前。Node オブジェクトの spec.nodeName に対応します。

  • mode: タイムスライスのタイプ。idle、iowait、irq、nice、softirq、steal、system、または user のいずれかです。

node_cpu_seconds_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx",mode="user"} 135268.20999999988

node_boot_time_seconds

GPU-HPN ノードの購入時に予約された時点。ノードがエラーにより自動修復をトリガーすると、このメトリックは最新の自動修復イベントが完了した時点に更新されます。

なし

node_boot_time_seconds 1.735635132e+09

node_memory_MemAvailable_bytes

ノード上の利用可能なメモリ量 (バイト単位)。

  • NodeName: ノードの名前。Node オブジェクトの spec.nodeName に対応します。

  • instance: ノードの名前。Node オブジェクトの spec.nodeName に対応します。

node_memory_MemAvailable_bytes{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 1.070595100672e+12

node_memory_MemFree_bytes

ノード上の空きメモリ量 (バイト単位)。

  • NodeName: ノードの名前。Node オブジェクトの spec.nodeName に対応します。

  • instance: ノードの名前。Node オブジェクトの spec.nodeName に対応します。

node_memory_MemFree_bytes{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 1.069967446016e+12

node_memory_MemTotal_bytes

ノード上の合計メモリ量 (バイト単位)。

  • NodeName: ノードの名前。Node オブジェクトの spec.nodeName に対応します。

  • instance: ノードの名前。Node オブジェクトの spec.nodeName に対応します。

node_memory_MemTotal_bytes{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 1.9327352832e+12

node_disk_read_bytes_total

ノードのディスクから読み取られた合計バイト数。

  • NodeName: ノードの名前。Node オブジェクトの spec.nodeName に対応します。

  • instance: ノードの名前。Node オブジェクトの spec.nodeName に対応します。

node_disk_read_bytes_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 1.36580096e+08

node_disk_reads_completed_total

ノードで完了したディスク読み取り操作の合計数。

  • NodeName: ノードの名前。Node オブジェクトの spec.nodeName に対応します。

  • instance: ノードの名前。Node オブジェクトの spec.nodeName に対応します。

node_disk_reads_completed_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 2530

node_disk_writes_completed_total

ノードで完了したディスク書き込み操作の合計数。

  • NodeName: ノードの名前。Node オブジェクトの spec.nodeName に対応します。

  • instance: ノードの名前。Node オブジェクトの spec.nodeName に対応します。

node_disk_writes_completed_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 85965

node_disk_written_bytes_total

ノードのディスクに書き込まれた合計バイト数。

  • NodeName: ノードの名前。Node オブジェクトの spec.nodeName に対応します。

  • instance: ノードの名前。Node オブジェクトの spec.nodeName に対応します。

node_disk_written_bytes_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 7.331622912e+09

node_network_receive_bytes_total

ノードが受信した合計バイト数。

  • NodeName: ノードの名前。Node オブジェクトの spec.nodeName に対応します。

  • instance: ノードの名前。Node オブジェクトの spec.nodeName に対応します。

node_network_receive_bytes_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 4.5447566e+07

node_network_transmit_bytes_total

ノードが送信した合計バイト数。

  • NodeName: ノードの名前。Node オブジェクトの spec.nodeName に対応します。

  • instance: ノードの名前。Node オブジェクトの spec.nodeName に対応します。

node_network_transmit_bytes_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 8.6421368e+07

DCGM_FI_DEV_COUNT

デバイスの数。

  • NodeName: ノードの名前。Node オブジェクトの spec.nodeName に対応します。

  • instance: ノードの名前。Node オブジェクトの spec.nodeName に対応します。

DCGM_FI_DEV_COUNT{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 8

DCGM_FI_DEV_FB_TOTAL

フレームバッファーの合計量 (MB)。

  • NodeName: ノードの名前。Node オブジェクトの spec.nodeName に対応します。

  • instance: ノードの名前。Node オブジェクトの spec.nodeName に対応します。

DCGM_FI_DEV_FB_TOTAL{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 1.56672e+06

DCGM_FI_DEV_FB_USED

使用されているフレームバッファーの量 (MB)。

  • NodeName: ノードの名前。Node オブジェクトの spec.nodeName に対応します。

  • instance: ノードの名前。Node オブジェクトの spec.nodeName に対応します。

  • UUID: デバイスの一意の識別子。

  • modelName: デバイスのモデル名。

  • device: デバイスの名前。

  • gpu: デバイス番号。

DCGM_FI_DEV_FB_USED{NodeName="cn-wulanchabu-c.cr-xxx",UUID="GPU-hashID",instance="cn-wulanchabu-c.cr-xx",modelName="mode-name-demo"} 9672

DCGM_FI_DEV_GPU_UTIL

GPU 使用率。パーセント値です。

  • NodeName: ノードの名前。Node オブジェクトの spec.nodeName に対応します。

  • instance: ノードの名前。Node オブジェクトの spec.nodeName に対応します。

  • UUID: デバイスの一意の識別子。

  • modelName: デバイスのモデル名。

  • device: デバイスの名前。

  • gpu: デバイス番号。

DCGM_FI_DEV_GPU_UTIL{NodeName="cn-wulanchabu-c.cr-xxx",UUID="GPU-hashID",instance="cn-wulanchabu-c.cr-xx",modelName="mode-name-demo"} 56

sysom_imc_node_event

ノードレベルのメモリ帯域幅パフォーマンスモニタリング (複数の NUMA ソケットの合計)。コレクションのタイムウィンドウは 30 秒です。

  • instance: ノードの名前。Node オブジェクトの spec.nodeName に対応します。

  • value: メモリ帯域幅メトリックのタイプ。

    • bw_rd: 読み取り帯域幅 (MB/s)。

    • bw_wr: 書き込み帯域幅 (MB/s)。

    • rlat: 平均読み取りレイテンシ (ns)。

    • 現在、他のタイプはサポートされていません。

sysom_imc_node_event{instance="cn-wulanchabu-c.cr-akrjaz1r0csm2qdrk227",value="bw_rd"} 780

よくある質問

Grafana ダッシュボードを構成する際に、DCGM_FI_DEV_FB_USED のような同じ名前の ACS Pod メトリックをどのように区別すればよいですか?

Pod メトリックには Namespace と Pod のラベルが含まれており、PromQL クエリを記述する際に同じ名前のメトリックを区別するために使用できます。

node_cpu_seconds_total のような累積メトリックの値がゼロにリセットされる原因は何ですか?

たとえば、node_cpu_seconds_total のような累積メトリックは、消費された CPU 時間の合計量を示します。従来の ECS ノードでは、この値はオペレーティングシステムによって収集されます。ECS ノードが再起動すると、この値はゼロにリセットされます。ACS クラスター内の GPU-HPN ノードは物理マシンではありません。累積値は ACS モニタリングコンポーネントによって収集されます。コンポーネントの変更やスペックアップ、GPU-HPN ノードのライフサイクル内でのエラー移行により、物理リソースが変更される可能性があります。その結果、累積メトリックの値はゼロにリセットされます。

irate などの計算メソッドを使用して累積メトリックの値を計算することをお勧めします。この方がより簡単です。関連するメトリックにしきい値ベースのアラートを構成している場合は、誤ったアラームを避けるためにフィルターパラメーターを追加することをお勧めします。

元のメトリックにおけるタイムスタンプの定義は何ですか?

GPU-HPN ノードメトリックには、標準の Prometheus フォーマットのタイムスタンプ属性があります。これは、リソースメトリックが収集されたときのタイムスタンプを示します。フォーマットは次のとおりです。

node_cpu_seconds_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx",mode="idle"} 17.509999999999998 1735112457237

Prometheus の honor_timestamps 構成 と一緒に使用できます。ACS の組み込み Prometheus ダッシュボードでは、この機能がデフォルトで有効になっています。