GPU-HPN ノードモニタリングメトリクスリファレンス - Container Compute Service (ACS)

このトピックでは、ACS クラスター内の GPU-HPN ノードの Prometheus メトリックについて説明します。

メトリック

メトリック	説明	ラベル	例
node_cpu_seconds_total	ノードで使用された合計 CPU 時間。	NodeName: ノードの名前。Node オブジェクトの `spec.nodeName` に対応します。 instance: ノードの名前。Node オブジェクトの `spec.nodeName` に対応します。 mode: タイムスライスのタイプ。idle、iowait、irq、nice、softirq、steal、system、または user のいずれかです。	node_cpu_seconds_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx",mode="user"} 135268.20999999988
node_boot_time_seconds	GPU-HPN ノードの購入時に予約された時点。ノードがエラーにより自動修復をトリガーすると、このメトリックは最新の自動修復イベントが完了した時点に更新されます。	なし	node_boot_time_seconds 1.735635132e+09
node_memory_MemAvailable_bytes	ノード上の利用可能なメモリ量 (バイト単位)。	NodeName: ノードの名前。Node オブジェクトの `spec.nodeName` に対応します。 instance: ノードの名前。Node オブジェクトの `spec.nodeName` に対応します。	node_memory_MemAvailable_bytes{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 1.070595100672e+12
node_memory_MemFree_bytes	ノード上の空きメモリ量 (バイト単位)。	NodeName: ノードの名前。Node オブジェクトの `spec.nodeName` に対応します。 instance: ノードの名前。Node オブジェクトの `spec.nodeName` に対応します。	node_memory_MemFree_bytes{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 1.069967446016e+12
node_memory_MemTotal_bytes	ノード上の合計メモリ量 (バイト単位)。	NodeName: ノードの名前。Node オブジェクトの `spec.nodeName` に対応します。 instance: ノードの名前。Node オブジェクトの `spec.nodeName` に対応します。	node_memory_MemTotal_bytes{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 1.9327352832e+12
node_disk_read_bytes_total	ノードのディスクから読み取られた合計バイト数。	NodeName: ノードの名前。Node オブジェクトの `spec.nodeName` に対応します。 instance: ノードの名前。Node オブジェクトの `spec.nodeName` に対応します。	node_disk_read_bytes_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 1.36580096e+08
node_disk_reads_completed_total	ノードで完了したディスク読み取り操作の合計数。	NodeName: ノードの名前。Node オブジェクトの `spec.nodeName` に対応します。 instance: ノードの名前。Node オブジェクトの `spec.nodeName` に対応します。	node_disk_reads_completed_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 2530
node_disk_writes_completed_total	ノードで完了したディスク書き込み操作の合計数。	NodeName: ノードの名前。Node オブジェクトの `spec.nodeName` に対応します。 instance: ノードの名前。Node オブジェクトの `spec.nodeName` に対応します。	node_disk_writes_completed_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 85965
node_disk_written_bytes_total	ノードのディスクに書き込まれた合計バイト数。	NodeName: ノードの名前。Node オブジェクトの `spec.nodeName` に対応します。 instance: ノードの名前。Node オブジェクトの `spec.nodeName` に対応します。	node_disk_written_bytes_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 7.331622912e+09
node_network_receive_bytes_total	ノードが受信した合計バイト数。	NodeName: ノードの名前。Node オブジェクトの `spec.nodeName` に対応します。 instance: ノードの名前。Node オブジェクトの `spec.nodeName` に対応します。	node_network_receive_bytes_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 4.5447566e+07
node_network_transmit_bytes_total	ノードが送信した合計バイト数。	NodeName: ノードの名前。Node オブジェクトの `spec.nodeName` に対応します。 instance: ノードの名前。Node オブジェクトの `spec.nodeName` に対応します。	node_network_transmit_bytes_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 8.6421368e+07
DCGM_FI_DEV_COUNT	デバイスの数。	NodeName: ノードの名前。Node オブジェクトの `spec.nodeName` に対応します。 instance: ノードの名前。Node オブジェクトの `spec.nodeName` に対応します。	DCGM_FI_DEV_COUNT{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 8
DCGM_FI_DEV_FB_TOTAL	フレームバッファーの合計量 (MB)。	NodeName: ノードの名前。Node オブジェクトの `spec.nodeName` に対応します。 instance: ノードの名前。Node オブジェクトの `spec.nodeName` に対応します。	DCGM_FI_DEV_FB_TOTAL{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 1.56672e+06
DCGM_FI_DEV_FB_USED	使用されているフレームバッファーの量 (MB)。	NodeName: ノードの名前。Node オブジェクトの `spec.nodeName` に対応します。 instance: ノードの名前。Node オブジェクトの `spec.nodeName` に対応します。 UUID: デバイスの一意の識別子。 modelName: デバイスのモデル名。 device: デバイスの名前。 gpu: デバイス番号。	DCGM_FI_DEV_FB_USED{NodeName="cn-wulanchabu-c.cr-xxx",UUID="GPU-hashID",instance="cn-wulanchabu-c.cr-xx",modelName="mode-name-demo"} 9672
DCGM_FI_DEV_GPU_UTIL	GPU 使用率。パーセント値です。	NodeName: ノードの名前。Node オブジェクトの `spec.nodeName` に対応します。 instance: ノードの名前。Node オブジェクトの `spec.nodeName` に対応します。 UUID: デバイスの一意の識別子。 modelName: デバイスのモデル名。 device: デバイスの名前。 gpu: デバイス番号。	DCGM_FI_DEV_GPU_UTIL{NodeName="cn-wulanchabu-c.cr-xxx",UUID="GPU-hashID",instance="cn-wulanchabu-c.cr-xx",modelName="mode-name-demo"} 56
sysom_imc_node_event	ノードレベルのメモリ帯域幅パフォーマンスモニタリング (複数の NUMA ソケットの合計)。コレクションのタイムウィンドウは 30 秒です。	instance: ノードの名前。Node オブジェクトの `spec.nodeName` に対応します。 value: メモリ帯域幅メトリックのタイプ。 bw_rd: 読み取り帯域幅 (MB/s)。 bw_wr: 書き込み帯域幅 (MB/s)。 rlat: 平均読み取りレイテンシ (ns)。現在、他のタイプはサポートされていません。	sysom_imc_node_event{instance="cn-wulanchabu-c.cr-akrjaz1r0csm2qdrk227",value="bw_rd"} 780

よくある質問

Grafana ダッシュボードを構成する際に、DCGM_FI_DEV_FB_USED のような同じ名前の ACS Pod メトリックをどのように区別すればよいですか？

Pod メトリックには Namespace と Pod のラベルが含まれており、PromQL クエリを記述する際に同じ名前のメトリックを区別するために使用できます。

node_cpu_seconds_total のような累積メトリックの値がゼロにリセットされる原因は何ですか？

たとえば、node_cpu_seconds_total のような累積メトリックは、消費された CPU 時間の合計量を示します。従来の ECS ノードでは、この値はオペレーティングシステムによって収集されます。ECS ノードが再起動すると、この値はゼロにリセットされます。ACS クラスター内の GPU-HPN ノードは物理マシンではありません。累積値は ACS モニタリングコンポーネントによって収集されます。コンポーネントの変更やスペックアップ、GPU-HPN ノードのライフサイクル内でのエラー移行により、物理リソースが変更される可能性があります。その結果、累積メトリックの値はゼロにリセットされます。

irate などの計算メソッドを使用して累積メトリックの値を計算することをお勧めします。この方がより簡単です。関連するメトリックにしきい値ベースのアラートを構成している場合は、誤ったアラームを避けるためにフィルターパラメーターを追加することをお勧めします。

元のメトリックにおけるタイムスタンプの定義は何ですか？

GPU-HPN ノードメトリックには、標準の Prometheus フォーマットのタイムスタンプ属性があります。これは、リソースメトリックが収集されたときのタイムスタンプを示します。フォーマットは次のとおりです。

node_cpu_seconds_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx",mode="idle"} 17.509999999999998 1735112457237

Prometheus の honor_timestamps 構成と一緒に使用できます。ACS の組み込み Prometheus ダッシュボードでは、この機能がデフォルトで有効になっています。