このトピックでは、ACS クラスター内の GPU-HPN ノードの Prometheus メトリックについて説明します。
メトリック
メトリック | 説明 | ラベル | 例 |
node_cpu_seconds_total | ノードで使用された合計 CPU 時間。 |
| node_cpu_seconds_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx",mode="user"} 135268.20999999988 |
node_boot_time_seconds | GPU-HPN ノードの購入時に予約された時点。ノードがエラーにより自動修復をトリガーすると、このメトリックは最新の自動修復イベントが完了した時点に更新されます。 | なし | node_boot_time_seconds 1.735635132e+09 |
node_memory_MemAvailable_bytes | ノード上の利用可能なメモリ量 (バイト単位)。 |
| node_memory_MemAvailable_bytes{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 1.070595100672e+12 |
node_memory_MemFree_bytes | ノード上の空きメモリ量 (バイト単位)。 |
| node_memory_MemFree_bytes{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 1.069967446016e+12 |
node_memory_MemTotal_bytes | ノード上の合計メモリ量 (バイト単位)。 |
| node_memory_MemTotal_bytes{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 1.9327352832e+12 |
node_disk_read_bytes_total | ノードのディスクから読み取られた合計バイト数。 |
| node_disk_read_bytes_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 1.36580096e+08 |
node_disk_reads_completed_total | ノードで完了したディスク読み取り操作の合計数。 |
| node_disk_reads_completed_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 2530 |
node_disk_writes_completed_total | ノードで完了したディスク書き込み操作の合計数。 |
| node_disk_writes_completed_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 85965 |
node_disk_written_bytes_total | ノードのディスクに書き込まれた合計バイト数。 |
| node_disk_written_bytes_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 7.331622912e+09 |
node_network_receive_bytes_total | ノードが受信した合計バイト数。 |
| node_network_receive_bytes_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 4.5447566e+07 |
node_network_transmit_bytes_total | ノードが送信した合計バイト数。 |
| node_network_transmit_bytes_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 8.6421368e+07 |
DCGM_FI_DEV_COUNT | デバイスの数。 |
| DCGM_FI_DEV_COUNT{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 8 |
DCGM_FI_DEV_FB_TOTAL | フレームバッファーの合計量 (MB)。 |
| DCGM_FI_DEV_FB_TOTAL{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 1.56672e+06 |
DCGM_FI_DEV_FB_USED | 使用されているフレームバッファーの量 (MB)。 |
| DCGM_FI_DEV_FB_USED{NodeName="cn-wulanchabu-c.cr-xxx",UUID="GPU-hashID",instance="cn-wulanchabu-c.cr-xx",modelName="mode-name-demo"} 9672 |
DCGM_FI_DEV_GPU_UTIL | GPU 使用率。パーセント値です。 |
| DCGM_FI_DEV_GPU_UTIL{NodeName="cn-wulanchabu-c.cr-xxx",UUID="GPU-hashID",instance="cn-wulanchabu-c.cr-xx",modelName="mode-name-demo"} 56 |
sysom_imc_node_event | ノードレベルのメモリ帯域幅パフォーマンスモニタリング (複数の NUMA ソケットの合計)。コレクションのタイムウィンドウは 30 秒です。 |
| sysom_imc_node_event{instance="cn-wulanchabu-c.cr-akrjaz1r0csm2qdrk227",value="bw_rd"} 780 |