Topik ini memperkenalkan metrik Prometheus untuk node GPU-HPN dalam kluster ACS.
Metrik
Metrik | Deskripsi | Label | Contoh |
node_cpu_seconds_total | Total waktu CPU yang digunakan pada node. |
| node_cpu_seconds_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx",mode="user"} 135268.20999999988 |
node_boot_time_seconds | Titik waktu yang disimpan saat membeli node GPU-HPN. Ketika node memicu perbaikan otomatis karena kegagalan, metrik ini diperbarui ke titik waktu ketika peristiwa perbaikan otomatis terbaru selesai. | Tidak ada | node_boot_time_seconds 1.735635132e+09 |
node_memory_MemAvailable_bytes | Jumlah memori yang tersedia di node, dalam byte. |
| node_memory_MemAvailable_bytes{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 1.070595100672e+12 |
node_memory_MemFree_bytes | Jumlah memori bebas di node, dalam byte. |
| node_memory_MemFree_bytes{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 1.069967446016e+12 |
node_memory_MemTotal_bytes | Jumlah total memori di node, dalam byte. |
| node_memory_MemTotal_bytes{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 1.9327352832e+12 |
node_disk_read_bytes_total | Jumlah total byte yang dibaca dari disk node. |
| node_disk_read_bytes_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 1.36580096e+08 |
node_disk_reads_completed_total | Jumlah total operasi baca disk yang selesai di node. |
| node_disk_reads_completed_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 2530 |
node_disk_writes_completed_total | Jumlah total operasi tulis disk yang selesai di node. |
| node_disk_writes_completed_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 85965 |
node_disk_written_bytes_total | Jumlah total byte yang ditulis ke disk node. |
| node_disk_written_bytes_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 7.331622912e+09 |
node_network_receive_bytes_total | Jumlah total byte yang diterima oleh node. |
| node_network_receive_bytes_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 4.5447566e+07 |
node_network_transmit_bytes_total | Jumlah total byte yang dikirim oleh node. |
| node_network_transmit_bytes_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 8.6421368e+07 |
DCGM_FI_DEV_COUNT | Jumlah perangkat. |
| DCGM_FI_DEV_COUNT{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 8 |
DCGM_FI_DEV_FB_TOTAL | Jumlah total frame buffer dalam MB. |
| DCGM_FI_DEV_FB_TOTAL{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 1.56672e+06 |
DCGM_FI_DEV_FB_USED | Jumlah frame buffer yang digunakan dalam MB. |
| DCGM_FI_DEV_FB_USED{NodeName="cn-wulanchabu-c.cr-xxx",UUID="GPU-hashID",instance="cn-wulanchabu-c.cr-xx",modelName="mode-name-demo"} 9672 |
DCGM_FI_DEV_GPU_UTIL | Pemanfaatan GPU, yang merupakan nilai persentase. |
| DCGM_FI_DEV_GPU_UTIL{NodeName="cn-wulanchabu-c.cr-xxx",UUID="GPU-hashID",instance="cn-wulanchabu-c.cr-xx",modelName="mode-name-demo"} 56 |
sysom_imc_node_event | Pemantauan kinerja bandwidth memori tingkat node (jumlah dari beberapa soket NUMA). Jendela waktu pengumpulan adalah 30 detik. |
| sysom_imc_node_event{instance="cn-wulanchabu-c.cr-akrjaz1r0csm2qdrk227",value="bw_rd"} 780 |