全部产品
Search
文档中心

Container Compute Service:Metrik node GPU-HPN ACS

更新时间:Nov 09, 2025

Topik ini memperkenalkan metrik Prometheus untuk node GPU-HPN dalam kluster ACS.

Metrik

Metrik

Deskripsi

Label

Contoh

node_cpu_seconds_total

Total waktu CPU yang digunakan pada node.

  • NodeName: Nama node, yang sesuai dengan spec.nodeName dalam objek Node.

  • instance: Nama node, yang sesuai dengan spec.nodeName dalam objek Node.

  • mode: Jenis irisan waktu, yang bisa berupa idle, iowait, irq, nice, softirq, steal, system, atau user.

node_cpu_seconds_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx",mode="user"} 135268.20999999988

node_boot_time_seconds

Titik waktu yang disimpan saat membeli node GPU-HPN. Ketika node memicu perbaikan otomatis karena kegagalan, metrik ini diperbarui ke titik waktu ketika peristiwa perbaikan otomatis terbaru selesai.

Tidak ada

node_boot_time_seconds 1.735635132e+09

node_memory_MemAvailable_bytes

Jumlah memori yang tersedia di node, dalam byte.

  • NodeName: Nama node, yang sesuai dengan spec.nodeName dalam objek Node.

  • instance: Nama node, yang sesuai dengan spec.nodeName dalam objek Node.

node_memory_MemAvailable_bytes{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 1.070595100672e+12

node_memory_MemFree_bytes

Jumlah memori bebas di node, dalam byte.

  • NodeName: Nama node, yang sesuai dengan spec.nodeName dalam objek Node.

  • instance: Nama node, yang sesuai dengan spec.nodeName dalam objek Node.

node_memory_MemFree_bytes{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 1.069967446016e+12

node_memory_MemTotal_bytes

Jumlah total memori di node, dalam byte.

  • NodeName: Nama node, yang sesuai dengan spec.nodeName dalam objek Node.

  • instance: Nama node, yang sesuai dengan spec.nodeName dalam objek Node.

node_memory_MemTotal_bytes{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 1.9327352832e+12

node_disk_read_bytes_total

Jumlah total byte yang dibaca dari disk node.

  • NodeName: Nama node, yang sesuai dengan spec.nodeName dalam objek Node.

  • instance: Nama node, yang sesuai dengan spec.nodeName dalam objek Node.

node_disk_read_bytes_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 1.36580096e+08

node_disk_reads_completed_total

Jumlah total operasi baca disk yang selesai di node.

  • NodeName: Nama node, yang sesuai dengan spec.nodeName dalam objek Node.

  • instance: Nama node, yang sesuai dengan spec.nodeName dalam objek Node.

node_disk_reads_completed_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 2530

node_disk_writes_completed_total

Jumlah total operasi tulis disk yang selesai di node.

  • NodeName: Nama node, yang sesuai dengan spec.nodeName dalam objek Node.

  • instance: Nama node, yang sesuai dengan spec.nodeName dalam objek Node.

node_disk_writes_completed_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 85965

node_disk_written_bytes_total

Jumlah total byte yang ditulis ke disk node.

  • NodeName: Nama node, yang sesuai dengan spec.nodeName dalam objek Node.

  • instance: Nama node, yang sesuai dengan spec.nodeName dalam objek Node.

node_disk_written_bytes_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 7.331622912e+09

node_network_receive_bytes_total

Jumlah total byte yang diterima oleh node.

  • NodeName: Nama node, yang sesuai dengan spec.nodeName dalam objek Node.

  • instance: Nama node, yang sesuai dengan spec.nodeName dalam objek Node.

node_network_receive_bytes_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 4.5447566e+07

node_network_transmit_bytes_total

Jumlah total byte yang dikirim oleh node.

  • NodeName: Nama node, yang sesuai dengan spec.nodeName dalam objek Node.

  • instance: Nama node, yang sesuai dengan spec.nodeName dalam objek Node.

node_network_transmit_bytes_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 8.6421368e+07

DCGM_FI_DEV_COUNT

Jumlah perangkat.

  • NodeName: Nama node, yang sesuai dengan spec.nodeName dalam objek Node.

  • instance: Nama node, yang sesuai dengan spec.nodeName dalam objek Node.

DCGM_FI_DEV_COUNT{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 8

DCGM_FI_DEV_FB_TOTAL

Jumlah total frame buffer dalam MB.

  • NodeName: Nama node, yang sesuai dengan spec.nodeName dalam objek Node.

  • instance: Nama node, yang sesuai dengan spec.nodeName dalam objek Node.

DCGM_FI_DEV_FB_TOTAL{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 1.56672e+06

DCGM_FI_DEV_FB_USED

Jumlah frame buffer yang digunakan dalam MB.

  • NodeName: Nama node, yang sesuai dengan spec.nodeName dalam objek Node.

  • instance: Nama node, yang sesuai dengan spec.nodeName dalam objek Node.

  • UUID: Pengenal unik perangkat.

  • modelName: Nama model perangkat.

  • device: Nama perangkat.

  • gpu: Nomor perangkat.

DCGM_FI_DEV_FB_USED{NodeName="cn-wulanchabu-c.cr-xxx",UUID="GPU-hashID",instance="cn-wulanchabu-c.cr-xx",modelName="mode-name-demo"} 9672

DCGM_FI_DEV_GPU_UTIL

Pemanfaatan GPU, yang merupakan nilai persentase.

  • NodeName: Nama node, yang sesuai dengan spec.nodeName dalam objek Node.

  • instance: Nama node, yang sesuai dengan spec.nodeName dalam objek Node.

  • UUID: Pengenal unik perangkat.

  • modelName: Nama model perangkat.

  • device: Nama perangkat.

  • gpu: Nomor perangkat.

DCGM_FI_DEV_GPU_UTIL{NodeName="cn-wulanchabu-c.cr-xxx",UUID="GPU-hashID",instance="cn-wulanchabu-c.cr-xx",modelName="mode-name-demo"} 56

sysom_imc_node_event

Pemantauan kinerja bandwidth memori tingkat node (jumlah dari beberapa soket NUMA). Jendela waktu pengumpulan adalah 30 detik.

  • instance: Nama node, yang sesuai dengan spec.nodeName dalam objek Node.

  • value: Jenis metrik bandwidth memori.

    • bw_rd: Bandwidth baca (MB/s).

    • bw_wr: Bandwidth tulis (MB/s).

    • rlat: Latensi rata-rata baca (ns).

    • Jenis lainnya saat ini tidak didukung.

sysom_imc_node_event{instance="cn-wulanchabu-c.cr-akrjaz1r0csm2qdrk227",value="bw_rd"} 780

FAQ

Bagaimana cara membedakan metrik pod ACS dengan nama yang sama, seperti DCGM_FI_DEV_FB_USED, saat saya mengonfigurasi dasbor Grafana?

Metrik Pod mencakup label Namespace dan Pod, yang dapat digunakan untuk membedakan metrik dengan nama yang sama saat menulis kueri PromQL.

Apa penyebab nilai metrik kumulatif, seperti node_cpu_seconds_total, diatur ulang menjadi nol?

Sebagai contoh, metrik kumulatif seperti node_cpu_seconds_total menunjukkan total waktu CPU yang dikonsumsi. Pada node ECS tradisional, nilai ini dikumpulkan oleh sistem operasi. Saat node ECS di-restart, nilai tersebut diatur ulang menjadi nol. Node GPU-HPN dalam kluster ACS bukan mesin fisik. Nilai kumulatif dikumpulkan oleh komponen pemantauan ACS. Perubahan atau peningkatan komponen, bersama dengan migrasi kesalahan dalam siklus hidup node GPU-HPN, dapat menyebabkan perubahan sumber daya fisik. Akibatnya, nilai metrik kumulatif diatur ulang menjadi nol.

Kami merekomendasikan menggunakan metode perhitungan seperti irate untuk menghitung nilai metrik kumulatif, yang lebih mudah dipahami. Jika Anda telah mengonfigurasi peringatan berbasis ambang batas untuk metrik terkait, kami sarankan menambahkan parameter filter guna menghindari alarm palsu.

Apa definisi timestamp dalam metrik asli?

Metrik node GPU-HPN memiliki atribut timestamp dalam format standar Prometheus, yang menunjukkan waktu pengumpulan metrik sumber daya. Formatnya adalah sebagai berikut:

node_cpu_seconds_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx",mode="idle"} 17.509999999999998 1735112457237

Anda dapat menggunakannya dengan konfigurasi honor_timestamps Prometheus. Dasbor Prometheus bawaan di ACS memiliki fitur ini diaktifkan secara default.