全部产品
Search
文档中心

Container Compute Service:Metrik pemantauan pod GPU ACS

更新时间:Nov 09, 2025

Pemantauan GPU menggunakan arsitektur yang terdiri dari Exporter, Prometheus, dan Grafana untuk memberikan observabilitas GPU yang komprehensif. Anda dapat menggunakan metrik pemantauan dari GPU Exporter untuk Container Service guna membangun Dasbor Grafana. Topik ini menjelaskan metrik pemantauan GPU.

Penagihan Metrik

Pemantauan GPU menggunakan GPU Exporter, yang kompatibel dengan metrik pemantauan yang disediakan oleh DCGM Exporter open source. Metrik pemantauan GPU berikut merupakan metrik dasar. Tidak ada biaya tambahan untuk menggunakan metrik ini di Prometheus. Jika Anda menggunakan metrik kustom lainnya, biaya tambahan akan dikenakan. Untuk informasi lebih lanjut tentang kebijakan penagihan, lihat Ikhtisar Penagihan.

Metrik

Metrik DCGM

Anda dapat menyaring metrik terkait DCGM menggunakan dimensi sumber daya berikut:

  • namespace="{{pod_namespace}}"

  • pod="{{pod_name}}"

  • Hostname="{{pod_name}}"

  • NodeName="cn-wulanchabu-c.cr-xxx" (Hanya untuk pod GPU-HPN)

  • UUID="GPU-example-uuid-abcd"

  • device="nvidia0"

  • gpu="0"

  • modelName="example-model"

Metric dimension

Nama metrik

Tipe

Satuan

Deskripsi

Data deret waktu sumber daya GPU

DCGM_FI_DEV_GPU_UTIL

Gauge

%

Pemanfaatan GPU. Ini adalah persentase waktu bahwa satu atau lebih fungsi kernel berada dalam status Aktif selama periode sampel. Periode sampel adalah 1 detik atau 1/6 detik, tergantung pada produk GPU.

Metrik ini menunjukkan bahwa fungsi kernel sedang menggunakan GPU, tetapi tidak menunjukkan detail penggunaan spesifik.

DCGM_FI_DEV_FB_USED

Gauge

MiB

Jumlah frame buffer (memori video) yang digunakan.

DCGM_FI_DEV_FB_TOTAL

Gauge

MiB

Jumlah total frame buffer (memori video).

DCGM_FI_DEV_ENC_UTIL

Gauge

%

Pemanfaatan encoder.

DCGM_FI_DEV_DEC_UTIL

Gauge

%

Pemanfaatan decoder.

DCGM_FI_DEV_MEM_COPY_UTIL

Gauge

%

Pemanfaatan bandwidth memori.

Sebagai contoh, bandwidth memori maksimum GPU NVIDIA V100 adalah 900 GB/s. Jika bandwidth memori saat ini adalah 450 GB/s, pemanfaatan bandwidth memori adalah 50%.

Profil

DCGM_FI_PROF_SM_ACTIVE

Gauge

%

Persentase waktu bahwa setidaknya satu warp aktif pada Streaming Multiprocessor (SM) selama interval waktu.

Nilai ini adalah rata-rata untuk semua SM dan tidak sensitif terhadap jumlah thread per blok.

Warp menjadi aktif setelah dijadwalkan dan alokasi sumber dayanya selesai. Warp dapat berada dalam status komputasi atau non-komputasi, seperti menunggu permintaan memori.

Nilai di bawah 0,5 menunjukkan penggunaan GPU yang tidak efisien. Nilai di atas 0,8 diperlukan untuk efisiensi tinggi.

Sebagai contoh, asumsikan GPU memiliki N SM:

Fungsi kernel menggunakan N blok thread untuk berjalan di semua SM selama seluruh interval waktu. Nilainya adalah 1 (100%).

Fungsi kernel menjalankan N/5 blok thread selama interval waktu. Nilainya adalah 0,2.

Fungsi kernel menggunakan N blok thread tetapi hanya berjalan selama 1/5 dari interval waktu. Nilainya adalah 0,2.

DCGM_FI_PROF_SM_OCCUPANCY

Gauge

%

Rasio warp yang bertempat tinggal di SM terhadap jumlah maksimum warp yang dapat didukung SM selama interval waktu.

Nilai ini adalah rata-rata untuk semua SM selama interval waktu.

Occupancy yang lebih tinggi tidak selalu berarti pemanfaatan GPU yang lebih tinggi. Untuk beban kerja yang dibatasi oleh bandwidth memori GPU (DCGM_FI_PROF_DRAM_ACTIVE), occupancy yang lebih tinggi menunjukkan penggunaan GPU yang lebih efektif.

DCGM_FI_PROF_DRAM_ACTIVE

Gauge

%

Pecahan siklus di mana memori perangkat sibuk mengirim atau menerima data. Ini juga dikenal sebagai Pemanfaatan Bandwidth Memori.

Nilai ini adalah rata-rata selama interval waktu, bukan nilai instan.

Nilai yang lebih tinggi menunjukkan pemanfaatan memori perangkat yang lebih tinggi.

Nilai 1 (100%) berarti instruksi DRAM dieksekusi setiap siklus selama interval waktu. Secara praktis, puncak maksimum yang dapat dicapai adalah sekitar 0,8 (80%).

Nilai 0,2 (20%) berarti bahwa 20% dari siklus dalam interval waktu dihabiskan untuk membaca dari atau menulis ke memori perangkat.

  • DCGM_FI_PROF_NVLINK_RX_BYTES

  • DCGM_FI_PROF_NVLINK_TX_BYTES

Counter

B/s

Laju data yang ditransmisikan atau diterima melalui NVLink, tidak termasuk header protokol.

Nilai ini adalah rata-rata selama interval waktu, bukan nilai instan.

Laju dirata-ratakan selama interval. Sebagai contoh, jika 1 GB data ditransfer dalam 1 detik, laju tersebut adalah 1 GB/s, terlepas apakah transfer dilakukan pada laju konstan atau dalam burst. Bandwidth teoretis maksimum NVLink Gen2 adalah 25 GB/s per link dalam setiap arah.

  • DCGM_FI_PROF_PCIE_RX_BYTES

  • DCGM_FI_PROF_PCIE_TX_BYTES

Counter

B/s

Laju data yang ditransmisikan atau diterima melalui bus PCIe, termasuk header protokol dan payload data.

Nilai ini adalah rata-rata selama interval waktu, bukan nilai instan.

Laju dirata-ratakan selama interval. Sebagai contoh, jika 1 GB data ditransfer dalam 1 detik, laju tersebut adalah 1 GB/s, terlepas apakah transfer dilakukan pada laju konstan atau dalam burst. Bandwidth teoretis maksimum PCIe Gen3 adalah 985 MB/s per saluran.

DCGM_FI_PROF_PIPE_TENSOR_ACTIVE

Gauge

%

Pecahan siklus di mana Tensor (HMMA/IMMA) Pipe aktif.

Nilai ini adalah rata-rata selama interval waktu, bukan nilai instan.

Nilai yang lebih tinggi menunjukkan pemanfaatan Tensor Cores yang lebih tinggi.

Nilai 1 (100%) berarti instruksi Tensor dikeluarkan setiap siklus instruksi lainnya selama interval waktu. Satu instruksi membutuhkan dua siklus untuk diselesaikan.

Nilai 0,2 (20%) dapat berarti salah satu dari hal berikut:

  • Tensor Cores dari 20% SM berjalan pada pemanfaatan 100% selama seluruh interval waktu.

  • Tensor Cores dari 100% SM berjalan pada pemanfaatan 20% selama seluruh interval waktu.

  • Tensor Cores pada 100% SM berjalan pada pemanfaatan 100% selama 1/5 dari interval waktu.

  • Kombinasi lainnya.

Frekuensi (Clock)

DCGM_FI_DEV_SM_CLOCK

Gauge

MHz

Frekuensi clock SM.

Pengecualian GPU/Kesalahan XID

DCGM_FI_DEV_NVSWITCH_FATAL_ERRORS

Gauge

Kode kesalahan

Informasi kesalahan fatal NVSwitch.

Nilai ini adalah kode kesalahan SXid.

DCGM_FI_DEV_ROW_REMAP_FAILURE

Gauge

-

Kesalahan remap baris terjadi.

DCGM_FI_DEV_ROW_REMAP_PENDING

Gauge

-

Remap baris tertunda.

Suhu & Daya

DCGM_FI_DEV_GPU_TEMP

Gauge

Suhu GPU.

DCGM_FI_DEV_MEMORY_TEMP

Gauge

Suhu memori.

DCGM_FI_DEV_POWER_USAGE

Gauge

W

Konsumsi daya.

Halaman yang Dipensiunkan

DCGM_FI_DEV_RETIRED_SBE

Gauge

-

Jumlah halaman yang dipensiunkan karena kesalahan bit tunggal (SBE).

DCGM_FI_DEV_RETIRED_DBE

Gauge

-

Jumlah halaman yang dipensiunkan karena kesalahan bit ganda (DBE).

Metrik RDMA

Anda dapat menyaring metrik terkait RDMA menggunakan dimensi sumber daya berikut:

  • app="nusa-exporter"

  • hostname="{{pod_name}}"

  • ip="172.16.17.114"

  • namespace="{{pod_namespace}}"

  • node="{{virtual-kubelet-nodename}}"

  • pod="{{pod_name}}"

Nama metrik

Tipe

Satuan

Deskripsi

  • rdma_service_monitor_tx_bytes_rate

  • rdma_service_monitor_rx_bytes_rate

Gauge

bytes

Lalu lintas keluar/masuk instan jaringan RDMA pod.

  • rdma_service_monitor_tx_bytes

  • rdma_service_monitor_rx_bytes

Counter

bytes

Lalu lintas keluar/masuk kumulatif jaringan RDMA pod.

  • rdma_service_monitor_tx_packets_rate

  • rdma_service_monitor_rx_packets_rate

Gauge

paket

Jumlah paket keluar/masuk instan pada jaringan RDMA pod.

  • rdma_service_monitor_tx_packets

  • rdma_service_monitor_rx_packets

Counter

paket

Jumlah kumulatif paket keluar/masuk pada jaringan RDMA pod.