全部产品
Search
文档中心

Container Service for Kubernetes:Pengenalan metrik

更新时间:Jul 06, 2025

Pemantauan GPU 2.0 menggunakan kombinasi pengekspor, Prometheus, dan Grafana untuk membangun sistem pemantauan GPU yang mendukung berbagai skenario. Anda dapat membuat Dasbor Grafana yang mencakup metrik dari pengekspor GPU untuk memantau kluster Container Service for Kubernetes (ACK) Anda. Topik ini menjelaskan metrik yang didukung oleh pemantauan GPU 2.0.

Deskripsi

Pengekspor GPU yang digunakan dalam pemantauan GPU 2.0 kompatibel dengan metrik yang disediakan oleh pengekspor DCGM. Selain itu, pengekspor GPU juga menyediakan metrik kustom untuk memenuhi kebutuhan skenario tertentu. Untuk informasi lebih lanjut tentang pengekspor DCGM, lihat DCGM exporter.

Metrik GPU yang digunakan dalam pemantauan GPU 2.0 mencakup metrik yang didukung oleh pengekspor DCGM dan metrik kustom.

Deskripsi Penagihan

Biaya dikenakan untuk penggunaan metrik kustom dalam pemantauan GPU.

Sebelum mengaktifkan fitur ini, kami sarankan Anda membaca Ikhtisar Penagihan untuk memahami aturan penagihan metrik kustom. Biaya dapat bervariasi tergantung pada ukuran kluster dan jumlah aplikasi. Anda dapat mengikuti langkah-langkah dalam Lihat penggunaan sumber daya untuk memantau dan mengelola penggunaan sumber daya.

Metrik yang didukung oleh pengekspor DCGM

Utilization metrics

Metrik

Tipe

Satuan

Deskripsi

DCGM_FI_DEV_GPU_UTIL

Gauge

%

Pemanfaatan GPU dalam siklus 1 detik atau 1/6 detik. Siklus bervariasi berdasarkan model GPU. Siklus adalah periode waktu selama satu atau lebih fungsi kernel tetap aktif.

Metrik ini hanya menunjukkan bahwa satu atau lebih fungsi kernel sedang menggunakan sumber daya GPU. Metrik ini tidak menampilkan informasi rinci tentang penggunaan GPU.

DCGM_FI_DEV_MEM_COPY_UTIL

Gauge

%

Pemanfaatan bandwidth memori.

Contohnya, bandwidth memori maksimum GPU V100 adalah 900 GB/detik. Jika penggunaan bandwidth memori saat ini adalah 450 GB/detik, pemanfaatan bandwidth memori adalah 50%.

DCGM_FI_DEV_ENC_UTIL

Gauge

%

Pemanfaatan encoder.

DCGM_FI_DEV_DEC_UTIL

Gauge

%

Pemanfaatan decoder.

Memory metrics

Metrik

Tipe

Satuan

Deskripsi

DCGM_FI_DEV_FB_FREE

Gauge

MiB

Jumlah memori framebuffer bebas.

Catatan

Memori framebuffer juga dikenal sebagai Memori GPU.

DCGM_FI_DEV_FB_USED

Gauge

MiB

Jumlah memori framebuffer yang digunakan.

Nilai metrik ini sama dengan nilai Memory-Usage yang dikembalikan oleh perintah nvidia-smi.

Profiling metrics

Metrik

Tipe

Satuan

Deskripsi

DCGM_FI_PROF_GR_ENGINE_ACTIVE

Gauge

%

Rasio siklus di mana mesin grafis atau mesin komputasi tetap aktif.

Nilainya adalah rata-rata semua mesin grafis atau mesin komputasi.

Mesin grafis atau mesin komputasi aktif jika konteks grafis atau konteks komputasi terikat pada thread dan konteks tersebut sibuk.

DCGM_FI_PROF_SM_ACTIVE

Gauge

%

Rasio siklus di mana setidaknya satu warp pada multiprosesor streaming (SM) tetap aktif.

Nilainya adalah rata-rata semua SM. Nilai ini tidak bervariasi dengan jumlah warp yang termasuk dalam blok thread.

Ketika sebuah warp dijadwalkan dan sumber daya dialokasikan ke warp tersebut, warp dianggap aktif. Dalam skenario ini, status warp mungkin Menghitung atau mungkin tidak Menghitung. Contohnya, warp mungkin sedang menunggu permintaan memori.

Jika nilai metrik ini turun di bawah 0,5, pemanfaatan GPU rendah. Untuk memastikan pemanfaatan GPU tinggi, pastikan nilainya lebih besar dari 0,8.

Contohnya, sebuah GPU memiliki N SM:

  • Jika semua SM dalam N blok thread menjalankan fungsi kernel dalam satu siklus, nilai metrik ini adalah 1 (100%).

  • Jika N/5 blok thread menjalankan fungsi kernel dalam satu siklus, nilai metrik ini adalah 0,2.

  • Jika N blok thread menjalankan fungsi kernel selama 20% dari siklus, nilai metrik ini adalah 0,2.

DCGM_FI_PROF_SM_OCCUPANCY

Gauge

%

Rasio jumlah warp yang berada pada SM terhadap jumlah maksimum warp yang didukung oleh SM dalam satu siklus.

Nilainya adalah rata-rata semua SM dalam satu siklus.

Nilai yang lebih besar dari metrik ini tidak menunjukkan pemanfaatan GPU yang lebih tinggi. Hanya ketika metrik DCGM_FI_PROF_DRAM_ACTIVE menunjukkan bahwa bandwidth memori GPU terbatas, nilai yang lebih besar dari metrik ini menunjukkan pemanfaatan GPU yang lebih tinggi.

DCGM_FI_PROF_PIPE_TENSOR_ACTIVE

Gauge

%

Rasio siklus di mana pipa tensor (HMMA/IMMA) tetap aktif.

Nilainya adalah nilai rata-rata dalam satu siklus bukan nilai instan.

Nilai yang lebih besar dari metrik ini menunjukkan pemanfaatan core tensor yang lebih tinggi.

Jika nilainya 1 (100%), instruksi tensor dikirimkan pada interval dalam siklus. Setiap instruksi dieksekusi dalam dua interval.

Jika nilai metrik ini adalah 0,2 (20%), salah satu kondisi berikut mungkin ada:

  • Pemanfaatan core tensor 20% dari SM dalam siklus adalah 100%.

  • Pemanfaatan core tensor semua SM dalam siklus adalah 20%.

  • Pemanfaatan core tensor semua SM dalam 20% dari siklus adalah 100%.

  • Kondisi lainnya.

DCGM_FI_PROF_PIPE_FP64_ACTIVE

Gauge

%

Rasio siklus di mana pipa fp64 (presisi ganda) tetap aktif.

Nilainya adalah nilai rata-rata dalam satu siklus bukan nilai instan.

Nilai yang lebih besar dari metrik ini menunjukkan pemanfaatan core fp64 yang lebih tinggi.

Jika nilainya 1 (100%), instruksi fp64 dieksekusi setiap empat minggu dalam siklus ketika GPU Volta digunakan.

Jika nilai metrik ini adalah 0,2 (20%), salah satu kondisi berikut mungkin ada:

  • Pemanfaatan core fp64 20% dari SM dalam siklus adalah 100%.

  • Pemanfaatan core fp64 semua SM dalam siklus adalah 20%.

  • Pemanfaatan core fp64 semua SM dalam 20% dari siklus adalah 100%.

  • Kondisi lainnya.

DCGM_FI_PROF_PIPE_FP32_ACTIVE

Gauge

%

Rasio siklus di mana pipa operasi Fused Multiply-Add (FMA) tetap aktif. Operasi FMA mencakup operasi FP32 (presisi tunggal) dan operasi integer.

Nilainya adalah nilai rata-rata dalam satu siklus bukan nilai instan.

Nilai yang lebih besar dari metrik ini menunjukkan pemanfaatan core fp32 yang lebih tinggi.

Jika nilainya 1 (100%), instruksi fp32 dieksekusi setiap dua minggu dalam siklus ketika GPU Volta digunakan.

Jika nilai metrik ini adalah 0,2 (20%), salah satu kondisi berikut mungkin ada:

  • Pemanfaatan core fp32 20% dari SM dalam siklus adalah 100%.

  • Pemanfaatan core fp32 semua SM dalam siklus adalah 20%.

  • Pemanfaatan core fp32 semua SM dalam 20% dari siklus adalah 100%.

  • Kondisi lainnya.

DCGM_FI_PROF_PIPE_FP16_ACTIVE

Gauge

%

Rasio siklus di mana pipa fp16 (presisi setengah) tetap aktif.

Nilainya adalah nilai rata-rata dalam satu siklus bukan nilai instan.

Nilai yang lebih besar dari metrik ini menunjukkan pemanfaatan core fp16 yang lebih tinggi.

Jika nilainya 1 (100%), instruksi fp16 dieksekusi setiap dua minggu dalam siklus ketika GPU Volta digunakan.

Jika nilai metrik ini adalah 0,2 (20%), salah satu kondisi berikut mungkin ada:

  • Pemanfaatan core fp16 20% dari SM dalam siklus adalah 100%.

  • Pemanfaatan core fp16 semua SM dalam siklus adalah 20%.

  • Pemanfaatan core fp16 semua SM dalam 20% dari siklus adalah 100%.

  • Kondisi lainnya.

DCGM_FI_PROF_DRAM_ACTIVE

Gauge

%

Rasio siklus di mana antarmuka memori perangkat tetap aktif untuk mengirim atau menerima data.

Nilainya adalah nilai rata-rata dalam satu siklus bukan nilai instan.

Nilai yang lebih besar dari metrik ini menunjukkan pemanfaatan memori perangkat yang lebih tinggi.

Jika nilainya 1 (100%), instruksi DRAM dieksekusi setiap minggu dalam siklus. Nilai puncak metrik ini bisa mencapai 0,8 (80%).

Jika nilai metrik ini adalah 0,2 (20%), antarmuka memori perangkat mengirim atau menerima data dalam 20% dari siklus.

  • DCGM_FI_PROF_PCIE_TX_BYTES

  • DCGM_FI_PROF_PCIE_RX_BYTES

Counter

B/s

Laju TX Peripheral Component Interconnect Express (PCIe) dan laju RX PCIe. Byte yang ditransmisikan atau diterima mencakup header dan payload.

Nilainya adalah nilai rata-rata dalam satu siklus bukan nilai instan.

Contohnya, jika 1 GB data ditransmisikan dalam 1 detik, laju TX adalah 1 GB/detik apakah laju tersebut merupakan nilai konsisten atau nilai puncak. Bandwidth teoretis maksimum PCIe Gen 3 adalah 985 MB/detik per jalur.

  • DCGM_FI_PROF_NVLINK_RX_BYTES

  • DCGM_FI_PROF_NVLINK_TX_BYTES

Penghitung

B/s

Laju TX NvLink dan laju RX NvLink. Byte yang ditransmisikan atau diterima mencakup header dan payload.

Nilai tersebut adalah nilai rata-rata dalam satu siklus, bukan nilai sesaat.

Sebagai contoh, jika 1 GB data ditransmisikan dalam 1 detik, laju TX adalah 1 GB/detik, baik laju tersebut merupakan nilai konsisten atau nilai puncak. Bandwidth maksimum teoretis NvLink Gen 2 adalah 25 GB/detik per jalur di setiap arah.

Clock metrics

Metric

Tipe

Satuan

Deskripsi

DCGM_FI_DEV_SM_CLOCK

Gauge

MHz

Kecepatan clock SM.

DCGM_FI_DEV_MEM_CLOCK

Gauge

MHz

Kecepatan clock memori.

DCGM_FI_DEV_APP_SM_CLOCK

Gauge

MHz

Kecepatan clock aplikasi SM.

DCGM_FI_DEV_APP_MEM_CLOCK

Gauge

MHz

Kecepatan clock aplikasi memori.

DCGM_FI_DEV_CLOCK_THROTTLE_REASONS

Gauge

MHz

Alasan pembatasan kecepatan clock.

XID error and violation metrics

Metric

Tipe

Unit

Deskripsi

DCGM_FI_DEV_XID_ERRORS

Gauge

-

Kesalahan XID terbaru yang terjadi dalam periode waktu tertentu.

DCGM_FI_DEV_POWER_VIOLATION

Penghitung

μs

Jangka waktu pelanggaran daya.

DCGM_FI_DEV_THERMAL_VIOLATION

Penghitung

μs

Waktu pelanggaran termal.

DCGM_FI_DEV_SYNC_BOOST_VIOLATION

Penghitung

μs

Waktu pelanggaran sinkronisasi boost.

DCGM_FI_DEV_BOARD_LIMIT_VIOLATION

Penghitung

μs

Waktu pelanggaran papan.

DCGM_FI_DEV_LOW_UTIL_VIOLATION

Penghitung

μs

Waktu pelanggaran utilisasi rendah.

DCGM_FI_DEV_RELIABILITY_VIOLATION

Penghitung

μs

Waktu pelanggaran keandalan papan.

BAR1

Metrik

Tipe

Satuan

Deskripsi

DCGM_FI_DEV_BAR1_USED

Gauge

MB

Jumlah BAR1 yang digunakan.

DCGM_FI_DEV_BAR1_FREE

Gauge

MB

Jumlah BAR1 yang bebas.

Temperature and power metrics

Metrik

Tipe

Satuan

Deskripsi

DCGM_FI_DEV_MEMORY_TEMP

Gauge

C

Suhu memori.

DCGM_FI_DEV_GPU_TEMP

Gauge

C

Suhu GPU.

DCGM_FI_DEV_POWER_USAGE

Gauge

W

Penggunaan daya.

DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION

Counter

J

Total konsumsi energi sejak driver terakhir dimuat ulang.

Retired page metrics

Metrik

Tipe

Satuan

Deskripsi

DCGM_FI_DEV_RETIRED_SBE

Gauge

-

Jumlah halaman yang dipensiunkan karena kesalahan bit tunggal.

DCGM_FI_DEV_RETIRED_DBE

Gauge

-

Jumlah halaman yang dipensiunkan karena kesalahan bit ganda.

Metrik kustom

Metrik

Tipe

Satuan

Deskripsi

DCGM_CUSTOM_PROCESS_SM_UTIL

Gauge

%

Pemanfaatan SM thread GPU.

DCGM_CUSTOM_PROCESS_MEM_COPY_UTIL

Gauge

%

Pemanfaatan salinan memori thread GPU.

DCGM_CUSTOM_PROCESS_ENCODE_UTIL

Gauge

%

Pemanfaatan encoder thread GPU.

DCGM_CUSTOM_PROCESS_DECODE_UTIL

Gauge

%

Pemanfaatan decoder thread GPU.

DCGM_CUSTOM_PROCESS_MEM_USED

Gauge

MiB

Jumlah memori GPU yang digunakan oleh thread GPU.

DCGM_CUSTOM_CONTAINER_MEM_ALLOCATED

Gauge

MiB

Jumlah memori GPU yang dialokasikan ke kontainer.

DCGM_CUSTOM_CONTAINER_CP_ALLOCATED

Gauge

-

Rasio daya komputasi GPU yang dialokasikan ke kontainer terhadap total daya komputasi GPU yang disediakan oleh GPU. Rentang nilai adalah [0, 1].

Nilai metrik ini adalah 0 dalam mode GPU eksklusif atau mode GPU bersama karena kontainer dalam mode ini hanya meminta memori GPU. Alokasi daya komputasi GPU tidak terbatas.

Jika GPU dapat menyediakan 100 CU daya komputasi GPU dan mengalokasikan 30 CU ke sebuah kontainer, rasio daya komputasi GPU yang dialokasikan ke kontainer tersebut adalah 0,3 (30/100).

DCGM_CUSTOM_DEV_FB_TOTAL

Gauge

MiB

Total memori GPU.

DCGM_CUSTOM_DEV_FB_ALLOCATED

Gauge

-

Rasio memori GPU yang dialokasikan terhadap total memori GPU. Rentang nilai adalah [0, 1].

DCGM_CUSTOM_ALLOCATE_MODE

Gauge

-

Mode di mana node berjalan. Nilai valid:

  • 0: Tidak ada pod dengan akselerasi GPU yang berjalan di node.

  • 1: Pod dengan akselerasi GPU berjalan dalam mode GPU eksklusif di node.

  • 2: Pod dengan akselerasi GPU berjalan dalam mode GPU bersama di node.

Metrik yang sudah ditinggalkan

Metrik yang sudah ditinggalkan

Metrik pengganti

Deskripsi

nvidia_gpu_temperature_celsius

DCGM_FI_DEV_GPU_TEMP

nvidia_gpu_power_usage_milliwatts

DCGM_FI_DEV_POWER_USAGE

nvidia_gpu_sharing_memory

DCGM_CUSTOM_DEV_FB_ALLOCATED * DCGM_CUSTOM_DEV_FB_TOTAL

Proporsi memori GPU yang diminta per GPU × Total jumlah memori GPU dari GPU = Jumlah memori GPU yang diminta dari GPU

nvidia_gpu_memory_used_bytes

DCGM_FI_DEV_FB_USED

nvidia_gpu_memory_total_bytes

DCGM_CUSTOM_DEV_FB_TOTAL

nvidia_gpu_memory_allocated_bytes

DCGM_CUSTOM_DEV_FB_ALLOCATED * DCGM_CUSTOM_DEV_FB_TOTAL

Proporsi memori GPU yang diminta per GPU × Total jumlah memori GPU dari GPU = Jumlah memori GPU yang diminta dari GPU

nvidia_gpu_duty_cycle

DCGM_FI_DEV_GPU_UTIL

nvidia_gpu_allocated_num_devices

sum(DCGM_CUSTOM_DEV_FB_ALLOCATED)

sum(Proporsi memori GPU yang diminta per GPU pada node) = Total jumlah GPU yang diminta pada node

nvidia_gpu_num_devices

DCGM_FI_DEV_COUNT