Pemantauan GPU 2.0 menggunakan kombinasi pengekspor, Prometheus, dan Grafana untuk membangun sistem pemantauan GPU yang mendukung berbagai skenario. Anda dapat membuat Dasbor Grafana yang mencakup metrik dari pengekspor GPU untuk memantau kluster Container Service for Kubernetes (ACK) Anda. Topik ini menjelaskan metrik yang didukung oleh pemantauan GPU 2.0.
Deskripsi
Pengekspor GPU yang digunakan dalam pemantauan GPU 2.0 kompatibel dengan metrik yang disediakan oleh pengekspor DCGM. Selain itu, pengekspor GPU juga menyediakan metrik kustom untuk memenuhi kebutuhan skenario tertentu. Untuk informasi lebih lanjut tentang pengekspor DCGM, lihat DCGM exporter.
Metrik GPU yang digunakan dalam pemantauan GPU 2.0 mencakup metrik yang didukung oleh pengekspor DCGM dan metrik kustom.
Deskripsi Penagihan
Biaya dikenakan untuk penggunaan metrik kustom dalam pemantauan GPU.
Sebelum mengaktifkan fitur ini, kami sarankan Anda membaca Ikhtisar Penagihan untuk memahami aturan penagihan metrik kustom. Biaya dapat bervariasi tergantung pada ukuran kluster dan jumlah aplikasi. Anda dapat mengikuti langkah-langkah dalam Lihat penggunaan sumber daya untuk memantau dan mengelola penggunaan sumber daya.
Metrik yang didukung oleh pengekspor DCGM
Utilization metrics
Metrik | Tipe | Satuan | Deskripsi |
DCGM_FI_DEV_GPU_UTIL | Gauge | % | Pemanfaatan GPU dalam siklus 1 detik atau 1/6 detik. Siklus bervariasi berdasarkan model GPU. Siklus adalah periode waktu selama satu atau lebih fungsi kernel tetap aktif. Metrik ini hanya menunjukkan bahwa satu atau lebih fungsi kernel sedang menggunakan sumber daya GPU. Metrik ini tidak menampilkan informasi rinci tentang penggunaan GPU. |
DCGM_FI_DEV_MEM_COPY_UTIL | Gauge | % | Pemanfaatan bandwidth memori. Contohnya, bandwidth memori maksimum GPU V100 adalah 900 GB/detik. Jika penggunaan bandwidth memori saat ini adalah 450 GB/detik, pemanfaatan bandwidth memori adalah 50%. |
DCGM_FI_DEV_ENC_UTIL | Gauge | % | Pemanfaatan encoder. |
DCGM_FI_DEV_DEC_UTIL | Gauge | % | Pemanfaatan decoder. |
Memory metrics
Metrik | Tipe | Satuan | Deskripsi |
DCGM_FI_DEV_FB_FREE | Gauge | MiB | Jumlah memori framebuffer bebas. Catatan Memori framebuffer juga dikenal sebagai Memori GPU. |
DCGM_FI_DEV_FB_USED | Gauge | MiB | Jumlah memori framebuffer yang digunakan. Nilai metrik ini sama dengan nilai Memory-Usage yang dikembalikan oleh perintah nvidia-smi. |
Profiling metrics
Metrik | Tipe | Satuan | Deskripsi |
DCGM_FI_PROF_GR_ENGINE_ACTIVE | Gauge | % | Rasio siklus di mana mesin grafis atau mesin komputasi tetap aktif. Nilainya adalah rata-rata semua mesin grafis atau mesin komputasi. Mesin grafis atau mesin komputasi aktif jika konteks grafis atau konteks komputasi terikat pada thread dan konteks tersebut sibuk. |
DCGM_FI_PROF_SM_ACTIVE | Gauge | % | Rasio siklus di mana setidaknya satu warp pada multiprosesor streaming (SM) tetap aktif. Nilainya adalah rata-rata semua SM. Nilai ini tidak bervariasi dengan jumlah warp yang termasuk dalam blok thread. Ketika sebuah warp dijadwalkan dan sumber daya dialokasikan ke warp tersebut, warp dianggap aktif. Dalam skenario ini, status warp mungkin Menghitung atau mungkin tidak Menghitung. Contohnya, warp mungkin sedang menunggu permintaan memori. Jika nilai metrik ini turun di bawah 0,5, pemanfaatan GPU rendah. Untuk memastikan pemanfaatan GPU tinggi, pastikan nilainya lebih besar dari 0,8. Contohnya, sebuah GPU memiliki N SM:
|
DCGM_FI_PROF_SM_OCCUPANCY | Gauge | % | Rasio jumlah warp yang berada pada SM terhadap jumlah maksimum warp yang didukung oleh SM dalam satu siklus. Nilainya adalah rata-rata semua SM dalam satu siklus. Nilai yang lebih besar dari metrik ini tidak menunjukkan pemanfaatan GPU yang lebih tinggi. Hanya ketika metrik DCGM_FI_PROF_DRAM_ACTIVE menunjukkan bahwa bandwidth memori GPU terbatas, nilai yang lebih besar dari metrik ini menunjukkan pemanfaatan GPU yang lebih tinggi. |
DCGM_FI_PROF_PIPE_TENSOR_ACTIVE | Gauge | % | Rasio siklus di mana pipa tensor (HMMA/IMMA) tetap aktif. Nilainya adalah nilai rata-rata dalam satu siklus bukan nilai instan. Nilai yang lebih besar dari metrik ini menunjukkan pemanfaatan core tensor yang lebih tinggi. Jika nilainya 1 (100%), instruksi tensor dikirimkan pada interval dalam siklus. Setiap instruksi dieksekusi dalam dua interval. Jika nilai metrik ini adalah 0,2 (20%), salah satu kondisi berikut mungkin ada:
|
DCGM_FI_PROF_PIPE_FP64_ACTIVE | Gauge | % | Rasio siklus di mana pipa fp64 (presisi ganda) tetap aktif. Nilainya adalah nilai rata-rata dalam satu siklus bukan nilai instan. Nilai yang lebih besar dari metrik ini menunjukkan pemanfaatan core fp64 yang lebih tinggi. Jika nilainya 1 (100%), instruksi fp64 dieksekusi setiap empat minggu dalam siklus ketika GPU Volta digunakan. Jika nilai metrik ini adalah 0,2 (20%), salah satu kondisi berikut mungkin ada:
|
DCGM_FI_PROF_PIPE_FP32_ACTIVE | Gauge | % | Rasio siklus di mana pipa operasi Fused Multiply-Add (FMA) tetap aktif. Operasi FMA mencakup operasi FP32 (presisi tunggal) dan operasi integer. Nilainya adalah nilai rata-rata dalam satu siklus bukan nilai instan. Nilai yang lebih besar dari metrik ini menunjukkan pemanfaatan core fp32 yang lebih tinggi. Jika nilainya 1 (100%), instruksi fp32 dieksekusi setiap dua minggu dalam siklus ketika GPU Volta digunakan. Jika nilai metrik ini adalah 0,2 (20%), salah satu kondisi berikut mungkin ada:
|
DCGM_FI_PROF_PIPE_FP16_ACTIVE | Gauge | % | Rasio siklus di mana pipa fp16 (presisi setengah) tetap aktif. Nilainya adalah nilai rata-rata dalam satu siklus bukan nilai instan. Nilai yang lebih besar dari metrik ini menunjukkan pemanfaatan core fp16 yang lebih tinggi. Jika nilainya 1 (100%), instruksi fp16 dieksekusi setiap dua minggu dalam siklus ketika GPU Volta digunakan. Jika nilai metrik ini adalah 0,2 (20%), salah satu kondisi berikut mungkin ada:
|
DCGM_FI_PROF_DRAM_ACTIVE | Gauge | % | Rasio siklus di mana antarmuka memori perangkat tetap aktif untuk mengirim atau menerima data. Nilainya adalah nilai rata-rata dalam satu siklus bukan nilai instan. Nilai yang lebih besar dari metrik ini menunjukkan pemanfaatan memori perangkat yang lebih tinggi. Jika nilainya 1 (100%), instruksi DRAM dieksekusi setiap minggu dalam siklus. Nilai puncak metrik ini bisa mencapai 0,8 (80%). Jika nilai metrik ini adalah 0,2 (20%), antarmuka memori perangkat mengirim atau menerima data dalam 20% dari siklus. |
| Counter | B/s | Laju TX Peripheral Component Interconnect Express (PCIe) dan laju RX PCIe. Byte yang ditransmisikan atau diterima mencakup header dan payload. Nilainya adalah nilai rata-rata dalam satu siklus bukan nilai instan. Contohnya, jika 1 GB data ditransmisikan dalam 1 detik, laju TX adalah 1 GB/detik apakah laju tersebut merupakan nilai konsisten atau nilai puncak. Bandwidth teoretis maksimum PCIe Gen 3 adalah 985 MB/detik per jalur. |
| Penghitung | B/s | Laju TX NvLink dan laju RX NvLink. Byte yang ditransmisikan atau diterima mencakup header dan payload. Nilai tersebut adalah nilai rata-rata dalam satu siklus, bukan nilai sesaat. Sebagai contoh, jika 1 GB data ditransmisikan dalam 1 detik, laju TX adalah 1 GB/detik, baik laju tersebut merupakan nilai konsisten atau nilai puncak. Bandwidth maksimum teoretis NvLink Gen 2 adalah 25 GB/detik per jalur di setiap arah. |
Clock metrics
Metric | Tipe | Satuan | Deskripsi |
DCGM_FI_DEV_SM_CLOCK | Gauge | MHz | Kecepatan clock SM. |
DCGM_FI_DEV_MEM_CLOCK | Gauge | MHz | Kecepatan clock memori. |
DCGM_FI_DEV_APP_SM_CLOCK | Gauge | MHz | Kecepatan clock aplikasi SM. |
DCGM_FI_DEV_APP_MEM_CLOCK | Gauge | MHz | Kecepatan clock aplikasi memori. |
DCGM_FI_DEV_CLOCK_THROTTLE_REASONS | Gauge | MHz | Alasan pembatasan kecepatan clock. |
XID error and violation metrics
Metric | Tipe | Unit | Deskripsi |
DCGM_FI_DEV_XID_ERRORS | Gauge | - | Kesalahan XID terbaru yang terjadi dalam periode waktu tertentu. |
DCGM_FI_DEV_POWER_VIOLATION | Penghitung | μs | Jangka waktu pelanggaran daya. |
DCGM_FI_DEV_THERMAL_VIOLATION | Penghitung | μs | Waktu pelanggaran termal. |
DCGM_FI_DEV_SYNC_BOOST_VIOLATION | Penghitung | μs | Waktu pelanggaran sinkronisasi boost. |
DCGM_FI_DEV_BOARD_LIMIT_VIOLATION | Penghitung | μs | Waktu pelanggaran papan. |
DCGM_FI_DEV_LOW_UTIL_VIOLATION | Penghitung | μs | Waktu pelanggaran utilisasi rendah. |
DCGM_FI_DEV_RELIABILITY_VIOLATION | Penghitung | μs | Waktu pelanggaran keandalan papan. |
BAR1
Metrik | Tipe | Satuan | Deskripsi |
DCGM_FI_DEV_BAR1_USED | Gauge | MB | Jumlah BAR1 yang digunakan. |
DCGM_FI_DEV_BAR1_FREE | Gauge | MB | Jumlah BAR1 yang bebas. |
Temperature and power metrics
Metrik | Tipe | Satuan | Deskripsi |
DCGM_FI_DEV_MEMORY_TEMP | Gauge | C | Suhu memori. |
DCGM_FI_DEV_GPU_TEMP | Gauge | C | Suhu GPU. |
DCGM_FI_DEV_POWER_USAGE | Gauge | W | Penggunaan daya. |
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION | Counter | J | Total konsumsi energi sejak driver terakhir dimuat ulang. |
Retired page metrics
Metrik | Tipe | Satuan | Deskripsi |
DCGM_FI_DEV_RETIRED_SBE | Gauge | - | Jumlah halaman yang dipensiunkan karena kesalahan bit tunggal. |
DCGM_FI_DEV_RETIRED_DBE | Gauge | - | Jumlah halaman yang dipensiunkan karena kesalahan bit ganda. |
Metrik kustom
Metrik | Tipe | Satuan | Deskripsi |
DCGM_CUSTOM_PROCESS_SM_UTIL | Gauge | % | Pemanfaatan SM thread GPU. |
DCGM_CUSTOM_PROCESS_MEM_COPY_UTIL | Gauge | % | Pemanfaatan salinan memori thread GPU. |
DCGM_CUSTOM_PROCESS_ENCODE_UTIL | Gauge | % | Pemanfaatan encoder thread GPU. |
DCGM_CUSTOM_PROCESS_DECODE_UTIL | Gauge | % | Pemanfaatan decoder thread GPU. |
DCGM_CUSTOM_PROCESS_MEM_USED | Gauge | MiB | Jumlah memori GPU yang digunakan oleh thread GPU. |
DCGM_CUSTOM_CONTAINER_MEM_ALLOCATED | Gauge | MiB | Jumlah memori GPU yang dialokasikan ke kontainer. |
DCGM_CUSTOM_CONTAINER_CP_ALLOCATED | Gauge | - | Rasio daya komputasi GPU yang dialokasikan ke kontainer terhadap total daya komputasi GPU yang disediakan oleh GPU. Rentang nilai adalah [0, 1]. Nilai metrik ini adalah 0 dalam mode GPU eksklusif atau mode GPU bersama karena kontainer dalam mode ini hanya meminta memori GPU. Alokasi daya komputasi GPU tidak terbatas. Jika GPU dapat menyediakan 100 CU daya komputasi GPU dan mengalokasikan 30 CU ke sebuah kontainer, rasio daya komputasi GPU yang dialokasikan ke kontainer tersebut adalah 0,3 (30/100). |
DCGM_CUSTOM_DEV_FB_TOTAL | Gauge | MiB | Total memori GPU. |
DCGM_CUSTOM_DEV_FB_ALLOCATED | Gauge | - | Rasio memori GPU yang dialokasikan terhadap total memori GPU. Rentang nilai adalah [0, 1]. |
DCGM_CUSTOM_ALLOCATE_MODE | Gauge | - | Mode di mana node berjalan. Nilai valid:
|
Metrik yang sudah ditinggalkan
Metrik yang sudah ditinggalkan | Metrik pengganti | Deskripsi |
nvidia_gpu_temperature_celsius | DCGM_FI_DEV_GPU_TEMP | |
nvidia_gpu_power_usage_milliwatts | DCGM_FI_DEV_POWER_USAGE | |
nvidia_gpu_sharing_memory | DCGM_CUSTOM_DEV_FB_ALLOCATED * DCGM_CUSTOM_DEV_FB_TOTAL | Proporsi memori GPU yang diminta per GPU × Total jumlah memori GPU dari GPU = Jumlah memori GPU yang diminta dari GPU |
nvidia_gpu_memory_used_bytes | DCGM_FI_DEV_FB_USED | |
nvidia_gpu_memory_total_bytes | DCGM_CUSTOM_DEV_FB_TOTAL | |
nvidia_gpu_memory_allocated_bytes | DCGM_CUSTOM_DEV_FB_ALLOCATED * DCGM_CUSTOM_DEV_FB_TOTAL | Proporsi memori GPU yang diminta per GPU × Total jumlah memori GPU dari GPU = Jumlah memori GPU yang diminta dari GPU |
nvidia_gpu_duty_cycle | DCGM_FI_DEV_GPU_UTIL | |
nvidia_gpu_allocated_num_devices | sum(DCGM_CUSTOM_DEV_FB_ALLOCATED) | sum(Proporsi memori GPU yang diminta per GPU pada node) = Total jumlah GPU yang diminta pada node |
nvidia_gpu_num_devices | DCGM_FI_DEV_COUNT |