Pemantauan GPU menggunakan arsitektur yang terdiri dari Exporter, Prometheus, dan Grafana untuk memberikan observabilitas GPU yang komprehensif. Anda dapat menggunakan metrik pemantauan dari GPU Exporter untuk Container Service guna membangun Dasbor Grafana. Topik ini menjelaskan metrik pemantauan GPU.
Penagihan Metrik
Pemantauan GPU menggunakan GPU Exporter, yang kompatibel dengan metrik pemantauan yang disediakan oleh DCGM Exporter open source. Metrik pemantauan GPU berikut merupakan metrik dasar. Tidak ada biaya tambahan untuk menggunakan metrik ini di Prometheus. Jika Anda menggunakan metrik kustom lainnya, biaya tambahan akan dikenakan. Untuk informasi lebih lanjut tentang kebijakan penagihan, lihat Ikhtisar Penagihan.
Metrik
Metrik DCGM
Anda dapat menyaring metrik terkait DCGM menggunakan dimensi sumber daya berikut:
namespace="{{pod_namespace}}"
pod="{{pod_name}}"
Hostname="{{pod_name}}"
NodeName="cn-wulanchabu-c.cr-xxx" (Hanya untuk pod GPU-HPN)
UUID="GPU-example-uuid-abcd"
device="nvidia0"
gpu="0"
modelName="example-model"
Metric dimension | Nama metrik | Tipe | Satuan | Deskripsi |
Data deret waktu sumber daya GPU | DCGM_FI_DEV_GPU_UTIL | Gauge | % | Pemanfaatan GPU. Ini adalah persentase waktu bahwa satu atau lebih fungsi kernel berada dalam status Aktif selama periode sampel. Periode sampel adalah 1 detik atau 1/6 detik, tergantung pada produk GPU. Metrik ini menunjukkan bahwa fungsi kernel sedang menggunakan GPU, tetapi tidak menunjukkan detail penggunaan spesifik. |
DCGM_FI_DEV_FB_USED | Gauge | MiB | Jumlah frame buffer (memori video) yang digunakan. | |
DCGM_FI_DEV_FB_TOTAL | Gauge | MiB | Jumlah total frame buffer (memori video). | |
DCGM_FI_DEV_ENC_UTIL | Gauge | % | Pemanfaatan encoder. | |
DCGM_FI_DEV_DEC_UTIL | Gauge | % | Pemanfaatan decoder. | |
DCGM_FI_DEV_MEM_COPY_UTIL | Gauge | % | Pemanfaatan bandwidth memori. Sebagai contoh, bandwidth memori maksimum GPU NVIDIA V100 adalah 900 GB/s. Jika bandwidth memori saat ini adalah 450 GB/s, pemanfaatan bandwidth memori adalah 50%. | |
Profil | DCGM_FI_PROF_SM_ACTIVE | Gauge | % | Persentase waktu bahwa setidaknya satu warp aktif pada Streaming Multiprocessor (SM) selama interval waktu. Nilai ini adalah rata-rata untuk semua SM dan tidak sensitif terhadap jumlah thread per blok. Warp menjadi aktif setelah dijadwalkan dan alokasi sumber dayanya selesai. Warp dapat berada dalam status komputasi atau non-komputasi, seperti menunggu permintaan memori. Nilai di bawah 0,5 menunjukkan penggunaan GPU yang tidak efisien. Nilai di atas 0,8 diperlukan untuk efisiensi tinggi. Sebagai contoh, asumsikan GPU memiliki N SM: Fungsi kernel menggunakan N blok thread untuk berjalan di semua SM selama seluruh interval waktu. Nilainya adalah 1 (100%). Fungsi kernel menjalankan N/5 blok thread selama interval waktu. Nilainya adalah 0,2. Fungsi kernel menggunakan N blok thread tetapi hanya berjalan selama 1/5 dari interval waktu. Nilainya adalah 0,2. |
DCGM_FI_PROF_SM_OCCUPANCY | Gauge | % | Rasio warp yang bertempat tinggal di SM terhadap jumlah maksimum warp yang dapat didukung SM selama interval waktu. Nilai ini adalah rata-rata untuk semua SM selama interval waktu. Occupancy yang lebih tinggi tidak selalu berarti pemanfaatan GPU yang lebih tinggi. Untuk beban kerja yang dibatasi oleh bandwidth memori GPU (DCGM_FI_PROF_DRAM_ACTIVE), occupancy yang lebih tinggi menunjukkan penggunaan GPU yang lebih efektif. | |
DCGM_FI_PROF_DRAM_ACTIVE | Gauge | % | Pecahan siklus di mana memori perangkat sibuk mengirim atau menerima data. Ini juga dikenal sebagai Pemanfaatan Bandwidth Memori. Nilai ini adalah rata-rata selama interval waktu, bukan nilai instan. Nilai yang lebih tinggi menunjukkan pemanfaatan memori perangkat yang lebih tinggi. Nilai 1 (100%) berarti instruksi DRAM dieksekusi setiap siklus selama interval waktu. Secara praktis, puncak maksimum yang dapat dicapai adalah sekitar 0,8 (80%). Nilai 0,2 (20%) berarti bahwa 20% dari siklus dalam interval waktu dihabiskan untuk membaca dari atau menulis ke memori perangkat. | |
| Counter | B/s | Laju data yang ditransmisikan atau diterima melalui NVLink, tidak termasuk header protokol. Nilai ini adalah rata-rata selama interval waktu, bukan nilai instan. Laju dirata-ratakan selama interval. Sebagai contoh, jika 1 GB data ditransfer dalam 1 detik, laju tersebut adalah 1 GB/s, terlepas apakah transfer dilakukan pada laju konstan atau dalam burst. Bandwidth teoretis maksimum NVLink Gen2 adalah 25 GB/s per link dalam setiap arah. | |
| Counter | B/s | Laju data yang ditransmisikan atau diterima melalui bus PCIe, termasuk header protokol dan payload data. Nilai ini adalah rata-rata selama interval waktu, bukan nilai instan. Laju dirata-ratakan selama interval. Sebagai contoh, jika 1 GB data ditransfer dalam 1 detik, laju tersebut adalah 1 GB/s, terlepas apakah transfer dilakukan pada laju konstan atau dalam burst. Bandwidth teoretis maksimum PCIe Gen3 adalah 985 MB/s per saluran. | |
DCGM_FI_PROF_PIPE_TENSOR_ACTIVE | Gauge | % | Pecahan siklus di mana Tensor (HMMA/IMMA) Pipe aktif. Nilai ini adalah rata-rata selama interval waktu, bukan nilai instan. Nilai yang lebih tinggi menunjukkan pemanfaatan Tensor Cores yang lebih tinggi. Nilai 1 (100%) berarti instruksi Tensor dikeluarkan setiap siklus instruksi lainnya selama interval waktu. Satu instruksi membutuhkan dua siklus untuk diselesaikan. Nilai 0,2 (20%) dapat berarti salah satu dari hal berikut:
| |
Frekuensi (Clock) | DCGM_FI_DEV_SM_CLOCK | Gauge | MHz | Frekuensi clock SM. |
Pengecualian GPU/Kesalahan XID | DCGM_FI_DEV_NVSWITCH_FATAL_ERRORS | Gauge | Kode kesalahan | Informasi kesalahan fatal NVSwitch. Nilai ini adalah kode kesalahan SXid. |
DCGM_FI_DEV_ROW_REMAP_FAILURE | Gauge | - | Kesalahan remap baris terjadi. | |
DCGM_FI_DEV_ROW_REMAP_PENDING | Gauge | - | Remap baris tertunda. | |
Suhu & Daya | DCGM_FI_DEV_GPU_TEMP | Gauge | ℃ | Suhu GPU. |
DCGM_FI_DEV_MEMORY_TEMP | Gauge | ℃ | Suhu memori. | |
DCGM_FI_DEV_POWER_USAGE | Gauge | W | Konsumsi daya. | |
Halaman yang Dipensiunkan | DCGM_FI_DEV_RETIRED_SBE | Gauge | - | Jumlah halaman yang dipensiunkan karena kesalahan bit tunggal (SBE). |
DCGM_FI_DEV_RETIRED_DBE | Gauge | - | Jumlah halaman yang dipensiunkan karena kesalahan bit ganda (DBE). |
Metrik RDMA
Anda dapat menyaring metrik terkait RDMA menggunakan dimensi sumber daya berikut:
app="nusa-exporter"
hostname="{{pod_name}}"
ip="172.16.17.114"
namespace="{{pod_namespace}}"
node="{{virtual-kubelet-nodename}}"
pod="{{pod_name}}"
Nama metrik | Tipe | Satuan | Deskripsi |
| Gauge | bytes | Lalu lintas keluar/masuk instan jaringan RDMA pod. |
| Counter | bytes | Lalu lintas keluar/masuk kumulatif jaringan RDMA pod. |
| Gauge | paket | Jumlah paket keluar/masuk instan pada jaringan RDMA pod. |
| Counter | paket | Jumlah kumulatif paket keluar/masuk pada jaringan RDMA pod. |