Ringkasan metrik DCGM GPU Pod - Container Compute Service

Pemantauan GPU menggunakan arsitektur yang terdiri dari Exporter, Prometheus, dan Grafana untuk memberikan observabilitas GPU yang komprehensif. Anda dapat menggunakan metrik pemantauan dari GPU Exporter untuk Container Service guna membangun Dasbor Grafana. Topik ini menjelaskan metrik pemantauan GPU.

Penagihan Metrik

Pemantauan GPU menggunakan GPU Exporter, yang kompatibel dengan metrik pemantauan yang disediakan oleh DCGM Exporter open source. Metrik pemantauan GPU berikut merupakan metrik dasar. Tidak ada biaya tambahan untuk menggunakan metrik ini di Prometheus. Jika Anda menggunakan metrik kustom lainnya, biaya tambahan akan dikenakan. Untuk informasi lebih lanjut tentang kebijakan penagihan, lihat Ikhtisar Penagihan.

Metrik

Metrik DCGM

Anda dapat menyaring metrik terkait DCGM menggunakan dimensi sumber daya berikut:

namespace="{{pod_namespace}}"
pod="{{pod_name}}"
Hostname="{{pod_name}}"
NodeName="cn-wulanchabu-c.cr-xxx" (Hanya untuk pod GPU-HPN)
UUID="GPU-example-uuid-abcd"
device="nvidia0"
gpu="0"
modelName="example-model"

Metric dimension	Nama metrik	Tipe	Satuan	Deskripsi
Data deret waktu sumber daya GPU	DCGM_FI_DEV_GPU_UTIL	Gauge	%	Pemanfaatan GPU. Ini adalah persentase waktu bahwa satu atau lebih fungsi kernel berada dalam status Aktif selama periode sampel. Periode sampel adalah 1 detik atau 1/6 detik, tergantung pada produk GPU. Metrik ini menunjukkan bahwa fungsi kernel sedang menggunakan GPU, tetapi tidak menunjukkan detail penggunaan spesifik.
	DCGM_FI_DEV_FB_USED	Gauge	MiB	Jumlah frame buffer (memori video) yang digunakan.
	DCGM_FI_DEV_FB_TOTAL	Gauge	MiB	Jumlah total frame buffer (memori video).
	DCGM_FI_DEV_ENC_UTIL	Gauge	%	Pemanfaatan encoder.
	DCGM_FI_DEV_DEC_UTIL	Gauge	%	Pemanfaatan decoder.
	DCGM_FI_DEV_MEM_COPY_UTIL	Gauge	%	Pemanfaatan bandwidth memori. Sebagai contoh, bandwidth memori maksimum GPU NVIDIA V100 adalah 900 GB/s. Jika bandwidth memori saat ini adalah 450 GB/s, pemanfaatan bandwidth memori adalah 50%.
Profil	DCGM_FI_PROF_SM_ACTIVE	Gauge	%	Persentase waktu bahwa setidaknya satu warp aktif pada Streaming Multiprocessor (SM) selama interval waktu. Nilai ini adalah rata-rata untuk semua SM dan tidak sensitif terhadap jumlah thread per blok. Warp menjadi aktif setelah dijadwalkan dan alokasi sumber dayanya selesai. Warp dapat berada dalam status komputasi atau non-komputasi, seperti menunggu permintaan memori. Nilai di bawah 0,5 menunjukkan penggunaan GPU yang tidak efisien. Nilai di atas 0,8 diperlukan untuk efisiensi tinggi. Sebagai contoh, asumsikan GPU memiliki N SM: Fungsi kernel menggunakan N blok thread untuk berjalan di semua SM selama seluruh interval waktu. Nilainya adalah 1 (100%). Fungsi kernel menjalankan N/5 blok thread selama interval waktu. Nilainya adalah 0,2. Fungsi kernel menggunakan N blok thread tetapi hanya berjalan selama 1/5 dari interval waktu. Nilainya adalah 0,2.
	DCGM_FI_PROF_SM_OCCUPANCY	Gauge	%	Rasio warp yang bertempat tinggal di SM terhadap jumlah maksimum warp yang dapat didukung SM selama interval waktu. Nilai ini adalah rata-rata untuk semua SM selama interval waktu. Occupancy yang lebih tinggi tidak selalu berarti pemanfaatan GPU yang lebih tinggi. Untuk beban kerja yang dibatasi oleh bandwidth memori GPU (DCGM_FI_PROF_DRAM_ACTIVE), occupancy yang lebih tinggi menunjukkan penggunaan GPU yang lebih efektif.
	DCGM_FI_PROF_DRAM_ACTIVE	Gauge	%	Pecahan siklus di mana memori perangkat sibuk mengirim atau menerima data. Ini juga dikenal sebagai Pemanfaatan Bandwidth Memori. Nilai ini adalah rata-rata selama interval waktu, bukan nilai instan. Nilai yang lebih tinggi menunjukkan pemanfaatan memori perangkat yang lebih tinggi. Nilai 1 (100%) berarti instruksi DRAM dieksekusi setiap siklus selama interval waktu. Secara praktis, puncak maksimum yang dapat dicapai adalah sekitar 0,8 (80%). Nilai 0,2 (20%) berarti bahwa 20% dari siklus dalam interval waktu dihabiskan untuk membaca dari atau menulis ke memori perangkat.
	DCGM_FI_PROF_NVLINK_RX_BYTES DCGM_FI_PROF_NVLINK_TX_BYTES	Counter	B/s	Laju data yang ditransmisikan atau diterima melalui NVLink, tidak termasuk header protokol. Nilai ini adalah rata-rata selama interval waktu, bukan nilai instan. Laju dirata-ratakan selama interval. Sebagai contoh, jika 1 GB data ditransfer dalam 1 detik, laju tersebut adalah 1 GB/s, terlepas apakah transfer dilakukan pada laju konstan atau dalam burst. Bandwidth teoretis maksimum NVLink Gen2 adalah 25 GB/s per link dalam setiap arah.
	DCGM_FI_PROF_PCIE_RX_BYTES DCGM_FI_PROF_PCIE_TX_BYTES	Counter	B/s	Laju data yang ditransmisikan atau diterima melalui bus PCIe, termasuk header protokol dan payload data. Nilai ini adalah rata-rata selama interval waktu, bukan nilai instan. Laju dirata-ratakan selama interval. Sebagai contoh, jika 1 GB data ditransfer dalam 1 detik, laju tersebut adalah 1 GB/s, terlepas apakah transfer dilakukan pada laju konstan atau dalam burst. Bandwidth teoretis maksimum PCIe Gen3 adalah 985 MB/s per saluran.
	DCGM_FI_PROF_PIPE_TENSOR_ACTIVE	Gauge	%	Pecahan siklus di mana Tensor (HMMA/IMMA) Pipe aktif. Nilai ini adalah rata-rata selama interval waktu, bukan nilai instan. Nilai yang lebih tinggi menunjukkan pemanfaatan Tensor Cores yang lebih tinggi. Nilai 1 (100%) berarti instruksi Tensor dikeluarkan setiap siklus instruksi lainnya selama interval waktu. Satu instruksi membutuhkan dua siklus untuk diselesaikan. Nilai 0,2 (20%) dapat berarti salah satu dari hal berikut: Tensor Cores dari 20% SM berjalan pada pemanfaatan 100% selama seluruh interval waktu. Tensor Cores dari 100% SM berjalan pada pemanfaatan 20% selama seluruh interval waktu. Tensor Cores pada 100% SM berjalan pada pemanfaatan 100% selama 1/5 dari interval waktu. Kombinasi lainnya.
Frekuensi (Clock)	DCGM_FI_DEV_SM_CLOCK	Gauge	MHz	Frekuensi clock SM.
Pengecualian GPU/Kesalahan XID	DCGM_FI_DEV_NVSWITCH_FATAL_ERRORS	Gauge	Kode kesalahan	Informasi kesalahan fatal NVSwitch. Nilai ini adalah kode kesalahan SXid.
	DCGM_FI_DEV_ROW_REMAP_FAILURE	Gauge	-	Kesalahan remap baris terjadi.
	DCGM_FI_DEV_ROW_REMAP_PENDING	Gauge	-	Remap baris tertunda.
Suhu & Daya	DCGM_FI_DEV_GPU_TEMP	Gauge	℃	Suhu GPU.
	DCGM_FI_DEV_MEMORY_TEMP	Gauge	℃	Suhu memori.
	DCGM_FI_DEV_POWER_USAGE	Gauge	W	Konsumsi daya.
Halaman yang Dipensiunkan	DCGM_FI_DEV_RETIRED_SBE	Gauge	-	Jumlah halaman yang dipensiunkan karena kesalahan bit tunggal (SBE).
Halaman yang Dipensiunkan	DCGM_FI_DEV_RETIRED_DBE	Gauge	-	Jumlah halaman yang dipensiunkan karena kesalahan bit ganda (DBE).

Metrik RDMA

Anda dapat menyaring metrik terkait RDMA menggunakan dimensi sumber daya berikut:

app="nusa-exporter"
hostname="{{pod_name}}"
ip="172.16.17.114"
namespace="{{pod_namespace}}"
node="{{virtual-kubelet-nodename}}"
pod="{{pod_name}}"

Nama metrik	Tipe	Satuan	Deskripsi
rdma_service_monitor_tx_bytes_rate rdma_service_monitor_rx_bytes_rate	Gauge	bytes	Lalu lintas keluar/masuk instan jaringan RDMA pod.

rdma_service_monitor_tx_bytes rdma_service_monitor_rx_bytes	Counter	bytes	Lalu lintas keluar/masuk kumulatif jaringan RDMA pod.

rdma_service_monitor_tx_packets_rate rdma_service_monitor_rx_packets_rate	Gauge	paket	Jumlah paket keluar/masuk instan pada jaringan RDMA pod.
rdma_service_monitor_tx_packets rdma_service_monitor_rx_packets	Counter	paket	Jumlah kumulatif paket keluar/masuk pada jaringan RDMA pod.