Panduan referensi untuk panel dasbor pemantauan GPU-Container Service for Kubernetes-Alibaba Cloud

GPU Monitoring menggunakan stack Exporter, Prometheus, dan Grafana untuk mendukung skenario pemantauan GPU yang lebih lengkap. Topik ini menjelaskan panel-panel pada dasbor pemantauan.

Ikhtisar Panel

GPU Monitoring mencakup tiga dasbor: GPUs - Cluster Dimension, GPUs - Nodes, dan GPUs - Pods. Bagian berikut menjelaskan masing-masing dasbor tersebut.

GPUs - Cluster Dimension

Panel name	Description
Total GPU Nodes	Jumlah total node GPU dalam kluster atau kelompok node.
Allocated GPUs	Jumlah total GPU dalam kluster atau kelompok node, serta berapa banyak yang dialokasikan.
Allocated GPU Memory	Persentase total memori GPU yang dialokasikan.
Used GPU Memory	Persentase total memori GPU yang sedang digunakan.
Average GPU Utilization	Menampilkan utilisasi rata-rata kluster atau kelompok node.
GPU Memory Copy Utilization	Mewakili rata-rata utilisasi memori replikasi sebuah Kluster (atau kelompok node).
The Last One XID Error	Error XID terbaru pada kartu GPU di kluster.
GPU Node Details	Detail node GPU dalam kluster, termasuk: Node Name: Nama node. GPU Index: Nomor indeks GPU pada node. GPU Utilization: Pemanfaatan kartu GPU. GPU Memory Copy Utilization: Pemanfaatan copy memori. Used GPU Memory: Jumlah memori GPU yang sedang digunakan. Allocated GPU Memory: Persentase total memori GPU yang dialokasikan. Total GPU Memory: Jumlah total memori GPU. Power: Konsumsi daya saat ini. GPU Temperature: Suhu GPU. GPU Memory Temperature: Suhu memori GPU.

GPUs - Nodes

Panel group	Panel name	Description
Overview	GPU Mode	Mode GPU, yang dapat berupa Exclusive, Share, atau None. Exclusive: Resource GPU dialokasikan per kartu GPU. Share: Resource GPU dialokasikan berdasarkan memori GPU dan daya komputasi. None: Tidak ada aplikasi GPU yang berjalan pada node. Sebuah node dapat beralih antara mode Exclusive dan Share. Jika tidak ada program GPU yang berjalan, sistem tidak dapat mendeteksi apakah node menggunakan mode Exclusive atau Share.
	NVIDIA Driver Version	Versi driver GPU yang diinstal pada node.
	Allocated GPUs	Jumlah GPU yang dialokasikan pada node dan jumlah total GPU pada node.
	GPU Utilization	Rata-rata pemanfaatan GPU di seluruh kartu GPU pada node.
	Allocated GPU Memory	Persentase total memori GPU yang dialokasikan pada node.
	Used GPU Memory	Persentase total memori GPU yang sedang digunakan pada node.
	Allocated Computing Power (Valid in GPU Sharing)	Daya komputasi yang dialokasikan. Nilai ini hanya berlaku ketika GPU sharing diaktifkan dan penjadwalan daya komputasi diminta.
	The Last One XID Error	Error XID terbaru pada kartu GPU di node.
Utilization	GPU Utilization	Pemanfaatan kartu GPU pada node.
	GPU Memory Copy Utilization	Pemanfaatan copy memori pada kartu GPU.
	Encoder Engine Utilization	Pemanfaatan engine encoder pada kartu GPU.
	Decoder Engine Utilization	Pemanfaatan engine decoder pada kartu GPU.
Memory & BAR1	GPU Memory Details	Detail memori GPU untuk node: UUID: UUID kartu GPU. GPU Index: Nomor indeks kartu GPU. Mode Name: Model Kartu. Used Percentage: Persentase memori GPU yang digunakan. Used: Jumlah memori GPU yang sedang digunakan pada kartu ini. Allocated: Persentase total memori GPU yang dialokasikan. Total: Jumlah total memori GPU pada kartu ini.
	BAR1 Used	BAR1 telah digunakan.
	GPU Memory Used	Jumlah memori GPU yang digunakan pada kartu GPU di node.
	BAR1 Total	Menunjukkan total BAR1.
GPU Process	GPU Process Details	Informasi detail mengenai proses GPU pada node: Pod Namespace: Namespace pod yang memiliki proses tersebut. Pod Name: Nama pod yang memiliki proses tersebut. Container Name: Nama kontainer yang memiliki proses tersebut. Allocate Mode: Cara pod meminta resource GPU—mode Exclusive atau Share. Process Id: ID proses. Process Name: Nama proses. Process Type: Jenis proses—compute (C) atau graphics (G). GPU Index: Kartu GPU tempat proses berjalan. Used Memory: Memori GPU yang digunakan oleh proses. SM Utilization: Pemanfaatan Streaming Multiprocessor (SM) untuk proses tersebut. Memory Copy Utilization: Pemanfaatan copy memori. Decode Utilization: Pemanfaatan decoder. Encode Utilization: Pemanfaatan encoder.
GPU Process	Illegal GPU Process (GPU request not by k8s resources.limits) Details	Detail proses GPU ilegal—proses yang meminta resource GPU tanpa menggunakan Kubernetes resource limits. Termasuk: Jalankan aplikasi GPU secara langsung pada Node. Jalankan aplikasi GPU dalam kontainer yang dimulai langsung dengan perintah `docker run`. Minta resource GPU untuk Pod dengan mengatur variabel lingkungan `NVIDIA_VISIBLE_DEVICES=all` atau `NVIDIA_VISIBLE_DEVICES=<GPU ID>` secara langsung di bagian `env` Pod dan jalankan program GPU. Konfigurasikan `privileged: true` di `securityContext` Pod dan jalankan program GPU. Jalankan program GPU dalam Pod di mana variabel lingkungan `NVIDIA_VISIBLE_DEVICES` tidak diatur, tetapi gambar kontainer yang digunakan oleh Pod telah dikonfigurasi secara default dengan `NVIDIA_VISIBLE_DEVICES=all`.
Profiling	Graphics Engine Active	Persentase waktu selama siklus pemantauan saat engine Graphics atau Compute aktif.
	DRAM Active	Pemanfaatan bandwidth memori.
	SM Active	Persentase waktu saat unit SM aktif.
	SM Occupancy	Tingkat occupancy SM.
	Tensor Core Engine Active	Persentase waktu selama siklus pemantauan saat pipeline Tensor Core aktif.
	FP32 Engine Active	Persentase waktu selama siklus pemantauan saat pipeline FP32 aktif.
	FP16 Engine Active	Persentase waktu selama siklus pemantauan saat pipeline FP16 aktif.
	FP64 Engine Active	Persentase waktu selama siklus pemantauan saat pipeline FP64 aktif.
	PCIE TX Bytes (Device to Host)	Laju transfer data melalui bus PCIe dari perangkat GPU ke host.
	PCIE RX Bytes (Host to Device)	Laju transfer data melalui bus PCIe dari host ke perangkat GPU.
	NVLINK TX Bytes	Laju transfer data melalui NVLink.
	NVLINK RX Bytes	Laju transfer data melalui NVLink.
Temperature & Energy	Power Usage	Konsumsi daya kartu GPU.
	Total Energy Consumption (in J)	Total energi yang dikonsumsi oleh kartu GPU sejak driver dimuat. Satuan: joule.
	Memory Temperature	Suhu memori GPU.
	GPU Temperature	Suhu GPU (unit komputasi).
Clock	SM CLOCK	Frekuensi clock SM.
	Memory Clock	Frekuensi clock memori.
	APP SM Clock	Frekuensi clock aplikasi SM.
	APP Memory Clock	Frekuensi clock memori aplikasi.
	Video Clock	Frekuensi clock engine video.
	Clock Throttle Reasons	Alasan pembatasan kecepatan clock.
Retired Pages	Retired Pages (Single-bit Errors)	Jumlah halaman memori yang dipensiunkan akibat error single-bit.
Retired Pages	Retired Pages (Double-bit Errors)	Jumlah halaman memori yang dipensiunkan akibat error double-bit.
Violation	Power Violation	Waktu yang dihabiskan melanggar batas daya. Satuan: mikrodetik.
	Thermal Violation	Waktu yang dihabiskan melanggar batas suhu. Satuan: mikrodetik.
	Sync Boost Violation	Waktu yang dihabiskan melanggar batas sync boost. Satuan: mikrodetik.
	Board Limit Violation	Waktu yang dihabiskan melanggar batas board. Satuan: mikrodetik.
	Board Reliability Violation	Waktu yang dihabiskan melanggar batas keandalan board. Satuan: mikrodetik.
	Low Util Violation	Waktu yang dihabiskan melanggar batas pemanfaatan rendah. Satuan: mikrodetik.

GPUs - Pods

Panel group	Panel name	Description
Overview	GPU Pod Details	Detail pod yang meminta resource GPU, termasuk: Pod Namespace: Namespace pod. Pod Name: Nama pod. Node Name: Node tempat pod berjalan. Pod Source: Sumber pod. Allocated Mode: Mode alokasi Pod. Used GPU Memory: Jumlah memori GPU yang sedang digunakan oleh pod. Allocated GPU Memory: Jumlah memori GPU yang dialokasikan untuk pod. Allocated Computing Power: Daya komputasi yang diminta oleh pod dalam mode GPU sharing. Bidang ini kosong jika pod hanya meminta memori GPU atau menggunakan mode GPU eksklusif. SM Utilization: Pemanfaatan Streaming Multiprocessor (SM). GPU Memory Copy Utilization: Pemanfaatan copy memori. Encode Utilization: Pemanfaatan encoder. Decode Utilization: Pemanfaatan decoder.
Pod Metrics (GPU Device)	Pods Used GPU Memory	Jumlah memori GPU yang sedang digunakan oleh pod.
	Pods GPU Memory Used Percentage	Persentase total memori GPU yang tersedia yang digunakan oleh pod.
	Pods GPU Memory Copy Utilization	Pemanfaatan copy memori untuk pod.
	Pods Average SM Utilization	Rata-rata pemanfaatan SM untuk pod.
	Pods GPU Decode Utilization	Pemanfaatan decoder untuk pod.
	Pods GPU Encode Utilization	Pemanfaatan encoder untuk pod.
Pods Metrics (Host Resource)	Memory Percent	Persentase memori yang digunakan.
	Memory Usage	Jumlah memori yang digunakan.
	CPU Usage By Cores	Penggunaan CPU per core.
	CPU Usage Percent	Persentase CPU yang digunakan.
	Network Bandwidth Usage	Penggunaan bandwidth jaringan.
	Network Socket	Menunjukkan socket jaringan.
	File System	Menunjukkan sistem file.
	Process Number	Jumlah proses.
GPU Utilization (Associated with Pod)	GPU Utilization	Pemanfaatan kartu GPU untuk aplikasi.
	GPU Memory Copy Utilization	Pemanfaatan copy memori untuk kartu GPU aplikasi.
	Encoder Engine Utilization	Pemanfaatan engine encoder untuk kartu GPU aplikasi.
	Decoder Engine Utilization	Pemanfaatan engine decoder untuk kartu GPU aplikasi.
GPU Memory & BAR1 (Associated with Pod)	GPU Memory Details	Detail memori GPU untuk aplikasi: UUID: UUID kartu GPU. Pod Source: Sumber pod. Model Name: Model GPU. Driver version: Versi driver. Allocated Mode: Mode yang digunakan untuk mengalokasikan pod. Allocated Percentage: Persentase total memori GPU yang dialokasikan. Used: Jumlah memori GPU yang sedang digunakan pada kartu ini. Used Percentage: Persentase memori GPU yang digunakan. Total: Jumlah total memori GPU pada kartu ini.
	GPU Memory Used	Jumlah memori GPU yang digunakan oleh kartu GPU aplikasi.
	GPU Memory Used Percentage	Persentase memori GPU yang digunakan oleh aplikasi.
	BAR1 Used	BAR1 telah digunakan.
	BAR1 Total	Menunjukkan total BAR1.
GPU Profiling (Associated with Pod)	Graphics Engine Active	Persentase waktu selama siklus pemantauan saat engine Graphics atau Compute aktif.
	DRAM Active	Pemanfaatan bandwidth memori.
	SM Active	Persentase waktu saat unit SM aktif.
	SM Occupancy	Tingkat occupancy SM.
	Tensor Core Engine Active	Persentase waktu selama siklus pemantauan saat pipeline Tensor Core aktif.
	FP32 Engine Active	Persentase waktu selama siklus pemantauan saat pipeline FP32 aktif.
	FP16 Engine Active	Persentase waktu selama siklus pemantauan saat pipeline FP16 aktif.
	FP64 Engine Active	Persentase waktu selama siklus pemantauan saat pipeline FP64 aktif.
	PCIE TX Bytes (Device to Host)	Laju transfer data melalui bus PCIe dari perangkat GPU aplikasi ke host.
	PCIE RX Bytes (Host to Device)	Laju transfer data melalui bus PCIe dari host ke perangkat GPU aplikasi.
	NVLINK TX Bytes	Laju transfer data melalui NVLink.
	NVLINK RX Bytes	Laju transfer data melalui NVLink.
GPU Temperature & Energy (Associated with Pod)	Power Usage	Konsumsi daya kartu GPU aplikasi.
	Total Energy Consumption (in J)	Total energi yang dikonsumsi oleh kartu GPU sejak driver dimuat. Satuan: joule.
	Memory Temperature	Suhu memori GPU untuk aplikasi.
	GPU Temperature	Suhu GPU (unit komputasi) untuk aplikasi.
GPU Clock (Associated with Pod)	SM CLOCK	Frekuensi clock SM.
	Memory Clock	Frekuensi clock memori.
	APP SM Clock	Frekuensi clock aplikasi SM.
	APP Memory Clock	Frekuensi clock memori aplikasi.
	Video Clock	Frekuensi clock engine video.
	Clock Throttle Reasons	Alasan pembatasan kecepatan clock.