GPU Monitoring menggunakan stack Exporter, Prometheus, dan Grafana untuk mendukung skenario pemantauan GPU yang lebih lengkap. Topik ini menjelaskan panel-panel pada dasbor pemantauan.
Ikhtisar Panel
GPU Monitoring mencakup tiga dasbor: GPUs - Cluster Dimension, GPUs - Nodes, dan GPUs - Pods. Bagian berikut menjelaskan masing-masing dasbor tersebut.
GPUs - Cluster Dimension
|
Panel name |
Description |
|
Total GPU Nodes |
Jumlah total node GPU dalam kluster atau kelompok node. |
|
Allocated GPUs |
Jumlah total GPU dalam kluster atau kelompok node, serta berapa banyak yang dialokasikan. |
|
Allocated GPU Memory |
Persentase total memori GPU yang dialokasikan. |
|
Used GPU Memory |
Persentase total memori GPU yang sedang digunakan. |
|
Average GPU Utilization |
Menampilkan utilisasi rata-rata kluster atau kelompok node. |
|
GPU Memory Copy Utilization |
Mewakili rata-rata utilisasi memori replikasi sebuah Kluster (atau kelompok node). |
|
The Last One XID Error |
Error XID terbaru pada kartu GPU di kluster. |
|
GPU Node Details |
Detail node GPU dalam kluster, termasuk:
|
GPUs - Nodes
|
Panel group |
Panel name |
Description |
|
Overview |
GPU Mode |
Mode GPU, yang dapat berupa Exclusive, Share, atau None.
|
|
NVIDIA Driver Version |
Versi driver GPU yang diinstal pada node. |
|
|
Allocated GPUs |
Jumlah GPU yang dialokasikan pada node dan jumlah total GPU pada node. |
|
|
GPU Utilization |
Rata-rata pemanfaatan GPU di seluruh kartu GPU pada node. |
|
|
Allocated GPU Memory |
Persentase total memori GPU yang dialokasikan pada node. |
|
|
Used GPU Memory |
Persentase total memori GPU yang sedang digunakan pada node. |
|
|
Allocated Computing Power (Valid in GPU Sharing) |
Daya komputasi yang dialokasikan. Nilai ini hanya berlaku ketika GPU sharing diaktifkan dan penjadwalan daya komputasi diminta. |
|
|
The Last One XID Error |
Error XID terbaru pada kartu GPU di node. |
|
|
Utilization |
GPU Utilization |
Pemanfaatan kartu GPU pada node. |
|
GPU Memory Copy Utilization |
Pemanfaatan copy memori pada kartu GPU. |
|
|
Encoder Engine Utilization |
Pemanfaatan engine encoder pada kartu GPU. |
|
|
Decoder Engine Utilization |
Pemanfaatan engine decoder pada kartu GPU. |
|
|
Memory & BAR1 |
GPU Memory Details |
Detail memori GPU untuk node:
|
|
BAR1 Used |
BAR1 telah digunakan. |
|
|
GPU Memory Used |
Jumlah memori GPU yang digunakan pada kartu GPU di node. |
|
|
BAR1 Total |
Menunjukkan total BAR1. |
|
|
GPU Process |
GPU Process Details |
Informasi detail mengenai proses GPU pada node:
|
|
Illegal GPU Process (GPU request not by k8s resources.limits) Details |
Detail proses GPU ilegal—proses yang meminta resource GPU tanpa menggunakan Kubernetes resource limits. Termasuk:
|
|
|
Profiling |
Graphics Engine Active |
Persentase waktu selama siklus pemantauan saat engine Graphics atau Compute aktif. |
|
DRAM Active |
Pemanfaatan bandwidth memori. |
|
|
SM Active |
Persentase waktu saat unit SM aktif. |
|
|
SM Occupancy |
Tingkat occupancy SM. |
|
|
Tensor Core Engine Active |
Persentase waktu selama siklus pemantauan saat pipeline Tensor Core aktif. |
|
|
FP32 Engine Active |
Persentase waktu selama siklus pemantauan saat pipeline FP32 aktif. |
|
|
FP16 Engine Active |
Persentase waktu selama siklus pemantauan saat pipeline FP16 aktif. |
|
|
FP64 Engine Active |
Persentase waktu selama siklus pemantauan saat pipeline FP64 aktif. |
|
|
PCIE TX Bytes (Device to Host) |
Laju transfer data melalui bus PCIe dari perangkat GPU ke host. |
|
|
PCIE RX Bytes (Host to Device) |
Laju transfer data melalui bus PCIe dari host ke perangkat GPU. |
|
|
NVLINK TX Bytes |
Laju transfer data melalui NVLink. |
|
|
NVLINK RX Bytes |
Laju transfer data melalui NVLink. |
|
|
Temperature & Energy |
Power Usage |
Konsumsi daya kartu GPU. |
|
Total Energy Consumption (in J) |
Total energi yang dikonsumsi oleh kartu GPU sejak driver dimuat. Satuan: joule. |
|
|
Memory Temperature |
Suhu memori GPU. |
|
|
GPU Temperature |
Suhu GPU (unit komputasi). |
|
|
Clock |
SM CLOCK |
Frekuensi clock SM. |
|
Memory Clock |
Frekuensi clock memori. |
|
|
APP SM Clock |
Frekuensi clock aplikasi SM. |
|
|
APP Memory Clock |
Frekuensi clock memori aplikasi. |
|
|
Video Clock |
Frekuensi clock engine video. |
|
|
Clock Throttle Reasons |
Alasan pembatasan kecepatan clock. |
|
|
Retired Pages |
Retired Pages (Single-bit Errors) |
Jumlah halaman memori yang dipensiunkan akibat error single-bit. |
|
Retired Pages (Double-bit Errors) |
Jumlah halaman memori yang dipensiunkan akibat error double-bit. |
|
|
Violation |
Power Violation |
Waktu yang dihabiskan melanggar batas daya. Satuan: mikrodetik. |
|
Thermal Violation |
Waktu yang dihabiskan melanggar batas suhu. Satuan: mikrodetik. |
|
|
Sync Boost Violation |
Waktu yang dihabiskan melanggar batas sync boost. Satuan: mikrodetik. |
|
|
Board Limit Violation |
Waktu yang dihabiskan melanggar batas board. Satuan: mikrodetik. |
|
|
Board Reliability Violation |
Waktu yang dihabiskan melanggar batas keandalan board. Satuan: mikrodetik. |
|
|
Low Util Violation |
Waktu yang dihabiskan melanggar batas pemanfaatan rendah. Satuan: mikrodetik. |
GPUs - Pods
|
Panel group |
Panel name |
Description |
|
Overview |
GPU Pod Details |
Detail pod yang meminta resource GPU, termasuk:
|
|
Pod Metrics (GPU Device) |
Pods Used GPU Memory |
Jumlah memori GPU yang sedang digunakan oleh pod. |
|
Pods GPU Memory Used Percentage |
Persentase total memori GPU yang tersedia yang digunakan oleh pod. |
|
|
Pods GPU Memory Copy Utilization |
Pemanfaatan copy memori untuk pod. |
|
|
Pods Average SM Utilization |
Rata-rata pemanfaatan SM untuk pod. |
|
|
Pods GPU Decode Utilization |
Pemanfaatan decoder untuk pod. |
|
|
Pods GPU Encode Utilization |
Pemanfaatan encoder untuk pod. |
|
|
Pods Metrics (Host Resource) |
Memory Percent |
Persentase memori yang digunakan. |
|
Memory Usage |
Jumlah memori yang digunakan. |
|
|
CPU Usage By Cores |
Penggunaan CPU per core. |
|
|
CPU Usage Percent |
Persentase CPU yang digunakan. |
|
|
Network Bandwidth Usage |
Penggunaan bandwidth jaringan. |
|
|
Network Socket |
Menunjukkan socket jaringan. |
|
|
File System |
Menunjukkan sistem file. |
|
|
Process Number |
Jumlah proses. |
|
|
GPU Utilization (Associated with Pod) |
GPU Utilization |
Pemanfaatan kartu GPU untuk aplikasi. |
|
GPU Memory Copy Utilization |
Pemanfaatan copy memori untuk kartu GPU aplikasi. |
|
|
Encoder Engine Utilization |
Pemanfaatan engine encoder untuk kartu GPU aplikasi. |
|
|
Decoder Engine Utilization |
Pemanfaatan engine decoder untuk kartu GPU aplikasi. |
|
|
GPU Memory & BAR1 (Associated with Pod) |
GPU Memory Details |
Detail memori GPU untuk aplikasi:
|
|
GPU Memory Used |
Jumlah memori GPU yang digunakan oleh kartu GPU aplikasi. |
|
|
GPU Memory Used Percentage |
Persentase memori GPU yang digunakan oleh aplikasi. |
|
|
BAR1 Used |
BAR1 telah digunakan. |
|
|
BAR1 Total |
Menunjukkan total BAR1. |
|
|
GPU Profiling (Associated with Pod) |
Graphics Engine Active |
Persentase waktu selama siklus pemantauan saat engine Graphics atau Compute aktif. |
|
DRAM Active |
Pemanfaatan bandwidth memori. |
|
|
SM Active |
Persentase waktu saat unit SM aktif. |
|
|
SM Occupancy |
Tingkat occupancy SM. |
|
|
Tensor Core Engine Active |
Persentase waktu selama siklus pemantauan saat pipeline Tensor Core aktif. |
|
|
FP32 Engine Active |
Persentase waktu selama siklus pemantauan saat pipeline FP32 aktif. |
|
|
FP16 Engine Active |
Persentase waktu selama siklus pemantauan saat pipeline FP16 aktif. |
|
|
FP64 Engine Active |
Persentase waktu selama siklus pemantauan saat pipeline FP64 aktif. |
|
|
PCIE TX Bytes (Device to Host) |
Laju transfer data melalui bus PCIe dari perangkat GPU aplikasi ke host. |
|
|
PCIE RX Bytes (Host to Device) |
Laju transfer data melalui bus PCIe dari host ke perangkat GPU aplikasi. |
|
|
NVLINK TX Bytes |
Laju transfer data melalui NVLink. |
|
|
NVLINK RX Bytes |
Laju transfer data melalui NVLink. |
|
|
GPU Temperature & Energy (Associated with Pod) |
Power Usage |
Konsumsi daya kartu GPU aplikasi. |
|
Total Energy Consumption (in J) |
Total energi yang dikonsumsi oleh kartu GPU sejak driver dimuat. Satuan: joule. |
|
|
Memory Temperature |
Suhu memori GPU untuk aplikasi. |
|
|
GPU Temperature |
Suhu GPU (unit komputasi) untuk aplikasi. |
|
|
GPU Clock (Associated with Pod) |
SM CLOCK |
Frekuensi clock SM. |
|
Memory Clock |
Frekuensi clock memori. |
|
|
APP SM Clock |
Frekuensi clock aplikasi SM. |
|
|
APP Memory Clock |
Frekuensi clock memori aplikasi. |
|
|
Video Clock |
Frekuensi clock engine video. |
|
|
Clock Throttle Reasons |
Alasan pembatasan kecepatan clock. |