All Products
Search
Document Center

Container Service for Kubernetes:Ikhtisar Dasbor Pemantauan

Last Updated:Mar 10, 2026

GPU Monitoring menggunakan stack Exporter, Prometheus, dan Grafana untuk mendukung skenario pemantauan GPU yang lebih lengkap. Topik ini menjelaskan panel-panel pada dasbor pemantauan.

Ikhtisar Panel

GPU Monitoring mencakup tiga dasbor: GPUs - Cluster Dimension, GPUs - Nodes, dan GPUs - Pods. Bagian berikut menjelaskan masing-masing dasbor tersebut.

GPUs - Cluster Dimension

Panel name

Description

Total GPU Nodes

Jumlah total node GPU dalam kluster atau kelompok node.

Allocated GPUs

Jumlah total GPU dalam kluster atau kelompok node, serta berapa banyak yang dialokasikan.

Allocated GPU Memory

Persentase total memori GPU yang dialokasikan.

Used GPU Memory

Persentase total memori GPU yang sedang digunakan.

Average GPU Utilization

Menampilkan utilisasi rata-rata kluster atau kelompok node.

GPU Memory Copy Utilization

Mewakili rata-rata utilisasi memori replikasi sebuah Kluster (atau kelompok node).

The Last One XID Error

Error XID terbaru pada kartu GPU di kluster.

GPU Node Details

Detail node GPU dalam kluster, termasuk:

  • Node Name: Nama node.

  • GPU Index: Nomor indeks GPU pada node.

  • GPU Utilization: Pemanfaatan kartu GPU.

  • GPU Memory Copy Utilization: Pemanfaatan copy memori.

  • Used GPU Memory: Jumlah memori GPU yang sedang digunakan.

  • Allocated GPU Memory: Persentase total memori GPU yang dialokasikan.

  • Total GPU Memory: Jumlah total memori GPU.

  • Power: Konsumsi daya saat ini.

  • GPU Temperature: Suhu GPU.

  • GPU Memory Temperature: Suhu memori GPU.

GPUs - Nodes

Panel group

Panel name

Description

Overview

GPU Mode

Mode GPU, yang dapat berupa Exclusive, Share, atau None.

  • Exclusive: Resource GPU dialokasikan per kartu GPU.

  • Share: Resource GPU dialokasikan berdasarkan memori GPU dan daya komputasi.

  • None: Tidak ada aplikasi GPU yang berjalan pada node. Sebuah node dapat beralih antara mode Exclusive dan Share. Jika tidak ada program GPU yang berjalan, sistem tidak dapat mendeteksi apakah node menggunakan mode Exclusive atau Share.

NVIDIA Driver Version

Versi driver GPU yang diinstal pada node.

Allocated GPUs

Jumlah GPU yang dialokasikan pada node dan jumlah total GPU pada node.

GPU Utilization

Rata-rata pemanfaatan GPU di seluruh kartu GPU pada node.

Allocated GPU Memory

Persentase total memori GPU yang dialokasikan pada node.

Used GPU Memory

Persentase total memori GPU yang sedang digunakan pada node.

Allocated Computing Power (Valid in GPU Sharing)

Daya komputasi yang dialokasikan. Nilai ini hanya berlaku ketika GPU sharing diaktifkan dan penjadwalan daya komputasi diminta.

The Last One XID Error

Error XID terbaru pada kartu GPU di node.

Utilization

GPU Utilization

Pemanfaatan kartu GPU pada node.

GPU Memory Copy Utilization

Pemanfaatan copy memori pada kartu GPU.

Encoder Engine Utilization

Pemanfaatan engine encoder pada kartu GPU.

Decoder Engine Utilization

Pemanfaatan engine decoder pada kartu GPU.

Memory & BAR1

GPU Memory Details

Detail memori GPU untuk node:

  • UUID: UUID kartu GPU.

  • GPU Index: Nomor indeks kartu GPU.

  • Mode Name: Model Kartu.

  • Used Percentage: Persentase memori GPU yang digunakan.

  • Used: Jumlah memori GPU yang sedang digunakan pada kartu ini.

  • Allocated: Persentase total memori GPU yang dialokasikan.

  • Total: Jumlah total memori GPU pada kartu ini.

BAR1 Used

BAR1 telah digunakan.

GPU Memory Used

Jumlah memori GPU yang digunakan pada kartu GPU di node.

BAR1 Total

Menunjukkan total BAR1.

GPU Process

GPU Process Details

Informasi detail mengenai proses GPU pada node:

  • Pod Namespace: Namespace pod yang memiliki proses tersebut.

  • Pod Name: Nama pod yang memiliki proses tersebut.

  • Container Name: Nama kontainer yang memiliki proses tersebut.

  • Allocate Mode: Cara pod meminta resource GPU—mode Exclusive atau Share.

  • Process Id: ID proses.

  • Process Name: Nama proses.

  • Process Type: Jenis proses—compute (C) atau graphics (G).

  • GPU Index: Kartu GPU tempat proses berjalan.

  • Used Memory: Memori GPU yang digunakan oleh proses.

  • SM Utilization: Pemanfaatan Streaming Multiprocessor (SM) untuk proses tersebut.

  • Memory Copy Utilization: Pemanfaatan copy memori.

  • Decode Utilization: Pemanfaatan decoder.

  • Encode Utilization: Pemanfaatan encoder.

Illegal GPU Process (GPU request not by k8s resources.limits) Details

Detail proses GPU ilegal—proses yang meminta resource GPU tanpa menggunakan Kubernetes resource limits. Termasuk:

  • Jalankan aplikasi GPU secara langsung pada Node.

  • Jalankan aplikasi GPU dalam kontainer yang dimulai langsung dengan perintah docker run.

  • Minta resource GPU untuk Pod dengan mengatur variabel lingkungan NVIDIA_VISIBLE_DEVICES=all atau NVIDIA_VISIBLE_DEVICES=<GPU ID> secara langsung di bagian env Pod dan jalankan program GPU.

  • Konfigurasikan privileged: true di securityContext Pod dan jalankan program GPU.

  • Jalankan program GPU dalam Pod di mana variabel lingkungan NVIDIA_VISIBLE_DEVICES tidak diatur, tetapi gambar kontainer yang digunakan oleh Pod telah dikonfigurasi secara default dengan NVIDIA_VISIBLE_DEVICES=all.

Profiling

Graphics Engine Active

Persentase waktu selama siklus pemantauan saat engine Graphics atau Compute aktif.

DRAM Active

Pemanfaatan bandwidth memori.

SM Active

Persentase waktu saat unit SM aktif.

SM Occupancy

Tingkat occupancy SM.

Tensor Core Engine Active

Persentase waktu selama siklus pemantauan saat pipeline Tensor Core aktif.

FP32 Engine Active

Persentase waktu selama siklus pemantauan saat pipeline FP32 aktif.

FP16 Engine Active

Persentase waktu selama siklus pemantauan saat pipeline FP16 aktif.

FP64 Engine Active

Persentase waktu selama siklus pemantauan saat pipeline FP64 aktif.

PCIE TX Bytes (Device to Host)

Laju transfer data melalui bus PCIe dari perangkat GPU ke host.

PCIE RX Bytes (Host to Device)

Laju transfer data melalui bus PCIe dari host ke perangkat GPU.

NVLINK TX Bytes

Laju transfer data melalui NVLink.

NVLINK RX Bytes

Laju transfer data melalui NVLink.

Temperature & Energy

Power Usage

Konsumsi daya kartu GPU.

Total Energy Consumption (in J)

Total energi yang dikonsumsi oleh kartu GPU sejak driver dimuat. Satuan: joule.

Memory Temperature

Suhu memori GPU.

GPU Temperature

Suhu GPU (unit komputasi).

Clock

SM CLOCK

Frekuensi clock SM.

Memory Clock

Frekuensi clock memori.

APP SM Clock

Frekuensi clock aplikasi SM.

APP Memory Clock

Frekuensi clock memori aplikasi.

Video Clock

Frekuensi clock engine video.

Clock Throttle Reasons

Alasan pembatasan kecepatan clock.

Retired Pages

Retired Pages (Single-bit Errors)

Jumlah halaman memori yang dipensiunkan akibat error single-bit.

Retired Pages (Double-bit Errors)

Jumlah halaman memori yang dipensiunkan akibat error double-bit.

Violation

Power Violation

Waktu yang dihabiskan melanggar batas daya. Satuan: mikrodetik.

Thermal Violation

Waktu yang dihabiskan melanggar batas suhu. Satuan: mikrodetik.

Sync Boost Violation

Waktu yang dihabiskan melanggar batas sync boost. Satuan: mikrodetik.

Board Limit Violation

Waktu yang dihabiskan melanggar batas board. Satuan: mikrodetik.

Board Reliability Violation

Waktu yang dihabiskan melanggar batas keandalan board. Satuan: mikrodetik.

Low Util Violation

Waktu yang dihabiskan melanggar batas pemanfaatan rendah. Satuan: mikrodetik.

GPUs - Pods

Panel group

Panel name

Description

Overview

GPU Pod Details

Detail pod yang meminta resource GPU, termasuk:

  • Pod Namespace: Namespace pod.

  • Pod Name: Nama pod.

  • Node Name: Node tempat pod berjalan.

  • Pod Source: Sumber pod.

  • Allocated Mode: Mode alokasi Pod.

  • Used GPU Memory: Jumlah memori GPU yang sedang digunakan oleh pod.

  • Allocated GPU Memory: Jumlah memori GPU yang dialokasikan untuk pod.

  • Allocated Computing Power: Daya komputasi yang diminta oleh pod dalam mode GPU sharing. Bidang ini kosong jika pod hanya meminta memori GPU atau menggunakan mode GPU eksklusif.

  • SM Utilization: Pemanfaatan Streaming Multiprocessor (SM).

  • GPU Memory Copy Utilization: Pemanfaatan copy memori.

  • Encode Utilization: Pemanfaatan encoder.

  • Decode Utilization: Pemanfaatan decoder.

Pod Metrics (GPU Device)

Pods Used GPU Memory

Jumlah memori GPU yang sedang digunakan oleh pod.

Pods GPU Memory Used Percentage

Persentase total memori GPU yang tersedia yang digunakan oleh pod.

Pods GPU Memory Copy Utilization

Pemanfaatan copy memori untuk pod.

Pods Average SM Utilization

Rata-rata pemanfaatan SM untuk pod.

Pods GPU Decode Utilization

Pemanfaatan decoder untuk pod.

Pods GPU Encode Utilization

Pemanfaatan encoder untuk pod.

Pods Metrics (Host Resource)

Memory Percent

Persentase memori yang digunakan.

Memory Usage

Jumlah memori yang digunakan.

CPU Usage By Cores

Penggunaan CPU per core.

CPU Usage Percent

Persentase CPU yang digunakan.

Network Bandwidth Usage

Penggunaan bandwidth jaringan.

Network Socket

Menunjukkan socket jaringan.

File System

Menunjukkan sistem file.

Process Number

Jumlah proses.

GPU Utilization (Associated with Pod)

GPU Utilization

Pemanfaatan kartu GPU untuk aplikasi.

GPU Memory Copy Utilization

Pemanfaatan copy memori untuk kartu GPU aplikasi.

Encoder Engine Utilization

Pemanfaatan engine encoder untuk kartu GPU aplikasi.

Decoder Engine Utilization

Pemanfaatan engine decoder untuk kartu GPU aplikasi.

GPU Memory & BAR1 (Associated with Pod)

GPU Memory Details

Detail memori GPU untuk aplikasi:

  • UUID: UUID kartu GPU.

  • Pod Source: Sumber pod.

  • Model Name: Model GPU.

  • Driver version: Versi driver.

  • Allocated Mode: Mode yang digunakan untuk mengalokasikan pod.

  • Allocated Percentage: Persentase total memori GPU yang dialokasikan.

  • Used: Jumlah memori GPU yang sedang digunakan pada kartu ini.

  • Used Percentage: Persentase memori GPU yang digunakan.

  • Total: Jumlah total memori GPU pada kartu ini.

GPU Memory Used

Jumlah memori GPU yang digunakan oleh kartu GPU aplikasi.

GPU Memory Used Percentage

Persentase memori GPU yang digunakan oleh aplikasi.

BAR1 Used

BAR1 telah digunakan.

BAR1 Total

Menunjukkan total BAR1.

GPU Profiling (Associated with Pod)

Graphics Engine Active

Persentase waktu selama siklus pemantauan saat engine Graphics atau Compute aktif.

DRAM Active

Pemanfaatan bandwidth memori.

SM Active

Persentase waktu saat unit SM aktif.

SM Occupancy

Tingkat occupancy SM.

Tensor Core Engine Active

Persentase waktu selama siklus pemantauan saat pipeline Tensor Core aktif.

FP32 Engine Active

Persentase waktu selama siklus pemantauan saat pipeline FP32 aktif.

FP16 Engine Active

Persentase waktu selama siklus pemantauan saat pipeline FP16 aktif.

FP64 Engine Active

Persentase waktu selama siklus pemantauan saat pipeline FP64 aktif.

PCIE TX Bytes (Device to Host)

Laju transfer data melalui bus PCIe dari perangkat GPU aplikasi ke host.

PCIE RX Bytes (Host to Device)

Laju transfer data melalui bus PCIe dari host ke perangkat GPU aplikasi.

NVLINK TX Bytes

Laju transfer data melalui NVLink.

NVLINK RX Bytes

Laju transfer data melalui NVLink.

GPU Temperature & Energy (Associated with Pod)

Power Usage

Konsumsi daya kartu GPU aplikasi.

Total Energy Consumption (in J)

Total energi yang dikonsumsi oleh kartu GPU sejak driver dimuat. Satuan: joule.

Memory Temperature

Suhu memori GPU untuk aplikasi.

GPU Temperature

Suhu GPU (unit komputasi) untuk aplikasi.

GPU Clock (Associated with Pod)

SM CLOCK

Frekuensi clock SM.

Memory Clock

Frekuensi clock memori.

APP SM Clock

Frekuensi clock aplikasi SM.

APP Memory Clock

Frekuensi clock memori aplikasi.

Video Clock

Frekuensi clock engine video.

Clock Throttle Reasons

Alasan pembatasan kecepatan clock.