全部產品
Search
文件中心

Container Service for Kubernetes:監控面板說明

更新時間:Jul 09, 2025

GPU監控基於Exporter+Prometheus+Grafana體系打造更為豐富的GPU監控情境。本文介紹監控大盤中各個監控面板(Panel)的含義。

Panel介紹

GPU監控包含叢集GPU監控-叢集維度叢集GPU監控-節點維度以及叢集GPU監控-應用Pod維度。監控大盤的具體說明如下:

叢集GPU監控-叢集維度

Panel名稱

說明

Total GPU Nodes

表示叢集(或節點池)總的GPU節點數。

Allocated GPUs

表示叢集(或節點池)總的GPU數以及已指派的GPU數。

Allocated GPU Memory

表示叢集(或節點池)已指派的顯存佔總的顯存的百分比。

Used GPU Memory

表示叢集(或節點池)正在使用的顯存佔總的顯存的百分比。

Average GPU Utilization

表示叢集(或節點池)的平均利用率。

GPU Memory Copy Utilization

表示叢集(或節點池)的平均記憶體複製利用率。

The Last one XID Error

表示節點GPU卡上最近出現的XID錯誤。

GPU Node Details

表示叢集中GPU節點的資訊,包括:

  • Node Name:節點名稱。

  • GPU Index:節點上的GPU索引號。

  • GPU Utilization:GPU卡的利用率。

  • GPU Memory Copy Utilization:記憶體拷貝利用率。

  • Used GPU Memory:正在使用的顯存大小。

  • Allocated GPU Memory:已指派顯存佔總顯存的比例。

  • Total GPU Memory:總顯存大小。

  • Power:當前功率。

  • GPU Temperature:GPU溫度。

  • GPU Memory Temperature: GPU顯存溫度。

叢集GPU監控-節點維度

Panel組

Panel名稱

說明

Overview

GPU Mode

表示GPU模式,包括Exclusive、Share和None。

  • Exclusive:獨佔模式,按卡的維度申請GPU資源。

  • Share:共用模式,按顯存和算力維度申請GPU資源。

  • None:當前節點上無GPU應用在運行。一個節點可以在獨佔和共用模式之間切換,當不運行GPU程式時,無法探測該節點開啟獨佔或共用模式。

NVIDIA Driver Version

表示節點所安裝的GPU驅動版本。

Allocated GPUs

表示節點已指派GPU個數和總的GPU個數。

GPU Utilization

表示節點上的GPU的平均利用率,即節點上所有卡的GPU利用率算平均值。

Allocated GPU Memory

表示節點已指派的GPU顯存值與總的顯存值的百分比。

Used GPU Memory

表示節點當前使用的GPU顯存值與總的顯存值的百分比。

Allocated Computing Power(Valid in GPU Sharing)

表示節點已指派的算力(共用GPU調度且申請算力調度時生效)。

The Last One XID Error

表示節點GPU卡最近出現的XID錯誤。

Utilization

GPU Utilization

表示節點GPU卡利用率。

GPU Memory Copy Utilization

表示節點GPU卡記憶體複製利用率。

Encoder Engine Utilization

表示節點GPU卡編碼器利用率。

Decoder Engine Utilization

表示節點GPU卡解碼器利用率。

Memory & BAR1

GPU Memory Details

表示節點GPU記憶體資訊:

  • UUID:GPU卡的UUID。

  • GPU Index:GPU卡索引號。

  • Mode Name:卡型號。

  • Used Percentage:GPU記憶體使用量百分比。

  • Used:該卡當前使用的顯存。

  • Allocated:已指派顯存與總的顯存比例。

  • Total:該卡總的顯存。

BAR1 Used

表示已使用BAR1。

GPU Memory Used

表示節點上GPU卡已使用的顯存大小。

BAR1 Total

表示總BAR1。

GPU Process

GPU Process Details

節點上GPU線程詳細資料:

  • Pod Namespace:Process所屬的Pod命名空間。

  • Pod Name:Process所屬的Pod名稱。

  • Container Name:Process所屬的容器名稱。

  • Allocate Mode:Process所屬的Pod以哪種方式申請GPU資源,包括獨佔和共用方式。

  • Process Id:Process的ID號。

  • Process Name:Process名稱。

  • Process Type:Process類型,包括計算類(C)和圖形(G)類任務。

  • GPU Index:Process在哪張GPU卡上運行。

  • Used Memory:Process使用的GPU顯存。

  • SM Utilization:Process的SM利用率。

  • Memory Copy Utilization:記憶體複製利用率。

  • Decode Utilization:解碼器利用率。

  • Encode Utilization:編碼器利用率。

Illegal GPU Process(GPU request not by k8s resources.limits) Details

非法的GPU進程(GPU請求未遵循Kubernetes資源限制)詳情。將顯示以如下方式申請的GPU進程:

  • 直接在節點上運行GPU應用。

  • 通過docker run命令直接啟動容器運行GPU應用。

  • 在Pod的env中直接添加環境變數NVIDIA_VISIBLE_DEVICES=allNVIDIA_VISIBLE_DEVICES=<GPU ID>等,通過環境變數NVIDIA_VISIBLE_DEVICES直接為Pod申請GPU資源,並且運行了GPU程式。

  • 在Pod的securityContext中配置privileged: true,並且運行了GPU程式。

  • 在Pod中未設定環境變數NVIDIA_VISIBLE_DEVICES,但Pod所使用的鏡像在製作時,預設配置環境變數NVIDIA_VISIBLE_DEVICES=all,並且運行了GPU程式。

Profiling

Graphics Engine Active

表示在一個監控周期內,Graphics或Compute引擎處於Active的時間佔總的時間的比例。

DRAM Active

表示記憶體頻寬利用率(Memory BW Utilization)。

SM Active

表示SM處於Active的比例。

SM Occupancy

表示SM佔用率。

Tensor Core Engine Active

表示在一個監控周期內,Tensor Core管道(Pipe)處於Active時間佔總時間的比例。

FP32 Engine Active

表示在一個監控周期內,FP32管道處於Active的時間佔總的時間的比例。

FP16 Engine Active

表示在一個監控周期內,FP16管道處於Active的時間佔總的時間的比例。

FP64 Engine Active

表示在一個監控周期內,FP64管道處於Active的時間佔總的時間的比例。

PCIE TX Bytes(Device to Host)

表示節點GPU卡通過PCIe匯流排傳輸的資料速率。

PCIE RX Bytes(Host to Device)

表示節點GPU卡通過PCIe匯流排接收的資料速率。

NVLINK TX Bytes

表示通過NVLink傳輸或接收的資料速率。

NVLINK RX Bytes

表示通過NVLink傳輸或接收的資料速率。

Temperature & Energy

Power Usage

表示節點GPU卡的功率。

Toal Energy Consumption(in J)

表示GPU卡從驅動載入開始,總共消耗的能量。單位為焦耳。

Memory Temperature

表示節點GPU記憶體溫度。

GPU Temperature

表示節點GPU溫度(計算單元)。

Clock

SM CLOCK

表示SM時鐘頻率。

Memory Clock

表示記憶體頻率。

APP SM Clock

表示SM應用的時鐘頻率。

APP Memory Clock

表示應用的記憶體頻率。

Video Clock

表示Video引擎頻率。

Clock Throttle Reasons

表示降頻原因。

Retired Pages

Retired Pages(Single-bit Errors)

表示因單位元錯誤引發的停用的記憶體頁面數。

Retired Pages(Double-bit Errors)

表示因雙位元錯誤引發的停用的記憶體頁面數。

Violation

Power Violation

表示因功率上限導致的違規。該值為違規的時間,單位為微秒。

Thermal Violation

表示因熱限制導致的違規。該值為違規的時間,單位為微秒。

Sync Boost Violation

表示因同步提升限制導致的違規。該值為違規的時間,單位為微秒。

Board Limit Violation

表示因電路板限制導致的違規。該值為違規的時間,單位為微秒。

Board Relability Violation

表示因電路板可靠性限制導致的違規。該值為違規的時間,單位為微秒。

Low Util Violation

表示因低利用率限制導致的違規。該值為違規的時間,單位為微秒。

叢集GPU監控-應用Pod維度

Panel組

Panel名稱

說明

Overview

GPU Pod Details

表示申請GPU資源的Pod資訊,包括:

  • Pod Namespace:Pod命名空間。

  • Pod Name:Pod名稱。

  • Node Name:Pod所在的節點。

  • Pod Source:Pod所在源。

  • Allocated Mode:Pod分配模式。

  • Used GPU Memory:Pod當前所使用的顯存大小。

  • Allocated GPU Memory:為Pod分配的顯存大小。

  • Allocated Computing Power:共用GPU調度情況下,該Pod申請的算力。僅申請顯存或獨佔GPU該值不顯示。

  • SM Utilization:SM(Streaming Multiprocessor)的利用率。

  • GPU Memory Copy Utilization:記憶體拷貝利用率。

  • Encode Utilization:編碼器利用率。

  • Decode Utilization:解碼器利用率。

Pod Metrics(GPU Device)

Pods Used GPU Memory

表示Pod正在使用的顯存大小。

Pods GPU Memory Used Percentage

表示Pod所使用的GPU記憶體佔總可用GPU記憶體的百分比。

Pods GPU Memory Copy Utilization

表示Pod記憶體拷貝利用率。

Pods Average SM Utilization

表示Pod平均的SM利用率。

Pods GPU Decode Utilization

表示Pod解碼器利用率。

Pods GPU Encode Utilization

表示Pod編碼器利用率。

Pods Metrics(Host Resource)

Memory Percent

表示記憶體使用量百分比。

Memory Usage

表示記憶體使用量量。

CPU Usage By Cores

表示按核心分的CPU使用方式。

CPU Usage Percent

表示CPU使用百分比。

Network Bandwidth Usage

表示網路頻寬使用量。

Network Socket

表示網路通訊端。

File System

表示檔案系統。

Process Number

表示進程數量。

GPU Utilization(Associated with Pod)

GPU Utilization

表示應用GPU卡利用率。

GPU Memory Copy Utilization

表示應用的GPU卡記憶體複製利用率。

Encoder Engine Utilization

表示應用的GPU卡編碼器利用率。

Decoder Engine Utilization

表示應用的GPU卡解碼器利用率。

GPU Memory & BAR1(Associated with Pod)

GPU Memory Details

表示應用GPU記憶體資訊:

  • UUID:GPU卡的UUID。

  • Pod Source:Pod所在源。

  • Mode Name:顯卡型號。

  • Driver Version:驅動版本。

  • Allocated Mode:Pod分配模式。

  • Allocated Percentage:已指派顯存與總的顯存比例。

  • Used:該卡當前使用的顯存。

  • Used Percentage:GPU記憶體使用量百分比。

  • Total:該卡總顯存。

GPU Memory Used

表示應用GPU卡已使用的顯存大小。

GPU Memory Used Percentage

表示應GPU記憶體使用量百分比

BAR1 Used

表示已使用BAR1。

BAR1 Total

表示總BAR1。

GPU Profiling(Associated with Pod)

Graphics Engine Active

表示在一個監控周期內,Graphics或Compute引擎處於Active的時間佔總的時間的比例。

DRAM Active

表示記憶體頻寬利用率(Memory BW Utilization)。

SM Active

表示SM處於Active的比例。

SM Occupancy

表示SM佔用率。

Tensor Core Engine Active

表示在一個監控周期內,Tensor Core管道(Pipe)處於Active時間佔總時間的比例。

FP32 Engine Active

表示在一個監控周期內,FP32管道處於Active的時間佔總的時間的比例。

FP16 Engine Active

表示在一個監控周期內,FP16管道處於Active的時間佔總的時間的比例。

FP64 Engine Active

表示在一個監控周期內,FP64管道處於Active的時間佔總的時間的比例。

PCIE TX Bytes(Device to Host)

表示應用GPU卡通過PCIe匯流排傳輸的資料速率。

PCIE RX Bytes(Host to Device)

表示應用GPU卡通過PCIe匯流排接收的資料速率。

NVLINK TX Bytes

表示通過NVLink傳輸或接收的資料速率。

NVLINK RX Bytes

表示通過NVLink傳輸或接收的資料速率。

GPU Temperature & Energy(Associated with Pod)

Power Usage

表示應用GPU卡的功率。

Toal Energy Consumption(in J)

表示GPU卡從驅動載入開始,總共消耗的能量。單位為焦耳。

Memory Temperature

表示應用GPU記憶體溫度。

GPU Temperature

表示應用GPU溫度(計算單元)。

GPU Clock(Associated with Pod)

SM CLOCK

表示SM時鐘頻率。

Memory Clock

表示記憶體頻率。

APP SM Clock

表示SM應用的時鐘頻率。

APP Memory Clock

表示應用的記憶體頻率。

Video Clock

表示Video引擎頻率。

Clock Throttle Reasons

表示降頻原因。