GPU監控基於Exporter+Prometheus+Grafana體系打造更為豐富的GPU監控情境。本文介紹監控大盤中各個監控面板(Panel)的含義。
Panel介紹
GPU監控包含叢集GPU監控-叢集維度、叢集GPU監控-節點維度以及叢集GPU監控-應用Pod維度。監控大盤的具體說明如下:
叢集GPU監控-叢集維度
Panel名稱 | 說明 |
Total GPU Nodes | 表示叢集(或節點池)總的GPU節點數。 |
Allocated GPUs | 表示叢集(或節點池)總的GPU數以及已指派的GPU數。 |
Allocated GPU Memory | 表示叢集(或節點池)已指派的顯存佔總的顯存的百分比。 |
Used GPU Memory | 表示叢集(或節點池)正在使用的顯存佔總的顯存的百分比。 |
Average GPU Utilization | 表示叢集(或節點池)的平均利用率。 |
GPU Memory Copy Utilization | 表示叢集(或節點池)的平均記憶體複製利用率。 |
The Last one XID Error | 表示節點GPU卡上最近出現的XID錯誤。 |
GPU Node Details | 表示叢集中GPU節點的資訊,包括:
|
叢集GPU監控-節點維度
Panel組 | Panel名稱 | 說明 |
Overview | GPU Mode | 表示GPU模式,包括Exclusive、Share和None。
|
NVIDIA Driver Version | 表示節點所安裝的GPU驅動版本。 | |
Allocated GPUs | 表示節點已指派GPU個數和總的GPU個數。 | |
GPU Utilization | 表示節點上的GPU的平均利用率,即節點上所有卡的GPU利用率算平均值。 | |
Allocated GPU Memory | 表示節點已指派的GPU顯存值與總的顯存值的百分比。 | |
Used GPU Memory | 表示節點當前使用的GPU顯存值與總的顯存值的百分比。 | |
Allocated Computing Power(Valid in GPU Sharing) | 表示節點已指派的算力(共用GPU調度且申請算力調度時生效)。 | |
The Last One XID Error | 表示節點GPU卡最近出現的XID錯誤。 | |
Utilization | GPU Utilization | 表示節點GPU卡利用率。 |
GPU Memory Copy Utilization | 表示節點GPU卡記憶體複製利用率。 | |
Encoder Engine Utilization | 表示節點GPU卡編碼器利用率。 | |
Decoder Engine Utilization | 表示節點GPU卡解碼器利用率。 | |
Memory & BAR1 | GPU Memory Details | 表示節點GPU記憶體資訊:
|
BAR1 Used | 表示已使用BAR1。 | |
GPU Memory Used | 表示節點上GPU卡已使用的顯存大小。 | |
BAR1 Total | 表示總BAR1。 | |
GPU Process | GPU Process Details | 節點上GPU線程詳細資料:
|
Illegal GPU Process(GPU request not by k8s resources.limits) Details | 非法的GPU進程(GPU請求未遵循Kubernetes資源限制)詳情。將顯示以如下方式申請的GPU進程:
| |
Profiling | Graphics Engine Active | 表示在一個監控周期內,Graphics或Compute引擎處於Active的時間佔總的時間的比例。 |
DRAM Active | 表示記憶體頻寬利用率(Memory BW Utilization)。 | |
SM Active | 表示SM處於Active的比例。 | |
SM Occupancy | 表示SM佔用率。 | |
Tensor Core Engine Active | 表示在一個監控周期內,Tensor Core管道(Pipe)處於Active時間佔總時間的比例。 | |
FP32 Engine Active | 表示在一個監控周期內,FP32管道處於Active的時間佔總的時間的比例。 | |
FP16 Engine Active | 表示在一個監控周期內,FP16管道處於Active的時間佔總的時間的比例。 | |
FP64 Engine Active | 表示在一個監控周期內,FP64管道處於Active的時間佔總的時間的比例。 | |
PCIE TX Bytes(Device to Host) | 表示節點GPU卡通過PCIe匯流排傳輸的資料速率。 | |
PCIE RX Bytes(Host to Device) | 表示節點GPU卡通過PCIe匯流排接收的資料速率。 | |
NVLINK TX Bytes | 表示通過NVLink傳輸或接收的資料速率。 | |
NVLINK RX Bytes | 表示通過NVLink傳輸或接收的資料速率。 | |
Temperature & Energy | Power Usage | 表示節點GPU卡的功率。 |
Toal Energy Consumption(in J) | 表示GPU卡從驅動載入開始,總共消耗的能量。單位為焦耳。 | |
Memory Temperature | 表示節點GPU記憶體溫度。 | |
GPU Temperature | 表示節點GPU溫度(計算單元)。 | |
Clock | SM CLOCK | 表示SM時鐘頻率。 |
Memory Clock | 表示記憶體頻率。 | |
APP SM Clock | 表示SM應用的時鐘頻率。 | |
APP Memory Clock | 表示應用的記憶體頻率。 | |
Video Clock | 表示Video引擎頻率。 | |
Clock Throttle Reasons | 表示降頻原因。 | |
Retired Pages | Retired Pages(Single-bit Errors) | 表示因單位元錯誤引發的停用的記憶體頁面數。 |
Retired Pages(Double-bit Errors) | 表示因雙位元錯誤引發的停用的記憶體頁面數。 | |
Violation | Power Violation | 表示因功率上限導致的違規。該值為違規的時間,單位為微秒。 |
Thermal Violation | 表示因熱限制導致的違規。該值為違規的時間,單位為微秒。 | |
Sync Boost Violation | 表示因同步提升限制導致的違規。該值為違規的時間,單位為微秒。 | |
Board Limit Violation | 表示因電路板限制導致的違規。該值為違規的時間,單位為微秒。 | |
Board Relability Violation | 表示因電路板可靠性限制導致的違規。該值為違規的時間,單位為微秒。 | |
Low Util Violation | 表示因低利用率限制導致的違規。該值為違規的時間,單位為微秒。 |
叢集GPU監控-應用Pod維度
Panel組 | Panel名稱 | 說明 |
Overview | GPU Pod Details | 表示申請GPU資源的Pod資訊,包括:
|
Pod Metrics(GPU Device) | Pods Used GPU Memory | 表示Pod正在使用的顯存大小。 |
Pods GPU Memory Used Percentage | 表示Pod所使用的GPU記憶體佔總可用GPU記憶體的百分比。 | |
Pods GPU Memory Copy Utilization | 表示Pod記憶體拷貝利用率。 | |
Pods Average SM Utilization | 表示Pod平均的SM利用率。 | |
Pods GPU Decode Utilization | 表示Pod解碼器利用率。 | |
Pods GPU Encode Utilization | 表示Pod編碼器利用率。 | |
Pods Metrics(Host Resource) | Memory Percent | 表示記憶體使用量百分比。 |
Memory Usage | 表示記憶體使用量量。 | |
CPU Usage By Cores | 表示按核心分的CPU使用方式。 | |
CPU Usage Percent | 表示CPU使用百分比。 | |
Network Bandwidth Usage | 表示網路頻寬使用量。 | |
Network Socket | 表示網路通訊端。 | |
File System | 表示檔案系統。 | |
Process Number | 表示進程數量。 | |
GPU Utilization(Associated with Pod) | GPU Utilization | 表示應用GPU卡利用率。 |
GPU Memory Copy Utilization | 表示應用的GPU卡記憶體複製利用率。 | |
Encoder Engine Utilization | 表示應用的GPU卡編碼器利用率。 | |
Decoder Engine Utilization | 表示應用的GPU卡解碼器利用率。 | |
GPU Memory & BAR1(Associated with Pod) | GPU Memory Details | 表示應用GPU記憶體資訊:
|
GPU Memory Used | 表示應用GPU卡已使用的顯存大小。 | |
GPU Memory Used Percentage | 表示應GPU記憶體使用量百分比 | |
BAR1 Used | 表示已使用BAR1。 | |
BAR1 Total | 表示總BAR1。 | |
GPU Profiling(Associated with Pod) | Graphics Engine Active | 表示在一個監控周期內,Graphics或Compute引擎處於Active的時間佔總的時間的比例。 |
DRAM Active | 表示記憶體頻寬利用率(Memory BW Utilization)。 | |
SM Active | 表示SM處於Active的比例。 | |
SM Occupancy | 表示SM佔用率。 | |
Tensor Core Engine Active | 表示在一個監控周期內,Tensor Core管道(Pipe)處於Active時間佔總時間的比例。 | |
FP32 Engine Active | 表示在一個監控周期內,FP32管道處於Active的時間佔總的時間的比例。 | |
FP16 Engine Active | 表示在一個監控周期內,FP16管道處於Active的時間佔總的時間的比例。 | |
FP64 Engine Active | 表示在一個監控周期內,FP64管道處於Active的時間佔總的時間的比例。 | |
PCIE TX Bytes(Device to Host) | 表示應用GPU卡通過PCIe匯流排傳輸的資料速率。 | |
PCIE RX Bytes(Host to Device) | 表示應用GPU卡通過PCIe匯流排接收的資料速率。 | |
NVLINK TX Bytes | 表示通過NVLink傳輸或接收的資料速率。 | |
NVLINK RX Bytes | 表示通過NVLink傳輸或接收的資料速率。 | |
GPU Temperature & Energy(Associated with Pod) | Power Usage | 表示應用GPU卡的功率。 |
Toal Energy Consumption(in J) | 表示GPU卡從驅動載入開始,總共消耗的能量。單位為焦耳。 | |
Memory Temperature | 表示應用GPU記憶體溫度。 | |
GPU Temperature | 表示應用GPU溫度(計算單元)。 | |
GPU Clock(Associated with Pod) | SM CLOCK | 表示SM時鐘頻率。 |
Memory Clock | 表示記憶體頻率。 | |
APP SM Clock | 表示SM應用的時鐘頻率。 | |
APP Memory Clock | 表示應用的記憶體頻率。 | |
Video Clock | 表示Video引擎頻率。 | |
Clock Throttle Reasons | 表示降頻原因。 |