GPU監控基於Exporter+Prometheus+Grafana體系打造更為豐富的GPU監控情境。本文介紹監控大盤中各個監控面板(Panel)的含義。
Panel介紹
GPU監控包含叢集GPU監控-叢集維度、叢集GPU監控-節點維度以及叢集GPU監控-應用Pod維度。監控大盤的具體說明如下:
叢集GPU監控-叢集維度
|
Panel名稱 |
說明 |
|
Total GPU Nodes |
表示叢集(或節點池)總的GPU節點數。 |
|
Allocated GPUs |
表示叢集(或節點池)總的GPU數以及已指派的GPU數。 |
|
Allocated GPU Memory |
表示叢集(或節點池)已指派的顯存佔總的顯存的百分比。 |
|
Used GPU Memory |
表示叢集(或節點池)正在使用的顯存佔總的顯存的百分比。 |
|
Average GPU Utilization |
表示叢集(或節點池)的平均利用率。 |
|
GPU Memory Copy Utilization |
表示叢集(或節點池)的平均記憶體複製利用率。 |
|
The Last one XID Error |
表示節點GPU卡上最近出現的XID錯誤。 |
|
GPU Node Details |
表示叢集中GPU節點的資訊,包括:
|
叢集GPU監控-節點維度
|
Panel組 |
Panel名稱 |
說明 |
|
Overview |
GPU Mode |
表示GPU模式,包括Exclusive、Share和None。
|
|
NVIDIA Driver Version |
表示節點所安裝的GPU驅動版本。 |
|
|
Allocated GPUs |
表示節點已指派GPU個數和總的GPU個數。 |
|
|
GPU Utilization |
表示節點上的GPU的平均利用率,即節點上所有卡的GPU利用率算平均值。 |
|
|
Allocated GPU Memory |
表示節點已指派的GPU顯存值與總的顯存值的百分比。 |
|
|
Used GPU Memory |
表示節點當前使用的GPU顯存值與總的顯存值的百分比。 |
|
|
Allocated Computing Power(Valid in GPU Sharing) |
表示節點已指派的算力(共用GPU調度且申請算力調度時生效)。 |
|
|
The Last One XID Error |
表示節點GPU卡最近出現的XID錯誤。 |
|
|
Utilization |
GPU Utilization |
表示節點GPU卡利用率。 |
|
GPU Memory Copy Utilization |
表示節點GPU卡記憶體複製利用率。 |
|
|
Encoder Engine Utilization |
表示節點GPU卡編碼器利用率。 |
|
|
Decoder Engine Utilization |
表示節點GPU卡解碼器利用率。 |
|
|
Memory & BAR1 |
GPU Memory Details |
表示節點GPU記憶體資訊:
|
|
BAR1 Used |
表示已使用BAR1。 |
|
|
GPU Memory Used |
表示節點上GPU卡已使用的顯存大小。 |
|
|
BAR1 Total |
表示總BAR1。 |
|
|
GPU Process |
GPU Process Details |
節點上GPU線程詳細資料:
|
|
Illegal GPU Process(GPU request not by k8s resources.limits) Details |
非法的GPU進程(GPU請求未遵循Kubernetes資源限制)詳情。將顯示以如下方式申請的GPU進程:
|
|
|
Profiling |
Graphics Engine Active |
表示在一個監控周期內,Graphics或Compute引擎處於Active的時間佔總的時間的比例。 |
|
DRAM Active |
表示記憶體頻寬利用率(Memory BW Utilization)。 |
|
|
SM Active |
表示SM處於Active的比例。 |
|
|
SM Occupancy |
表示SM佔用率。 |
|
|
Tensor Core Engine Active |
表示在一個監控周期內,Tensor Core管道(Pipe)處於Active時間佔總時間的比例。 |
|
|
FP32 Engine Active |
表示在一個監控周期內,FP32管道處於Active的時間佔總的時間的比例。 |
|
|
FP16 Engine Active |
表示在一個監控周期內,FP16管道處於Active的時間佔總的時間的比例。 |
|
|
FP64 Engine Active |
表示在一個監控周期內,FP64管道處於Active的時間佔總的時間的比例。 |
|
|
PCIE TX Bytes(Device to Host) |
表示節點GPU卡通過PCIe匯流排傳輸的資料速率。 |
|
|
PCIE RX Bytes(Host to Device) |
表示節點GPU卡通過PCIe匯流排接收的資料速率。 |
|
|
NVLINK TX Bytes |
表示通過NVLink傳輸或接收的資料速率。 |
|
|
NVLINK RX Bytes |
表示通過NVLink傳輸或接收的資料速率。 |
|
|
Temperature & Energy |
Power Usage |
表示節點GPU卡的功率。 |
|
Toal Energy Consumption(in J) |
表示GPU卡從驅動載入開始,總共消耗的能量。單位為焦耳。 |
|
|
Memory Temperature |
表示節點GPU記憶體溫度。 |
|
|
GPU Temperature |
表示節點GPU溫度(計算單元)。 |
|
|
Clock |
SM CLOCK |
表示SM時鐘頻率。 |
|
Memory Clock |
表示記憶體頻率。 |
|
|
APP SM Clock |
表示SM應用的時鐘頻率。 |
|
|
APP Memory Clock |
表示應用的記憶體頻率。 |
|
|
Video Clock |
表示Video引擎頻率。 |
|
|
Clock Throttle Reasons |
表示降頻原因。 |
|
|
Retired Pages |
Retired Pages(Single-bit Errors) |
表示因單位元錯誤引發的停用的記憶體頁面數。 |
|
Retired Pages(Double-bit Errors) |
表示因雙位元錯誤引發的停用的記憶體頁面數。 |
|
|
Violation |
Power Violation |
表示因功率上限導致的違規。該值為違規的時間,單位為微秒。 |
|
Thermal Violation |
表示因熱限制導致的違規。該值為違規的時間,單位為微秒。 |
|
|
Sync Boost Violation |
表示因同步提升限制導致的違規。該值為違規的時間,單位為微秒。 |
|
|
Board Limit Violation |
表示因電路板限制導致的違規。該值為違規的時間,單位為微秒。 |
|
|
Board Relability Violation |
表示因電路板可靠性限制導致的違規。該值為違規的時間,單位為微秒。 |
|
|
Low Util Violation |
表示因低利用率限制導致的違規。該值為違規的時間,單位為微秒。 |
叢集GPU監控-應用Pod維度
|
Panel組 |
Panel名稱 |
說明 |
|
Overview |
GPU Pod Details |
表示申請GPU資源的Pod資訊,包括:
|
|
Pod Metrics(GPU Device) |
Pods Used GPU Memory |
表示Pod正在使用的顯存大小。 |
|
Pods GPU Memory Used Percentage |
表示Pod所使用的GPU記憶體佔總可用GPU記憶體的百分比。 |
|
|
Pods GPU Memory Copy Utilization |
表示Pod記憶體拷貝利用率。 |
|
|
Pods Average SM Utilization |
表示Pod平均的SM利用率。 |
|
|
Pods GPU Decode Utilization |
表示Pod解碼器利用率。 |
|
|
Pods GPU Encode Utilization |
表示Pod編碼器利用率。 |
|
|
Pods Metrics(Host Resource) |
Memory Percent |
表示記憶體使用量百分比。 |
|
Memory Usage |
表示記憶體使用量量。 |
|
|
CPU Usage By Cores |
表示按核心分的CPU使用方式。 |
|
|
CPU Usage Percent |
表示CPU使用百分比。 |
|
|
Network Bandwidth Usage |
表示網路頻寬使用量。 |
|
|
Network Socket |
表示網路通訊端。 |
|
|
File System |
表示檔案系統。 |
|
|
Process Number |
表示進程數量。 |
|
|
GPU Utilization(Associated with Pod) |
GPU Utilization |
表示應用GPU卡利用率。 |
|
GPU Memory Copy Utilization |
表示應用的GPU卡記憶體複製利用率。 |
|
|
Encoder Engine Utilization |
表示應用的GPU卡編碼器利用率。 |
|
|
Decoder Engine Utilization |
表示應用的GPU卡解碼器利用率。 |
|
|
GPU Memory & BAR1(Associated with Pod) |
GPU Memory Details |
表示應用GPU記憶體資訊:
|
|
GPU Memory Used |
表示應用GPU卡已使用的顯存大小。 |
|
|
GPU Memory Used Percentage |
表示應GPU記憶體使用量百分比 |
|
|
BAR1 Used |
表示已使用BAR1。 |
|
|
BAR1 Total |
表示總BAR1。 |
|
|
GPU Profiling(Associated with Pod) |
Graphics Engine Active |
表示在一個監控周期內,Graphics或Compute引擎處於Active的時間佔總的時間的比例。 |
|
DRAM Active |
表示記憶體頻寬利用率(Memory BW Utilization)。 |
|
|
SM Active |
表示SM處於Active的比例。 |
|
|
SM Occupancy |
表示SM佔用率。 |
|
|
Tensor Core Engine Active |
表示在一個監控周期內,Tensor Core管道(Pipe)處於Active時間佔總時間的比例。 |
|
|
FP32 Engine Active |
表示在一個監控周期內,FP32管道處於Active的時間佔總的時間的比例。 |
|
|
FP16 Engine Active |
表示在一個監控周期內,FP16管道處於Active的時間佔總的時間的比例。 |
|
|
FP64 Engine Active |
表示在一個監控周期內,FP64管道處於Active的時間佔總的時間的比例。 |
|
|
PCIE TX Bytes(Device to Host) |
表示應用GPU卡通過PCIe匯流排傳輸的資料速率。 |
|
|
PCIE RX Bytes(Host to Device) |
表示應用GPU卡通過PCIe匯流排接收的資料速率。 |
|
|
NVLINK TX Bytes |
表示通過NVLink傳輸或接收的資料速率。 |
|
|
NVLINK RX Bytes |
表示通過NVLink傳輸或接收的資料速率。 |
|
|
GPU Temperature & Energy(Associated with Pod) |
Power Usage |
表示應用GPU卡的功率。 |
|
Toal Energy Consumption(in J) |
表示GPU卡從驅動載入開始,總共消耗的能量。單位為焦耳。 |
|
|
Memory Temperature |
表示應用GPU記憶體溫度。 |
|
|
GPU Temperature |
表示應用GPU溫度(計算單元)。 |
|
|
GPU Clock(Associated with Pod) |
SM CLOCK |
表示SM時鐘頻率。 |
|
Memory Clock |
表示記憶體頻率。 |
|
|
APP SM Clock |
表示SM應用的時鐘頻率。 |
|
|
APP Memory Clock |
表示應用的記憶體頻率。 |
|
|
Video Clock |
表示Video引擎頻率。 |
|
|
Clock Throttle Reasons |
表示降頻原因。 |