本文介紹Fluid控制面監控大盤和JindoRuntime緩衝系統監控大盤中變數和Panel的詳細說明。大盤變數為Fluid可觀測性指標提供了不同的維度(例如:監控周期長短、資料集命名空間與名稱等);大盤Panel可以協助您瞭解Fluid環境中組件的健康情況和效能表現。通過監控大盤,您可以及時發現並解決可能出現的問題,定位特定業務情境下緩衝系統中潛在的最佳化項。
前提條件
已為Fluid開啟Prometheus監控和Fluid監控大盤。具體操作,請參見步驟二:查看Fluid大盤資料。
Fluid控制面監控大盤
監控大盤變數說明
監控大盤變數的取值會影響監控大盤Panel的監控資料,您可以按照實際需要選擇變數值。例如,將runtime的變數類型從AlluxioRuntime調整為JindoRuntime後,監控大盤中的相關面板都會切換為JindoRuntime相關的資料。
變數名 | 可選值 | 說明 |
interval | 1m、5m、10m、30m、1h、6h | 一個監控周期的時間長度。 |
quantile | 0.5、0.75、0.90、0.95、0.99 | 部分Panel可視化指標使用的是指標分位元。例如,0.90表示顯示各指標的P90分位元。 |
runtime |
| Fluid中使用的Runtime類型。調整該變數將切換整個監控面板與Runtime相關的Panel。 |
監控大盤Panel說明
Panel組 | Panel名稱 | 說明 |
組件運行狀態 | Dataset控制器就緒副本數 | 表示叢集當前處於Running狀態的Dataset Controller Pod的數量。 |
歷史Dataset控制器重啟次數 | 表示叢集當前Dataset Controller Pod的歷史總重啟次數。 | |
Runtime控制器就緒副本數 | 表示叢集當前處於Running狀態的Runtime Controller Pod數量。 | |
歷史Runtime控制器重啟次數 | 表示叢集當前Runtime Controller Pod的歷史總重啟次數。 | |
Fluid Webhook就緒副本數 | 表示叢集當前處於Running狀態的Fluid Webhook Pod數量。 | |
歷史Fluid Webhook控制器重啟次數 | 表示叢集當前Fluid Webhook Pod的歷史總重啟次數。 | |
Fluid CSI外掛程式就緒副本數 | 表示叢集當前處於Running狀態的Fluid CSI Plugin Pod數量。 | |
歷史Fluid CSI外掛程式重啟次數 | 表示叢集當前Fluid CSI Plugin Pod的歷史總重啟次數。 | |
Fluid組件重啟情況 | 表示叢集在2分鐘監控周期內,各組件發生重啟的次數,僅顯示發生重啟次數最多的5個組件。 | |
Fluid控制器詳細指標 | Runtime控制器處理耗時 | 表示在一個監控周期內,Runtime控制器處理對應Runtime資源的耗時,以分位元顯示。 |
Runtime控制器處理失敗數量 | 表示在一個監控周期內,Runtime控制器處理對應Runtime資源時的失敗類型和次數,失敗類型包括:
| |
Runtime控制器線程數 | 表示當前Runtime控制器的活躍線程數和最大可用線程數。 | |
DataLoad控制器線程數 | 表示當前DataLoad控制器的活躍線程數和最大可用線程數。 | |
控制器隊列長度 | 表示叢集當前Fluid各控制器處理隊列長度。 | |
Kubernetes API總請求量 | 表示在一個監控周期內,Fluid控制面各組件Pod向Kubernetes API Server發送的總請求量。 | |
Runtime控制器Kubernetes API請求量 | 表示在一個監控周期內,Runtime控制器向Kubernetes API Server發送的請求量,根據請求類型返回的狀態代碼進行區分顯示。 | |
控制器未完成處理過程總耗時 | 表示叢集各Fluid控制器正在處理但還未完成的處理過程的累計耗時。 | |
Fluid Webhook詳細指標 | Fluid Webhook Pod CPU使用量 | 表示在一個監控周期內,各個Fluid Webhook Pod的CPU利用率。 |
Fluid Webhook Pod 記憶體使用量量 | 表示在一個監控周期內,各個Fluid Webhook Pod的記憶體使用量量。 | |
Fluid Webhook過去時間間隔總計處理請求量 | 表示在一個監控周期內,Fluid Webhook整體總計處理的請求量。 | |
各Fluid Webhook過去時間間隔處理請求量 | 表示在一個監控周期內,不同的Fluid Webhook Pod分別處理的請求量。 | |
Fluid Webhook請求處理時延 | 表示在一個監控周期內,Fluid Webhook整體的請求處理時延,以分位元顯示。 | |
各Fluid Webhook Pod請求處理時延 | 表示在一個監控周期內,不同的Fluid Webhook Pod的請求處理時延,以分位元顯示。 | |
資源使用 | CPU使用量 | 表示在一個監控周期內,Fluid控制面各組件Pod CPU使用率。 |
記憶體使用量量 | 表示在一個監控周期內,Fluid控制面各組件Pod記憶體使用量量。 | |
各Pod網路發送速率 | 表示在一個監控周期內,Fluid控制面各組件Pod網路資料包的發送速率。 | |
各Pod網路接收速率 | 表示在一個監控周期內,Fluid控制面各組件Pod網路資料包接收速率。 |
Fluid JindoRuntime緩衝監控大盤
監控大盤變數說明
Fluid JindoRuntime緩衝監控大盤支援根據監控大盤變數選中指定的Dataset資料集對象,並查看該Dataset資料集對象綁定的JindoRuntime緩衝系統的相關指標。
變數名 | 說明 |
namespace | 叢集中存在的命名空間。 |
fluid_dataset | 叢集中存在的Fluid Dataset資料集對象的名字。 |
監控大盤Panel說明
Panel組 | Panel名稱 | 說明 |
Dataset Overview(資料集概覽) | Ready Pod Num (就緒Pod數量) | 表示選中的緩衝系統各組件(包括緩衝系統Master、Worker、FUSE組件)就緒Pod的數量。 |
Pod Overview (Pod概覽) | 表示選中的緩衝系統各組件Pod的基本資料,包括最近一小時重啟次數、CPU資源請求和限制、記憶體資源請求和限制。 | |
Cache System Metrics (緩衝系統指標) | Cache Capacity Usage(%) (已使用緩衝容量百分比) | 表示選中的緩衝系統當前已使用的緩衝容量佔比。 |
Cache Capacity Usage (緩衝容量使用方式) | 表示選中的緩衝系統的最大可用緩衝容量和當前已使用容量的具體數值。 | |
Cache Hit Ratio Per Minute(每分鐘快取命中率) | 表示選中的緩衝系統按分鐘周期統計的資料訪問快取命中率。 | |
Read Bytes Per Minute(每分鐘資料讀取量) | 表示選中的緩衝系統統計的每分鐘資料讀取量,包括快取命中時資料讀取的總量(Cache Hit)和緩衝未命中時觸發回來源資料讀取的總量(From Backend)。 | |
Cache System Aggregated Bandwidth(緩衝系統彙總頻寬) | 表示選中的緩衝系統為應用提供的彙總頻寬。彙總頻寬根據各Worker Pod網卡的出網流量加和計算得到。當Worker Pod以宿主機網路運行,該統計值可能偏大,如果需要擷取精確的緩衝系統彙總頻寬資料,請確保Worker Pod以容器網路運行。 | |
Cache Worker Pod Network I/O(緩衝系統Worker Pod網路I/O情況) | 表示選中的緩衝系統中各Worker Pod網路I/O情況。當Worker Pod以宿主機網路運行,該統計值可能偏大,如果需要擷取精確的緩衝系統彙總頻寬資料,請確保Worker Pod以容器網路運行。 | |
Cache System Pod Memory Usage(緩衝系統Pod記憶體使用量情況) | 表示選中的緩衝系統中Master組件Pod和Worker組件Pod的記憶體使用量情況。如果設定了使用Worker組件進程記憶體作為緩衝介質,各個Worker組件Pod已佔用的緩衝容量將被算入其Pod記憶體使用量中。 | |
Cache System Pod CPU Usage by Cores(緩衝系統CPU使用方式) | 表示選中的緩衝系統中Master組件Pod和Worker組件Pod的CPU使用方式。 | |
Aggregated File Operation Requests(檔案中繼資料操作請求頻率) | 表示選中的緩衝系統統計的檔案中繼資料操作請求頻率,目前僅統計GetAttr和ReadDir兩種中繼資料操作。 | |
FUSE Metrics (via CSI) (FUSE Pod用戶端指標) | FUSE Network I/O(FUSE Pod網路I/O情況) | 表示選中的緩衝系統中各FUSE Pod網路I/O情況。當FUSE Pod以宿主機網路運行,該統計值可能偏大,如果需要擷取精確的緩衝系統彙總頻寬資料,請確保FUSE Pod以容器網路運行。 |
FUSE Memory Usage/Limit(%) (FUSE進程記憶體使用量資源限制百分比) | 表示選中的緩衝系統中各FUSE Pod當前記憶體使用量占記憶體資源限制的百分比。當未設定FUSE Pod記憶體資源限制時,該指標值為空白。 | |
FUSE CPU Throttled Percent(FUSE進程CPU限流百分比) | 表示選中的緩衝系統中各FUSE Pod中CPU限流的百分比。當未設定FUSE Pod的CPU資源限制時,該指標值為空白。 | |
Meta Ops Per Second(每秒鐘檔案中繼資料操作頻率) | 表示選中的緩衝系統中各FUSE Pod統計的每秒鐘檔案中繼資料操作頻率。目前僅統計GetAttr、ReadDir、Open三種檔案中繼資料操作。 | |
Meta Ops P99 Latency(檔案中繼資料操作P99分位延時) | 表示選中的緩衝系統中各FUSE Pod檔案中繼資料操作P99分位延時。目前僅統計GetAttr、ReadDir、Open三種檔案中繼資料操作。 | |
Read/Write Ops Per Second(每秒鐘檔案讀/寫操作頻率) | 表示選中的緩衝系統中各FUSE Pod統計的每秒鐘檔案讀/寫操作頻率。 | |
Read/Write Ops P99 Latency | 表示選中的緩衝系統中各FUSE Pod統計的檔案讀/寫操作P99分位延時。 | |
FUSE Metrics (via Sidecar) (FUSE邊車容器用戶端指標) | FUSE Memory Usage/Limit(%) (FUSE進程記憶體使用量資源限制百分比) | 表示選中的緩衝系統中各FUSE邊車容器當前記憶體使用量占記憶體資源限制的百分比。當未設定FUSE邊車容器記憶體資源限制時,該指標值為空白。 |
FUSE CPU Throttled Percent(FUSE進程CPU限流百分比) | 表示選中的緩衝系統中各FUSE邊車容器中CPU限流的百分比。當未設定FUSE邊車容器CPU資源限制時,該指標值為空白。 | |
Meta Ops Per Second(每秒鐘檔案中繼資料操作頻率) | 表示選中的緩衝系統中各FUSE邊車容器統計的每秒鐘檔案中繼資料操作頻率。目前僅統計GetAttr、ReadDir、Open三種檔案中繼資料操作。 | |
Meta Ops P99 Latency(檔案中繼資料操作P99分位延時) | 表示選中的緩衝系統中各FUSE邊車容器檔案中繼資料操作P99分位延時。目前僅統計GetAttr、ReadDir、Open三種檔案中繼資料操作。 | |
Read/Write Ops Per Second(每秒鐘檔案讀/寫操作頻率) | 表示選中的緩衝系統中各FUSE邊車容器統計的每秒鐘檔案讀/寫操作頻率。 | |
Read/Write Ops P99 Latency | 表示選中的緩衝系統中各FUSE邊車容器統計的檔案讀/寫操作P99分位延時。 |