節點健康狀態展示了當前節點的運行狀態是否正常,它是由多個健全狀態檢查項結果匯總而成的。本文將介紹如何查看節點的健康狀態和相關的健全狀態檢查項。
前提條件
已建立叢集,詳情請參見建立叢集。
使用限制
僅適用於DataLake、Dataflow、OLAP、DataServing和Custom類型的叢集。
查看最新節點健康狀態
進入節點管理頁面。
在頂部功能表列處,根據實際情況選擇地區和資源群組。
在叢集管理頁面,單擊目的地組群所在行的節點管理。
在節點管理頁面,您可以查看節點群組內節點健康情況。
綠色數字:節點群組內良好節點的數量。
黃色數字:節點群組記憶體在隱患節點的數量。
紅色數字:節點群組內異常節點的數量。
灰色數字:節點群組內未知和無狀態節點的數量。
您還可以在節點管理頁面,單擊目標節點群組的
表徵圖。在下方的健康狀態列,即可查看每個節點的健康狀態。節點健康狀態主要有五種類型,分別是良好、存在隱患、異常、未知和無狀態。不同狀態類型對應不同表徵圖展示。
表徵圖
健康狀態
說明

良好
節點運行正常。

存在隱患
節點運行正常,但節點健全狀態檢查項檢測出隱患問題,需關注處理。

異常
節點不可用,節點健全狀態檢查項檢測出嚴重問題,請及時處理。

無狀態
節點在安裝流程或手動停止後不進行健全狀態檢查,無需關注。

未知
無法擷取節點健全狀態檢查項結果。如排查業務無問題,無需關注。
查看節點的健全狀態檢查
在節點管理頁面,單擊目標節點群組的
表徵圖。單擊健康狀態列旁的查看檢查項。
在彈出的面板中,可以查看最新健全狀態檢查結果和節點健全狀態檢查歷史。
節點健全狀態檢查項說明如下表所示。
檢測項名稱
檢測項含義
檢測項閾值
檢測項單位
節點存活狀態
檢測當前節點存活狀態是否正常。
無閾值
-
檔案描述符使用率
檢測當前節點檔案描述符使用率(u)。
存在隱患:95<=u<99
異常:99<=u
%
磁碟故障事件
檢測是否發生底層磁碟故障。
無閾值
-
系統內容檢測
檢測系統重要檔案、Java、Python等是否可用。
無閾值
-
元件服務依賴環境檢測
檢測叢集組件依賴的包檔案、儲存目錄等是否可用。
無閾值
-
網路發送丟包率
檢測網路發送的丟包率(u)。
存在隱患:1.0<=u<2.5
異常:2.5<=u
%
網路接收錯誤率
檢測網路接收的錯誤率(u)。
存在隱患:0.1<=u<0.5
異常:0.5<=u
%
磁碟讀寫延遲
檢測磁碟平均讀寫延遲(u)。
存在隱患:400<=u<800
異常:800<=u
毫秒
網路接收丟包率
檢測網路接收的丟包率(u)。
存在隱患:1.0<=u<2.5
異常:2.5<=u
%
網路發送錯誤率
檢測網路發送的錯誤率(u)。
存在隱患:0.1<=u<0.5
異常:0.5<=u
%
系統故障事件
檢測是否發生底層系統故障。
無閾值
-
CPU使用率
檢測當前節點CPU使用率(u)。
存在隱患:95<=u<99
異常:99<=u
%
磁碟Inode使用率
檢測磁碟Inode使用率(u)。
存在隱患:90<=u<99
異常:99<=u
%
記憶體使用量率
檢測當前節點記憶體使用量率(u)。
存在隱患:95<=u<99
異常:99<=u
%
磁碟空間使用率
檢測磁碟空間使用率(u)。
存在隱患:90<=u<99
異常:99<=u
%