全部產品
Search
文件中心

E-MapReduce:查看節點健康狀態

更新時間:Oct 30, 2024

節點健康狀態展示了當前節點的運行狀態是否正常,它是由多個健全狀態檢查項結果匯總而成的。本文將介紹如何查看節點的健康狀態和相關的健全狀態檢查項。

前提條件

已建立叢集,詳情請參見建立叢集

使用限制

僅適用於DataLake、Dataflow、OLAP、DataServing和Custom類型的叢集。

查看最新節點健康狀態

  1. 進入節點管理頁面。

    1. 登入E-MapReduce控制台

    2. 在頂部功能表列處,根據實際情況選擇地區和資源群組

    3. 叢集管理頁面,單擊目的地組群所在行的節點管理

  2. 節點管理頁面,您可以查看節點群組內節點健康情況。

    • 綠色數字:節點群組內良好節點的數量。

    • 黃色數字:節點群組記憶體在隱患節點的數量。

    • 紅色數字:節點群組內異常節點的數量。

    • 灰色數字:節點群組內未知和無狀態節點的數量。

    您還可以在節點管理頁面,單擊目標節點群組的image.png表徵圖。在下方的健康狀態列,即可查看每個節點的健康狀態。

    節點健康狀態主要有五種類型,分別是良好、存在隱患、異常、未知和無狀態。不同狀態類型對應不同表徵圖展示。

    表徵圖

    健康狀態

    說明

    image.png

    良好

    節點運行正常。

    image.png

    存在隱患

    節點運行正常,但節點健全狀態檢查項檢測出隱患問題,需關注處理。

    image.png

    異常

    節點不可用,節點健全狀態檢查項檢測出嚴重問題,請及時處理。

    image.png

    無狀態

    節點在安裝流程或手動停止後不進行健全狀態檢查,無需關注。

    image.png

    未知

    無法擷取節點健全狀態檢查項結果。如排查業務無問題,無需關注。

查看節點的健全狀態檢查

  1. 節點管理頁面,單擊目標節點群組的image.png表徵圖。

  2. 單擊健康狀態列旁的查看檢查項

  3. 在彈出的面板中,可以查看最新健全狀態檢查結果和節點健全狀態檢查歷史。

    節點健全狀態檢查項說明如下表所示。

    檢測項名稱

    檢測項含義

    檢測項閾值

    檢測項單位

    節點存活狀態

    檢測當前節點存活狀態是否正常。

    無閾值

    -

    檔案描述符使用率

    檢測當前節點檔案描述符使用率(u)。

    • 存在隱患:95<=u<99

    • 異常:99<=u

    %

    磁碟故障事件

    檢測是否發生底層磁碟故障。

    無閾值

    -

    系統內容檢測

    檢測系統重要檔案、Java、Python等是否可用。

    無閾值

    -

    元件服務依賴環境檢測

    檢測叢集組件依賴的包檔案、儲存目錄等是否可用。

    無閾值

    -

    網路發送丟包率

    檢測網路發送的丟包率(u)。

    • 存在隱患:1.0<=u<2.5

    • 異常:2.5<=u

    %

    網路接收錯誤率

    檢測網路接收的錯誤率(u)。

    • 存在隱患:0.1<=u<0.5

    • 異常:0.5<=u

    %

    磁碟讀寫延遲

    檢測磁碟平均讀寫延遲(u)。

    • 存在隱患:400<=u<800

    • 異常:800<=u

    毫秒

    網路接收丟包率

    檢測網路接收的丟包率(u)。

    • 存在隱患:1.0<=u<2.5

    • 異常:2.5<=u

    %

    網路發送錯誤率

    檢測網路發送的錯誤率(u)。

    • 存在隱患:0.1<=u<0.5

    • 異常:0.5<=u

    %

    系統故障事件

    檢測是否發生底層系統故障。

    無閾值

    -

    CPU使用率

    檢測當前節點CPU使用率(u)。

    • 存在隱患:95<=u<99

    • 異常:99<=u

    %

    磁碟Inode使用率

    檢測磁碟Inode使用率(u)。

    • 存在隱患:90<=u<99

    • 異常:99<=u

    %

    記憶體使用量率

    檢測當前節點記憶體使用量率(u)。

    • 存在隱患:95<=u<99

    • 異常:99<=u

    %

    磁碟空間使用率

    檢測磁碟空間使用率(u)。

    • 存在隱患:90<=u<99

    • 異常:99<=u

    %