Elasticsearch支援監控執行個體,以及自訂警示閾值和接收警示資訊。為避免出現叢集狀態不正常、節點磁碟使用率過高等問題影響Elasticsearch服務,強烈建議您配置監控警示,即時監控叢集狀態、節點磁碟使用率等資訊,及時查收警示通知,提前做好防禦措施。本文介紹如何為Elasticsearch執行個體配置警示,包括一鍵警示和CloudMonitor警示。
開啟一鍵警示
Elasticsearch的一鍵警示功能由CloudMonitor提供,預設處於關閉狀態。開啟一鍵警示功能後系統會建立叢集狀態異常、節點磁碟使用率異常(>75%)、節點JVM Heap異常(>85%)等警示規則,作用於阿里雲帳號下的全部Elasticsearch執行個體。
在左側導覽列,單擊Elasticsearch執行個體。
在Elasticsearch執行個體頁面,單擊一鍵報警。

在一鍵警示對話方塊中,單擊前往開啟。
說明如果介面顯示前往關閉,表明一鍵警示功能已開啟,無需繼續執行以下操作。
在CloudMonitor控制台中,開啟Elasticsearch服務的一鍵警示開關。
(可選)返回Elasticsearch控制台,查看是否已經成功開啟一鍵警示功能。
在Elasticsearch執行個體頁面,單擊目標執行個體ID。
在左側導覽列,選擇。
單擊基礎監控頁簽,在頁面右上方,查看一鍵警示的狀態。
如果一鍵警示為已開啟狀態,表示您已經成功開啟了一鍵警示。

配置CloudMonitor警示
在左側導覽列,選擇。
單擊建立警示規則。
在建立警示規則頁面,設定警示規則。
以添加節點磁碟使用率、叢集狀態、節點堆記憶體使用量率_ES業務監控為例,參數配置如下,未提及的參數保持預設,詳細參數說明請參見建立警示規則。
參數
說明
產品
選擇Elasticsearch。
資源範圍
選擇執行個體。
關聯資源
添加待監控的執行個體。
規則描述
單擊,在設定規則描述面板,輸入規則名稱,並按照以下說明進行配置:
指標類型:選擇組合指標。
警示層級:選擇警告(Warn)。
多指標警示描述:
說明本文樣本此處配置三個監控指標,單擊添加指標即可新增指標描述。
指標一:選擇,並配置監控值>=2。
指標二:選擇,並配置平均值>=75%。
指標三:選擇,並配置平均值>=85%。
多指標關係:選擇有一個滿足條件就警示(||)。
警示閾值觸發次數:選擇連續3個周期(1周期=1分鐘)。
您也可以通過配置單指標警示規則實現磁碟水位警示,詳細資料請參見配置磁碟警示樣本。
警示連絡人群組
選擇您已建立的警示連絡人群組。若尚未建立,請參見建立警示連絡人或警示聯絡組操作。
說明您還可以開啟進階設定,在警示回調中填寫可通過公網訪問的URL,CloudMonitor會將警示資訊通過POST請求推送到該地址。目前僅支援HTTP協議,詳細資料請參見使用閾值警示回調。
在配置Elasticsearch的警示規則時,您可以參考以下監控指標說明選擇監控指標。更多監控指標資訊,請參見指標含義與異常處理建議。
監控項
說明
叢集狀態
必選。主要監控叢集狀態為正常(綠色)還是非正常(黃色或紅色)。
叢集狀態對應Green、Yellow、Red,轉換成數值對應0.00、1.00、2.00,所以在配置叢集狀態警示指標時,需要按照對應數值的大小配置。
節點磁碟使用率(%)
必選。警示閾值控制在75%以下,不要超過80%。
節點HeapMemory使用率(%)
必選。警示閾值控制在85%以下,不要超過90%。
節點CPU使用率(%)
可選。警示閾值控制在95%以下,不要超過95%。
節點load_1m
可選。以CPU核心數的80%為參考值。
叢集查詢QPS(Count/Second)
可選。以實際測試結果作為參考。
叢集寫入QPS(Count/Second)
可選。以實際測試結果作為參考。
FullGc次數(個)
可選。當數值不為0時,服務異常。
Exception次數(個)
可選。當數值不為0時,服務異常。
快照狀態
可選。當數值為-1或0時,服務正常;為2時,服務異常。
單擊確認。
警示配置成功後,當配置的事件發生時,指定的警示通知人就可以通過配置的通知方式接收到警示通知。
配置磁碟警示樣本
您可以通過CloudMonitor配置磁碟水位警示,及時擷取執行個體節點的磁碟使用率警示資訊,提前處理相關問題。
您可以參見配置CloudMonitor警示,配置磁碟警示。對應警示規則配置樣本如下。
參數 | 樣本 |
規則名稱 | 設定為磁碟水位警示。 |
指標類型 | 選擇簡單指標。 |
監控指標 | 選擇。 |
閾值及警示層級 |
|
監控圖表預覽 | 監控指標的監控圖表預覽效果。 |