您可通過事件中心查看Elasticsearch(簡稱ES)對應的系統營運事件,以便及時發現業務異常,快速分析並定位問題。本文介紹ES的事件分類,以及如何查看並處理事件。
事件分類
ES事件按照起因及影響程度劃分為如下類型。
更多事件明細,請參見附錄:事件明細。
|
事件分類 |
事件定義 |
起因及影響 |
事件樣本 |
|
系統變更 |
由阿里方發起、使用者被動感知的系統變更事件。需使用者知曉並關注叢集是否受影響。 |
因基礎設施變更或故障產生的系統變更事件,可能會導致叢集訪問受到影響。觸發該類事件系統會發送通知,請及時查看並檢查叢集狀態。 |
|
|
叢集健康 |
系統結合叢集實際使用方式,支援通過定期巡檢與監控警示指標兩種方式檢查叢集健康度,並將診斷出的非預期結果作為事件展示。 |
為確保雲端服務的可持久性,當系統檢測到叢集資源異常或存在風險時,會自動觸發叢集健康事件,以最大限度減少影響。 說明
營運事件執行期間可能會導致叢集出現短暫的抖動,但不會影響正常訪問。若自動執行失敗,您可在事件中心頁面手動觸發節點重啟。人工幹預視窗期為 |
巡檢發現ES節點離線。 |
|
叢集變更 |
由使用者發起,涉及叢集變更的操作事件。變更過程可能會出現失敗、阻塞等問題。 |
因執行個體規格變更或核心升級等原因導致叢集發生變更事件,會觸發相應節點重啟。營運事件執行期間可能會導致叢集出現短暫的抖動,但不會影響正常訪問。 |
|
查看並處理事件
在事件中心頁面,您可查看當前登入帳號下所產生的事件資訊,並按需處理相關事件。
-
進入事件中心。
-
在左側導覽列單擊事件中心。
-
查看事件資訊。
在事件中心頁面,您可根據條件式篩選,查看所選事件類型中,目標執行個體在指定時間段內產生的所有事件資訊,並根據事件詳情執行相關處理操作。事件中心頁麵包含系統變更、叢集健康、叢集變更三個頁簽,頁面上方提供時間範圍選取器和執行個體ID關鍵字搜尋進行事件篩選,右上方可單擊訂閱事件或管理通知按鈕。事件列表中操作建議列可單擊重啟或預約重啟連結處理待執行事件。
事件資訊及相關處理操作介紹如下。
事件資訊
描述
執行個體ID
產生事件的阿里雲ES執行個體ID。
節點ID
產生事件的執行個體節點ID。
事件等級
表示事件的嚴重程度,包括:
-
資訊:記錄系統正常運行時的狀態或操作,常用於觀察系統狀態或進行調試。
-
警告:系統存在潛在問題或異常,但不影響當前運行,需持續關注。
-
嚴重:系統出現嚴重錯誤或故障,需立即處理,否則可能導致服務不可用或資料丟失。
事件狀態
表示當前事件的執行狀態,包括待執行、執行中、已執行、執行失敗、執行中斷、已取消、待確認執行、待繼續變更、事件已發生、持續中、已復原 狀態。其中:
-
待執行:事件等待按照系統設定時間或您預約的時間執行。
-
待確認執行:可根據事件詳情判斷是否立即執行當前事件,或進行事件的快照備份。
說明-
僅系統變更事件中,部分本地碟相關的事件支援該狀態。
-
僅部署類事件(例如,ES叢集升級,部署新版本到指定節點)支援快照備份。
-
-
待繼續變更:當前變更任務已完成灰階變更,需確認已變更節點和叢集的穩定性,並判斷是否執行後續任務。例如,某變更操作需先在部分節點測試執行,確保變更在小範圍內驗證通過後,再在全量節點執行。
對於執行失敗、執行中斷狀態的事件,請及時尋找原因並處理,以免影響業務的正常運行。
事件說明
事件產生的原因及影響描述。
發生時間及結束時間
事件的開始執行時間及執行結束時間。
計劃執行時間及執行結束時間
事件的計劃開始執行時間和預計執行結束時間。
說明僅系統變更事件支援設定該資訊。
來源
表示事件的來源,包括:
-
主動告知:ES產生事件後主動推送事件到事件中心。
-
事件訂閱:通過訂閱來監聽指定事件,當事件發生時,系統會收到相應通知。
操作建議
您可根據操作建議處理相關事件。不同事件支援的處理操作存在差異,具體請以實際介面為準。
-
聯絡支援人員:如對相關事件存在疑問,可聯絡支援人員諮詢。
-
重啟:立即重啟相關執行個體的指定節點。
-
預約重啟:需指定重啟時間,系統會按照預約時間重啟相關執行個體的指定節點。節點重啟時間需晚於預約時間
5分鐘,系統將於預約時間5分鐘之內為您重啟節點。
說明當前執行個體或節點執行重啟、強制重啟或灰階重啟操作時,系統會自動觸發執行該執行個體或節點的重啟類事件,但重新部署類事件(例如,ES版本升級)仍需提交工單聯絡技術支援人員處理。
-
附錄:事件明細
|
事件類型 |
事件Code及中文名稱 |
CloudMonitor事件名稱 |
原因分類 |
事件等級 |
事件說明及影響 |
|
系統變更事件 |
|
|
嚴重 |
因基礎設施故障,本地碟無法正常使用。 該類事件需要後端重新部署,需提交工單聯絡技術支援人員處理。 |
|
|
|
嚴重 |
因基礎設施故障,雲端硬碟效能受到影響。 |
||
|
|
嚴重 |
因基礎設施存在潛在故障風險,可能導致執行個體停止。 |
||
|
|
嚴重 |
|
||
|
|
警告 |
|
||
|
叢集健康事件 |
|
|
嚴重 |
因叢集狀態異常執行個體重啟。 |
|
|
|
Cluster.StatusRed:叢集健康狀態變成Red |
嚴重 |
叢集狀態Red,存在未分配的主分區,資料不可用。 |
|
|
Cluster.StatusYellow:叢集健康狀態變更Yellow |
警告 |
叢集狀態Yellow,存在未分配的副本分區,冗餘度降低。 |
|||
|
Node.Disconnected:叢集節點離線或失聯 |
嚴重 |
節點離線或失聯,可能導致資料不可用或效能下降。 |
|||
|
|
JVMMemory.HeapMemoryHigh:堆記憶體使用量率過高 |
警告 |
堆記憶體使用量率過高,可能觸發FullGC。 |
|
|
JVMMemory.HeapMemoryCritical:堆記憶體接近上限 |
嚴重 |
堆記憶體接近上限,極有可能OOM。 |
|||
|
JVMMemory.GCRateTooHigh:Old GC頻繁 |
警告 |
Old GC過於頻繁,影響效能 |
|||
|
|
CPU.PersistUsageHigh:CPU持續高負載 |
警告 |
CPU持續高負載,系統響應變慢 |
|
|
CPU.PersistUsageCritical:CPU持續高負載 |
嚴重 |
CPU持續高負載,系統響應變慢 |
|||
|
|
Disk.UsageHigh:磁碟使用率警示 |
警告 |
磁碟空間不足,新的分區將無法建立,需要清理或擴容 |
|
|
Disk.UsageCritical:磁碟使用率嚴重 |
嚴重 |
磁碟接近ES自動唯讀保護閾值(95%),影響資料正常寫入,需緊急處理 |
|||
|
Disk.IndexReadOnly:索引進入唯讀狀態 |
嚴重 |
索引被ES自動化佈建為唯讀(通常因磁碟滿),無法寫入 |
|||
|
|
Disk.IOUtilizationHigh:磁碟IO使用率較高 |
嚴重 |
磁碟IO使用率較高,讀寫延遲增加,建議您擴磁碟或使用更高效能的磁碟類型 |
|
|
|
ThreadPool.SearchQueueHigh:查詢線程池隊列堆積 |
警告 |
查詢線程池隊列堆積,查詢響應變慢 |
|
|
ThreadPool.SearchRejected:查詢請求被拒絕 |
嚴重 |
查詢請求被拒絕,使用者查詢失敗 |
|||
|
ThreadPool.WriteQueueHigh:寫入線程池隊列堆積 |
警告 |
寫入線程池隊列堆積,寫入響應變慢 |
|||
|
ThreadPool.WriteRejected:索引請求被拒絕 |
嚴重 |
寫入請求被拒絕,資料寫入失敗 |
|||
|
叢集變更事件 |
|
|
資訊 |
|
|
|
|
資訊 |
|
||
|
|
資訊 |
因更新核心版本導致執行個體重啟。 |