您可通過事件中心查看Elasticsearch(簡稱ES)對應的系統營運事件,以便及時發現業務異常,快速分析並定位問題。本文介紹ES的事件分類,以及如何查看並處理事件。
事件分類
ES事件按照起因及影響程度劃分為如下類型。
更多事件明細,請參見附錄:事件明細。
事件分類 | 事件定義 | 起因及影響 | 事件樣本 |
系統變更 | 由阿里方發起、使用者被動感知的系統變更事件。需使用者知曉並關注叢集是否受影響。 | 因基礎設施變更或故障產生的系統變更事件,可能會導致叢集訪問受到影響。觸發該類事件系統會發送通知,請及時查看並檢查叢集狀態。 |
|
叢集健康 | 系統結合叢集的實際使用,定期巡檢叢集健康情況,並將診斷的非預期結果作為事件展示。 | 為確保雲端服務的可持久性,當系統檢測到叢集資源異常或存在風險時,會自動觸發叢集健康事件,以最大限度減少影響。 說明 營運事件執行期間可能會導致叢集出現短暫的抖動,但不會影響正常訪問。若自動執行失敗,您可在事件中心頁面手動觸發節點重啟。人工幹預視窗期為 | 巡檢發現ES節點離線。 |
叢集變更 | 由使用者發起,涉及叢集變更的操作事件。變更過程可能會出現失敗、阻塞等問題。 | 因執行個體規格變更或核心升級等原因導致叢集發生變更事件,會觸發相應節點重啟。營運事件執行期間可能會導致叢集出現短暫的抖動,但不會影響正常訪問。 |
|
查看並處理事件
在事件中心頁面,您可查看當前登入帳號下所產生的事件資訊,並按需處理相關事件。
進入事件中心。
在左側導覽列單擊事件中心。
查看事件資訊。
在事件中心頁面,您可根據條件式篩選,查看所選事件類型中,目標執行個體在指定時間段內產生的所有事件資訊,並根據事件詳情執行相關處理操作。

事件資訊及相關處理操作介紹如下。
事件資訊
描述
執行個體ID
產生事件的阿里雲ES執行個體ID。
節點ID
產生事件的執行個體節點ID。
事件等級
表示事件的嚴重程度,包括:
資訊:記錄系統正常運行時的狀態或操作,常用於觀察系統狀態或進行調試。
警告:系統存在潛在問題或異常,但不影響當前運行,需持續關注。
嚴重:系統出現嚴重錯誤或故障,需立即處理,否則可能導致服務不可用或資料丟失。
事件狀態
表示當前事件的執行狀態,包括待執行、執行中、已執行、執行失敗、執行中斷、已取消、待確認執行、待繼續變更等狀態。其中:
待執行:事件等待按照系統設定時間或您預約的時間執行。
待確認執行:可根據事件詳情判斷是否立即執行當前事件,或進行事件的快照備份。
說明僅系統變更事件中,部分本地碟相關的事件支援該狀態。
僅部署類事件(例如,ES叢集升級,部署新版本到指定節點)支援快照備份。
待繼續變更:當前變更任務已完成灰階變更,需確認已變更節點和叢集的穩定性,並判斷是否執行後續任務。例如,某變更操作需先在部分節點測試執行,確保變更在小範圍內驗證通過後,再在全量節點執行。
對於執行失敗、執行中斷狀態的事件,請及時尋找原因並處理,以免影響業務的正常運行。
事件說明
事件產生的原因及影響描述。
發生時間及結束時間
事件的開始執行時間及執行結束時間。
計劃執行時間及執行結束時間
事件的計劃開始執行時間和預計執行結束時間。
說明僅系統變更事件支援設定該資訊。
來源
表示事件的來源,包括:
主動告知:ES產生事件後主動推送事件到事件中心。
事件訂閱:通過訂閱來監聽指定事件,當事件發生時,系統會收到相應通知。
操作建議
您可根據操作建議處理相關事件。不同事件支援的處理操作存在差異,具體請以實際介面為準。
聯絡支援人員:如對相關事件存在疑問,可聯絡支援人員諮詢。
重啟:立即重啟相關執行個體的指定節點。
預約重啟:需指定重啟時間,系統會按照預約時間重啟相關執行個體的指定節點。節點重啟時間需晚於預約時間
5分鐘,系統將於預約時間5分鐘之內為您重啟節點。
說明當前執行個體或節點執行重啟、強制重啟或灰階重啟操作時,系統會自動觸發執行該執行個體或節點的重啟類事件,但重新部署類事件(例如,ES版本升級)仍需提交工單聯絡技術支援人員處理。
附錄:事件明細
事件類型 | 事件Code及中文名稱 | 事件等級 | CloudMonitor事件名稱 | 事件說明及影響 |
系統變更事件 |
| 嚴重 |
| 因基礎設施故障,本地碟無法正常使用。 該類事件需要後端重新部署,需提交工單聯絡技術支援人員處理。 |
| 嚴重 |
| 因基礎設施故障,雲端硬碟效能受到影響。 | |
| 嚴重 |
| 因基礎設施存在潛在故障風險,可能導致執行個體停止。 | |
| 嚴重 |
|
| |
| 警告 |
|
| |
叢集健康事件 |
| 嚴重 |
| 因叢集狀態異常執行個體重啟。 |
叢集變更事件 |
| 資訊 |
|
|
| 資訊 |
|
| |
| 資訊 |
| 因更新核心版本導致執行個體重啟。 |