如何查看並處理Elasticsearch營運事件 - Elasticsearch

您可通過事件中心查看Elasticsearch（簡稱ES）對應的系統營運事件，以便及時發現業務異常，快速分析並定位問題。本文介紹ES的事件分類，以及如何查看並處理事件。

事件分類

ES事件按照起因及影響程度劃分為如下類型。

說明

更多事件明細，請參見附錄：事件明細。

事件分類	事件定義	起因及影響	事件樣本
系統變更	由阿里方發起、使用者被動感知的系統變更事件。需使用者知曉並關注叢集是否受影響。	因基礎設施變更或故障產生的系統變更事件，可能會導致叢集訪問受到影響。觸發該類事件系統會發送通知，請及時查看並檢查叢集狀態。	Kibana功能更新，短時間停用。 AMD機型升級至最新一代。
叢集健康	系統結合叢集實際使用方式，支援通過定期巡檢與監控警示指標兩種方式檢查叢集健康度，並將診斷出的非預期結果作為事件展示。	為確保雲端服務的可持久性，當系統檢測到叢集資源異常或存在風險時，會自動觸發叢集健康事件，以最大限度減少影響。說明營運事件執行期間可能會導致叢集出現短暫的抖動，但不會影響正常訪問。若自動執行失敗，您可在事件中心頁面手動觸發節點重啟。人工幹預視窗期為`24~48`小時，具體執行時間可參考查看並處理事件。	巡檢發現ES節點離線。
叢集變更	由使用者發起，涉及叢集變更的操作事件。變更過程可能會出現失敗、阻塞等問題。	因執行個體規格變更或核心升級等原因導致叢集發生變更事件，會觸發相應節點重啟。營運事件執行期間可能會導致叢集出現短暫的抖動，但不會影響正常訪問。	縮容重啟節點

查看並處理事件

在事件中心頁面，您可查看當前登入帳號下所產生的事件資訊，並按需處理相關事件。

進入事件中心。
1. 登入Elasticsearch控制台。
2. 在左側導覽列單擊事件中心。

查看事件資訊。

在事件中心頁面，您可根據條件式篩選，查看所選事件類型中，目標執行個體在指定時間段內產生的所有事件資訊，並根據事件詳情執行相關處理操作。事件中心頁麵包含系統變更、叢集健康、叢集變更三個頁簽，頁面上方提供時間範圍選取器和執行個體ID關鍵字搜尋進行事件篩選，右上方可單擊訂閱事件或管理通知按鈕。事件列表中操作建議列可單擊重啟或預約重啟連結處理待執行事件。

說明

您可在事件中心查看全量事件資訊，也可根據業務情況，針對需要及時處理的關鍵警示進行事件訂閱並設定通知，當觸發相應警示時，系統會以電話、簡訊、郵件等形式，自動發送警示通知給警示連絡人。

事件資訊及相關處理操作介紹如下。

事件資訊	描述
執行個體ID	產生事件的阿里雲ES執行個體ID。
節點ID	產生事件的執行個體節點ID。
事件等級	表示事件的嚴重程度，包括：資訊：記錄系統正常運行時的狀態或操作，常用於觀察系統狀態或進行調試。警告：系統存在潛在問題或異常，但不影響當前運行，需持續關注。嚴重：系統出現嚴重錯誤或故障，需立即處理，否則可能導致服務不可用或資料丟失。
事件狀態	表示當前事件的執行狀態，包括待執行、執行中、已執行、執行失敗、執行中斷、已取消、待確認執行、待繼續變更、事件已發生、持續中、已復原狀態。其中：待執行：事件等待按照系統設定時間或您預約的時間執行。待確認執行：可根據事件詳情判斷是否立即執行當前事件，或進行事件的快照備份。說明僅系統變更事件中，部分本地碟相關的事件支援該狀態。僅部署類事件（例如，ES叢集升級，部署新版本到指定節點）支援快照備份。待繼續變更：當前變更任務已完成灰階變更，需確認已變更節點和叢集的穩定性，並判斷是否執行後續任務。例如，某變更操作需先在部分節點測試執行，確保變更在小範圍內驗證通過後，再在全量節點執行。對於執行失敗、執行中斷狀態的事件，請及時尋找原因並處理，以免影響業務的正常運行。
事件說明	事件產生的原因及影響描述。
發生時間及結束時間	事件的開始執行時間及執行結束時間。
計劃執行時間及執行結束時間	事件的計劃開始執行時間和預計執行結束時間。說明僅系統變更事件支援設定該資訊。
計劃執行時間及執行結束時間	事件的計劃開始執行時間和預計執行結束時間。說明僅系統變更事件支援設定該資訊。
來源	表示事件的來源，包括：主動告知：ES產生事件後主動推送事件到事件中心。事件訂閱：通過訂閱來監聽指定事件，當事件發生時，系統會收到相應通知。
操作建議	您可根據操作建議處理相關事件。不同事件支援的處理操作存在差異，具體請以實際介面為準。聯絡支援人員：如對相關事件存在疑問，可聯絡支援人員諮詢。重啟：立即重啟相關執行個體的指定節點。預約重啟：需指定重啟時間，系統會按照預約時間重啟相關執行個體的指定節點。節點重啟時間需晚於預約時間`5`分鐘，系統將於預約時間`5`分鐘之內為您重啟節點。說明當前執行個體或節點執行重啟、強制重啟或灰階重啟操作時，系統會自動觸發執行該執行個體或節點的重啟類事件，但重新部署類事件（例如，ES版本升級）仍需提交工單聯絡技術支援人員處理。

附錄：事件明細

事件類型	事件Code及中文名稱	CloudMonitor事件名稱	原因分類	事件等級	事件說明及影響
系統變更事件	SystemUpdate.InfraDiskError 因基礎設施磁碟故障的系統變更事件	`Instance:SystemUpdate.InfraDiskError:Executing`：因基礎設施磁碟故障的系統變更執行中事件 `Instance:SystemUpdate.InfraDiskError:Executed`：因基礎設施磁碟故障的系統變更執行完成事件		嚴重	因基礎設施故障，本地碟無法正常使用。該類事件需要後端重新部署，需提交工單聯絡技術支援人員處理。
	SystemUpdate.InfraDiskStalled 因基礎設施磁碟效能問題的系統變更事件	`Instance:SystemUpdate.InfraDiskstalled:Executing`：因基礎設施磁碟效能問題的系統變更執行中事件 `Instance:SystemUpdate.InfraDiskstalled:Executed`：因基礎設施磁碟效能問題的系統變更執行完成事件		嚴重	因基礎設施故障，雲端硬碟效能受到影響。
	SystemUpdate.InfraFailureStop 因基礎設施故障停止的系統變更事件	`Instance:SystemUpdate.InfraFailureStop:Scheduled`：因基礎設施故障停止的系統變更執行計畫事件 `Instance:SystemUpdate.InfraFailureStop:Executing`：因基礎設施故障停止的系統變更執行中事件 `Instance:SystemUpdate.InfraFailureStop:Executed`：因基礎設施故障停止的系統變更執行完成事件 `Instance:SystemUpdate.InfraFailureStop:Failed`：因基礎設施故障停止的系統變更執行失敗事件		嚴重	因基礎設施存在潛在故障風險，可能導致執行個體停止。


	SystemUpdate.InfraMigrate 因基礎設施變更升級的系統變更事件	`Instance:SystemUpdate.InfraMigrate:Scheduled`：因基礎設施變更升級的系統變更執行計畫事件 `Instance:SystemUpdate.InfraMigrate:Executing`：因基礎設施變更升級的系統變更執行中事件 `Instance:SystemUpdate.InfraMigrate:Executed`：因基礎設施變更升級的系統變更執行完成事件 `Instance:SystemUpdate.InfraMigrate:Failed`：因基礎設施變更升級的系統變更執行失敗事件		嚴重	因基礎設施維護執行個體節點重啟。因基礎設施維護執行個體節點重新部署。
	SystemUpdate.SoftwareRepair 因管控系統軟體更新的系統變更事件	`Instance:SystemUpdate.SoftwareRepair:Scheduled`：因軟體更新的系統變更事件執行計畫事件 `Instance:SystemUpdate.SoftwareRepair:Executing`：因軟體更新的系統變更執行中事件 `Instance:SystemUpdate.SoftwareRepair:Executed`：因軟體更新的系統變更執行完成事件		警告	事件說明：因叢集管控系統升級重啟，即阿里雲執行個體架構升級，管控部署模式由基礎管控（v2）升級為雲原生新管控（v3）。說明您可在執行個體基本資料頁面查看管控部署模式。事件影響：升級會在預定時間段內通過藍綠變更執行，過程中叢集節點個數翻倍，但不涉及費用問題。升級過程持續數小時（與資料量相關），會在您設定的可營運時間段下線舊節點，此過程存在約`1~2`秒的服務中斷。升級期間不支援執行執行個體變更操作，請提前做好相關業務準備。 `6.8.6`版本的叢集會升級到`6.8.23`版本，引擎完全相容且業務不受影響。升級後，Kibana私網會處於關閉狀態，需登入Kibana控制台自行開啟。
叢集健康事件	HealthCheck.ClusterAbnormal 因叢集狀態異常的叢集健康事件	`Instance:HealthCheck.ClusterAbnormal:Executed`：因叢集狀態異常的叢集健康執行完成事件 `Instance:HealthCheck.ClusterAbnormal:Failed`：因叢集狀態異常的叢集健康執行失敗事件		嚴重	因叢集狀態異常執行個體重啟。
	HealthCheck.ClusterAbnormal 因叢集狀態異常的叢集健康事件			嚴重	因叢集狀態異常執行個體重啟。
	HealthCheck.ClusterUnhealthy 因叢集狀態異常的叢集健康事件	`Instance:HealthCheck:ClusterUnhealthy:Occurred`：叢集狀態異常健全狀態檢查發生中事件 `Instance:HealthCheck:ClusterUnhealthy:Persistent`：叢集狀態異常健全狀態檢查持續中事件 `Instance:HealthCheck:ClusterUnhealthy:Recovered`：叢集狀態異常健全狀態檢查已回訪事件	Cluster.StatusRed：叢集健康狀態變成Red	嚴重	叢集狀態Red，存在未分配的主分區，資料不可用。
			Cluster.StatusYellow：叢集健康狀態變更Yellow	警告	叢集狀態Yellow，存在未分配的副本分區，冗餘度降低。
			Node.Disconnected：叢集節點離線或失聯	嚴重	節點離線或失聯，可能導致資料不可用或效能下降。
	HealthCheck.JVMMemoryPressure 因JVM記憶體壓力的資源例外狀況事件	`Instance:HealthCheck:JVMMemoryPressure:Occurred` `Instance:HealthCheck:JVMMemoryPressure:Persistent` `Instance:HealthCheck:JVMMemoryPressure:Recovered`	JVMMemory.HeapMemoryHigh：堆記憶體使用量率過高	警告	堆記憶體使用量率過高，可能觸發FullGC。
			JVMMemory.HeapMemoryCritical：堆記憶體接近上限	嚴重	堆記憶體接近上限，極有可能OOM。
			JVMMemory.GCRateTooHigh：Old GC頻繁	警告	Old GC過於頻繁，影響效能
	HealthCheck.CPULoadHigh 因CPU高負載的資源例外狀況事件	`Instance:HealthCheck:CPULoadHigh:Occurred` `Instance:HealthCheck:CPULoadHigh:Persistent` `Instance:HealthCheck:CPULoadHigh:Recovered`	CPU.PersistUsageHigh：CPU持續高負載	警告	CPU持續高負載，系統響應變慢
	HealthCheck.CPULoadHigh 因CPU高負載的資源例外狀況事件		CPU.PersistUsageCritical：CPU持續高負載	嚴重	CPU持續高負載，系統響應變慢
	HealthCheck.DiskUsageHigh 因磁碟使用率高的資源例外狀況事件	`Instance:HealthCheck:DiskUsageHigh:Occurred` `Instance:HealthCheck:DiskUsageHigh:Persistent` `Instance:HealthCheck:DiskUsageHigh:Recovered`	Disk.UsageHigh：磁碟使用率警示	警告	磁碟空間不足，新的分區將無法建立，需要清理或擴容
			Disk.UsageCritical：磁碟使用率嚴重	嚴重	磁碟接近ES自動唯讀保護閾值(95%)，影響資料正常寫入，需緊急處理
			Disk.IndexReadOnly：索引進入唯讀狀態	嚴重	索引被ES自動化佈建為唯讀（通常因磁碟滿），無法寫入
	HealthCheck.DiskIOBottleneck 因磁碟IO瓶頸的資源例外狀況事件	`Instance:HealthCheck:DiskIOBottleneck:Occurred` `Instance:HealthCheck:DiskIOBottleneck:Persistent` `Instance:HealthCheck:DiskIOBottleneck:Recovered`	Disk.IOUtilizationHigh：磁碟IO使用率較高	嚴重	磁碟IO使用率較高，讀寫延遲增加，建議您擴磁碟或使用更高效能的磁碟類型
	HealthCheck.ThreadPoolSaturation 因線程池飽和的效能瓶頸事件	`Instance:HealthCheck:ThreadPoolSaturation:Occurred` `Instance:HealthCheck:ThreadPoolSaturation:Persistent` `Instance:HealthCheck:ThreadPoolSaturation:Recovered`	ThreadPool.SearchQueueHigh：查詢線程池隊列堆積	警告	查詢線程池隊列堆積，查詢響應變慢
			ThreadPool.SearchRejected：查詢請求被拒絕	嚴重	查詢請求被拒絕，使用者查詢失敗
			ThreadPool.WriteQueueHigh：寫入線程池隊列堆積	警告	寫入線程池隊列堆積，寫入響應變慢
			ThreadPool.WriteRejected：索引請求被拒絕	嚴重	寫入請求被拒絕，資料寫入失敗
叢集變更事件	UserOperator.InstanceSpecModify 因執行個體規格變更的叢集變更事件	`Instance:UserOperator.InstanceSpecModify:Executig`：因執行個體規格變更的叢集變更執行中事件 `Instance:UserOperator.InstanceSpecModify:Executed`：因執行個體規格變更的叢集變更執行完成事件		資訊	因執行個體規格變更導致執行個體重啟。因執行個體節點變更執行個體節點重啟。
	UserOperator.InstanceSpecModify 因執行個體規格變更的叢集變更事件			資訊	因執行個體規格變更導致執行個體重啟。因執行個體節點變更執行個體節點重啟。
	UserOperator.InstanceUpdate 因執行個體變更操作的叢集變更事件	`Instance:UserOperator.InstanceUpdate:Executing`：因執行個體變更操作的叢集變更執行中事件 `Instance:UserOperator.InstanceUpdate:Executed`：因執行個體變更操作的叢集變更執行完成事件		資訊	因執行個體配置變更導致執行個體重啟。因執行個體外掛程式更新。因執行個體IK詞庫外掛程式熱更新。




	UserOperator.InstanceCoreUpdate 因執行個體核心升級的叢集變更事件	`Instance:UserOperator.InstanceCoreUpdate:Executig`：因執行個體核心升級的叢集變更執行中事件 `Instance:UserOperator.InstanceCoreUpdate:Executed`：因執行個體核心升級的叢集變更執行完成事件		資訊	因更新核心版本導致執行個體重啟。