在變更集群配置或處理叢集異常時,需要重啟叢集或其中的節點。瞭解不同重啟方式的適用情境與風險,有助於安全、高效地完成重啟操作。
重啟前:健全狀態檢查與準備
為確保重啟過程平穩,在執行重啟操作前,需完成以下健全狀態檢查和準備工作。
確認叢集健康狀態
通過Kibana串連叢集執行GET _cluster/health命令,確保status欄位為green。例外:只有在執行強制重啟時,才允許在
yellow或red狀態下操作。確保資料冗餘
執行GET _cat/indices?v命令,檢查所有關鍵索引的rep(副本數) 值。確保副本數至少為
1,沒有副本的索引在重啟期間將無法訪問。對於多可用性區域執行個體,確保任意索引的副本數都小於可用性區域數量。
檢查並處理關閉狀態的索引
執行GET _cat/indices?v命令,檢查是否存在status為close的索引。原因:關閉狀態的索引會導致叢集健全狀態檢查失敗,分區無法正常分配,從而阻塞重啟流程。
操作:如果存在,執行
POST /<index_name>/_open命令將其開啟。
評估叢集負載
在執行個體的叢集監控頁面,檢查以下核心指標,確保資源使用率滿足要求,為重啟過程中的分區遷移預留足夠資源。節點CPU使用率:建議在80%以下。
節點HeapMemory使用率:建議在50%左右。
節點load_1m:建議低於資料節點的CPU核心數。
執行重啟操作
完成健全狀態檢查後,按照以下步驟執行重啟。
登入Elasticsearch控制台,在左側導覽列,單擊Elasticsearch執行個體。
在頂部功能表列選擇目標執行個體所在的地區,然後單擊目標執行個體ID,在基本資料頁面,單擊右上方的重啟。

在彈出的重啟對話方塊中,根據需求配置以下參數。

操作類型
執行個體重啟:重啟執行個體中的所有節點。適用於叢集層級的變更。
節點重啟:選擇並重啟一個或多個指定節點。適用於處理個別問題節點。
角色節點重啟(僅適用於基礎管控叢集v2):按角色(如資料節點、Kibana節點)選擇並重啟節點。
藍綠變更和重啟方式
重啟操作會影響叢集的穩定性與可用性,執行重啟操作前,請根據具體情境、叢集狀態和風險承受能力,選擇合適的重啟方式。
重啟方式
叢集狀態要求
適用情境
服務影響
適用執行個體版本
藍綠變更
正常 (綠色)
此操作通過向叢集添加新節點,將原節點資料移轉至新節點後,再刪除原節點。
該方案適用於叢集中單個節點效能不佳(例如 CPU 使用率持續高位運行),且對變更時間長度不敏感但對叢集可用性要求較高的情境。
重要藍綠變更不允許與強制重啟同時使用。
節點IP會發生變化、叢集效能可能出現短暫波動。
不支援1核2GB規格
重啟 (標準)
正常 (綠色)
計劃內維護、叢集常規配置。
節點IP無變化,重啟耗時較長,在有副本分區的情況下,服務可持續提供但可能出現短暫波動。
所有版本
灰階重啟
正常 (綠色)
在生產環境中,希望分批驗證重啟效果,降低整體風險。
選擇此項後,需要先選擇要灰階重啟的節點。待第一批節點重啟完成且叢集穩定後,再手動觸發後續變更以重啟剩餘節點。
節點IP無變化。先重啟部分節點進行觀察,再繼續重啟剩餘節點。
僅限雲原生新管控 (v3) 叢集
強制重啟
非正常 (黃色/紅色)
當執行個體處於非健康狀態(黃色或紅色)時,其他重啟操作將被禁用,必須執行強制重啟。
重要當磁碟使用率超過
cluster.routing.allocation.disk.watermark.low閾值時,可能導致叢集進入非健康狀態(黃色或紅色)。期間,請避免執行以下操作:節點擴容
磁碟擴容
重啟(常規或強制)
修改密碼
其他配置變更類操作
需待執行個體恢複至健康狀態(綠色)後,再進行上述操作。
節點IP無變化。
提升並發度可顯著加快強制重啟速度,但也會帶來更大影響:
高並發度風險: 若設為 100%,將同時重啟所有節點,導致叢集服務完全中斷,且未持久化的快取資料可能丟失。
使用建議: 叢集異常需緊急恢複時使用高並發度設定。
並發度:指同時重啟的節點數量,預設值為叢集總節點數的 10%(向上取整,至少為 1 個節點)。例如並發度設為 10%,表示每次重啟叢集中 10% 的節點。
該參數僅在強制重啟模式下顯示。
所有版本
確認參數無誤後,單擊確認。
如果執行強制重啟,需額外勾選確定要強制重啟。操作開始後,執行個體狀態將變為生效中,可在頁面右上方的工作清單中查看重啟進度。重啟完成後,執行個體狀態將恢複為正常。