重啟叢集或節點的四種方式與適用情境-檢索分析服務 Elasticsearch版-阿里雲

在變更集群配置或處理叢集異常時，需要重啟叢集或其中的節點。瞭解不同重啟方式的適用情境與風險，有助於安全、高效地完成重啟操作。

重啟前：健全狀態檢查與準備

為確保重啟過程平穩，在執行重啟操作前，需完成以下健全狀態檢查和準備工作。

確認叢集健康狀態
通過Kibana串連叢集執行 GET _cluster/health 命令，確保 status 欄位為 green。
例外：只有在執行強制重啟時，才允許在 yellow 或 red 狀態下操作。
確保資料冗餘
執行 GET _cat/indices?v 命令，檢查所有關鍵索引的 rep (副本數) 值。
- 確保副本數至少為 1，沒有副本的索引在重啟期間將無法訪問。
- 對於多可用性區域執行個體，確保任意索引的副本數都小於可用性區域數量。
檢查並處理關閉狀態的索引
執行 GET _cat/indices?v 命令，檢查是否存在 status 為 close 的索引。
- 原因：關閉狀態的索引會導致叢集健全狀態檢查失敗，分區無法正常分配，從而阻塞重啟流程。
- 操作：如果存在，執行 POST /<index_name>/_open 命令將其開啟。
評估叢集負載
在執行個體的叢集監控頁面，檢查以下核心指標，確保資源使用率滿足要求，為重啟過程中的分區遷移預留足夠資源。
- 節點CPU使用率：建議在80%以下。
- 節點HeapMemory使用率：建議在50%左右。
- 節點load_1m：建議低於資料節點的CPU核心數。

執行重啟操作

完成健全狀態檢查後，按照以下步驟執行重啟。

登入Elasticsearch控制台，在左側導覽列，單擊Elasticsearch執行個體。
在頂部功能表列選擇目標執行個體所在的地區，然後單擊目標執行個體ID，在基本資料頁面，單擊右上方的重啟。

在彈出的重啟對話方塊中，根據需求配置以下參數。

操作類型
- 執行個體重啟：重啟執行個體中的所有節點。適用於叢集層級的變更。
- 節點重啟：選擇並重啟一個或多個指定節點。適用於處理個別問題節點。
- 角色節點重啟（僅適用於基礎管控叢集v2）：按角色（如資料節點、Kibana節點）選擇並重啟節點。

藍綠變更和重啟方式

重啟操作會影響叢集的穩定性與可用性，執行重啟操作前，請根據具體情境、叢集狀態和風險承受能力，選擇合適的重啟方式。

重啟方式	叢集狀態要求	適用情境	服務影響	適用執行個體版本
藍綠變更	正常 (綠色)	此操作通過向叢集添加新節點，將原節點資料移轉至新節點後，再刪除原節點。該方案適用於叢集中單個節點效能不佳（例如 CPU 使用率持續高位運行），且對變更時間長度不敏感但對叢集可用性要求較高的情境。重要藍綠變更不允許與強制重啟同時使用。	節點IP會發生變化、叢集效能可能出現短暫波動。	不支援1核2GB規格
重啟 (標準)	正常 (綠色)	計劃內維護、叢集常規配置。	節點IP無變化，重啟耗時較長，在有副本分區的情況下，服務可持續提供但可能出現短暫波動。	所有版本
灰階重啟	正常 (綠色)	在生產環境中，希望分批驗證重啟效果，降低整體風險。選擇此項後，需要先選擇要灰階重啟的節點。待第一批節點重啟完成且叢集穩定後，再手動觸發後續變更以重啟剩餘節點。	節點IP無變化。先重啟部分節點進行觀察，再繼續重啟剩餘節點。	僅限雲原生新管控 (v3) 叢集
強制重啟	非正常 (黃色/紅色)	當執行個體處於非健康狀態（黃色或紅色）時，其他重啟操作將被禁用，必須執行強制重啟。重要當磁碟使用率超過 `cluster.routing.allocation.disk.watermark.low` 閾值時，可能導致叢集進入非健康狀態（黃色或紅色）。期間，請避免執行以下操作：節點擴容磁碟擴容重啟（常規或強制）修改密碼其他配置變更類操作需待執行個體恢複至健康狀態（綠色）後，再進行上述操作。	節點IP無變化。提升並發度可顯著加快強制重啟速度，但也會帶來更大影響：高並發度風險：若設為 100%，將同時重啟所有節點，導致叢集服務完全中斷，且未持久化的快取資料可能丟失。使用建議：叢集異常需緊急恢複時使用高並發度設定。並發度：指同時重啟的節點數量，預設值為叢集總節點數的 10%（向上取整，至少為 1 個節點）。例如並發度設為 10%，表示每次重啟叢集中 10% 的節點。該參數僅在強制重啟模式下顯示。	所有版本

確認參數無誤後，單擊確認。
如果執行強制重啟，需額外勾選確定要強制重啟。操作開始後，執行個體狀態將變為生效中，可在頁面右上方的工作清單中查看重啟進度。重啟完成後，執行個體狀態將恢複為正常。

Elasticsearch：重啟叢集或節點

重啟前：健全狀態檢查與準備

執行重啟操作

常見問題