全部產品
Search
文件中心

Elasticsearch:重啟叢集或節點

更新時間:Nov 19, 2025

在變更集群配置或處理叢集異常時,需要重啟叢集或其中的節點。瞭解不同重啟方式的適用情境與風險,有助於安全、高效地完成重啟操作。

重啟前:健全狀態檢查與準備

為確保重啟過程平穩,在執行重啟操作前,需完成以下健全狀態檢查和準備工作。

  1. 確認叢集健康狀態
    通過Kibana串連叢集執行 GET _cluster/health 命令,確保 status 欄位為 green

    例外:只有在執行強制重啟時,才允許在 yellow 或 red 狀態下操作。

  2. 確保資料冗餘
    執行 GET _cat/indices?v 命令,檢查所有關鍵索引的 rep (副本數) 值。

    • 確保副本數至少為 1,沒有副本的索引在重啟期間將無法訪問。

    • 對於多可用性區域執行個體,確保任意索引的副本數都小於可用性區域數量。

  3. 檢查並處理關閉狀態的索引
    執行 GET _cat/indices?v 命令,檢查是否存在 status 為 close 的索引。

    • 原因:關閉狀態的索引會導致叢集健全狀態檢查失敗,分區無法正常分配,從而阻塞重啟流程。

    • 操作:如果存在,執行 POST /<index_name>/_open 命令將其開啟。

  4. 評估叢集負載
    在執行個體的叢集監控頁面,檢查以下核心指標,確保資源使用率滿足要求,為重啟過程中的分區遷移預留足夠資源。

    • 節點CPU使用率:建議在80%以下。

    • 節點HeapMemory使用率:建議在50%左右。

    • 節點load_1m:建議低於資料節點的CPU核心數。

執行重啟操作

完成健全狀態檢查後,按照以下步驟執行重啟。

  1. 登入Elasticsearch控制台,在左側導覽列,單擊Elasticsearch執行個體

  2. 在頂部功能表列選擇目標執行個體所在的地區,然後單擊目標執行個體ID,在基本資料頁面,單擊右上方的重啟

    image

  3. 在彈出的重啟對話方塊中,根據需求配置以下參數。

    image

    • 操作類型

      • 執行個體重啟:重啟執行個體中的所有節點。適用於叢集層級的變更。

      • 節點重啟:選擇並重啟一個或多個指定節點。適用於處理個別問題節點。

      • 角色節點重啟(僅適用於基礎管控叢集v2):按角色(如資料節點、Kibana節點)選擇並重啟節點。

    • 藍綠變更重啟方式

      重啟操作會影響叢集的穩定性與可用性,執行重啟操作前,請根據具體情境、叢集狀態和風險承受能力,選擇合適的重啟方式。

      重啟方式

      叢集狀態要求

      適用情境

      服務影響

      適用執行個體版本

      藍綠變更

      正常 (綠色)

      此操作通過向叢集添加新節點,將原節點資料移轉至新節點後,再刪除原節點。

      該方案適用於叢集中單個節點效能不佳(例如 CPU 使用率持續高位運行),且對變更時間長度不敏感但對叢集可用性要求較高的情境。

      重要

      藍綠變更不允許與強制重啟同時使用。

      節點IP會發生變化、叢集效能可能出現短暫波動。

      不支援1核2GB規格

      重啟 (標準)

      正常 (綠色)

      計劃內維護、叢集常規配置。

      節點IP無變化,重啟耗時較長,在有副本分區的情況下,服務可持續提供但可能出現短暫波動。

      所有版本

      灰階重啟

      正常 (綠色)

      在生產環境中,希望分批驗證重啟效果,降低整體風險。

      選擇此項後,需要先選擇要灰階重啟的節點。待第一批節點重啟完成且叢集穩定後,再手動觸發後續變更以重啟剩餘節點。

      節點IP無變化。先重啟部分節點進行觀察,再繼續重啟剩餘節點。

      僅限雲原生新管控 (v3) 叢集

      強制重啟

      非正常 (黃色/紅色)

      當執行個體處於非健康狀態(黃色或紅色)時,其他重啟操作將被禁用,必須執行強制重啟。

      重要

      當磁碟使用率超過 cluster.routing.allocation.disk.watermark.low 閾值時,可能導致叢集進入非健康狀態(黃色或紅色)。期間,請避免執行以下操作:

      • 節點擴容

      • 磁碟擴容

      • 重啟(常規或強制)

      • 修改密碼

      • 其他配置變更類操作

      需待執行個體恢複至健康狀態(綠色)後,再進行上述操作。

      節點IP無變化。

      提升並發度可顯著加快強制重啟速度,但也會帶來更大影響:

      • 高並發度風險: 若設為 100%,將同時重啟所有節點,導致叢集服務完全中斷,且未持久化的快取資料可能丟失。

      • 使用建議: 叢集異常需緊急恢複時使用高並發度設定。

      並發度:指同時重啟的節點數量,預設值為叢集總節點數的 10%(向上取整,至少為 1 個節點)。例如並發度設為 10%,表示每次重啟叢集中 10% 的節點。
      該參數僅在強制重啟模式下顯示。

      所有版本

  4. 確認參數無誤後,單擊確認

    如果執行強制重啟,需額外勾選確定要強制重啟。操作開始後,執行個體狀態將變為生效中,可在頁面右上方的工作清單中查看重啟進度。重啟完成後,執行個體狀態將恢複為正常。

常見問題