全部產品
Search
文件中心

Elastic Compute Service:宕機演練

更新時間:Apr 10, 2025

伺服器宕機是一種常見的故障現象,其根源來自於軟體和硬體上發生的異常,且幾乎無法避免。通過類比核心故障造成的ECS宕機,可以測試業務系統在宕機時的反應、檢測系統復原能力、驗證監控和警示機制的有效性等,並基於演練結果制定應對策略,確保生產環境發生宕機時系統能夠迅速恢複正常運行,降低業務中斷風險。

實現原理

本方案使用雲助手外掛程式ecs-fault-oscrash,通過sysrq模組觸發核心panic,系統將自動重啟並恢複正常狀態。

重要

該演練情境具有危險性,請確保業務系統具有高可用(HA)能力,並開啟了Kdump。關於如何開啟Kdump服務,請參見Linux執行個體如何開啟Kdump服務

使用指南

演練準備

請確保您的ECS執行個體已安裝雲助手Agent,並且雲助手狀態正常。具體操作,請參見查看雲助手狀態及異常狀態處理

故障注入

  1. 登入ECS執行個體。

    具體操作,請參見使用Workbench工具以SSH協議登入Linux執行個體

  2. 使用具有sudo存取權限的使用者,運行雲助手外掛程式ecs-fault-oscrash

    sudo acs-plugin-manager --exec --plugin ecs-fault-oscrash --params inject

    顯示如下所示時,說明雲助手外掛程式ecs-fault-oscrash運行成功。

    image

  3. 查看故障注入是否成功。

    • 非預期營運事件中,出現因執行個體錯誤執行個體重啟類型的事件,說明故障注入成功。

      image

    • 在ECS執行個體中,執行uptime,查看系統已耗用時間來確定ECS執行個體是否重啟。

      顯示如下所示時,說明18:21:46系統已重新啟動,故障注入成功。

      image

故障恢複

該情境下ECS執行個體會自動重啟並恢複正常狀態。如ECS執行個體未成功重啟,請在控制台強制重啟,具體操作,請參見重啟執行個體