伺服器宕機是一種常見的故障現象,其根源來自於軟體和硬體上發生的異常,且幾乎無法避免。通過類比核心故障造成的ECS宕機,可以測試業務系統在宕機時的反應、檢測系統復原能力、驗證監控和警示機制的有效性等,並基於演練結果制定應對策略,確保生產環境發生宕機時系統能夠迅速恢複正常運行,降低業務中斷風險。
實現原理
本方案使用雲助手外掛程式ecs-fault-oscrash,通過sysrq模組觸發核心panic,系統將自動重啟並恢複正常狀態。
重要
該演練情境具有危險性,請確保業務系統具有高可用(HA)能力,並開啟了Kdump。關於如何開啟Kdump服務,請參見Linux執行個體如何開啟Kdump服務。
使用指南
演練準備
請確保您的ECS執行個體已安裝雲助手Agent,並且雲助手狀態為正常。具體操作,請參見查看雲助手狀態及異常狀態處理。
故障注入
登入ECS執行個體。
具體操作,請參見使用Workbench工具以SSH協議登入Linux執行個體。
使用具有sudo存取權限的使用者,運行雲助手外掛程式
ecs-fault-oscrash。sudo acs-plugin-manager --exec --plugin ecs-fault-oscrash --params inject顯示如下所示時,說明雲助手外掛程式
ecs-fault-oscrash運行成功。
查看故障注入是否成功。
非預期營運事件中,出現因執行個體錯誤執行個體重啟類型的事件,說明故障注入成功。

在ECS執行個體中,執行
uptime,查看系統已耗用時間來確定ECS執行個體是否重啟。顯示如下所示時,說明18:21:46系統已重新啟動,故障注入成功。

故障恢複
該情境下ECS執行個體會自動重啟並恢複正常狀態。如ECS執行個體未成功重啟,請在控制台強制重啟,具體操作,請參見重啟執行個體。