使用雲助手類比核心故障實現ECS宕機演練-Elastic Compute Service-阿里雲

伺服器宕機是一種常見的故障現象，其根源來自於軟體和硬體上發生的異常，且幾乎無法避免。通過類比核心故障造成的ECS宕機，可以測試業務系統在宕機時的反應、檢測系統復原能力、驗證監控和警示機制的有效性等，並基於演練結果制定應對策略，確保生產環境發生宕機時系統能夠迅速恢複正常運行，降低業務中斷風險。

實現原理

本方案使用雲助手外掛程式ecs-fault-oscrash，通過sysrq模組觸發核心panic，系統將自動重啟並恢複正常狀態。

重要

該演練情境具有危險性，請確保業務系統具有高可用（HA）能力，並開啟了Kdump。關於如何開啟Kdump服務，請參見Linux執行個體如何開啟Kdump服務。

請確保您的ECS執行個體已安裝雲助手Agent，並且雲助手狀態為正常。具體操作，請參見查看雲助手狀態及異常狀態處理。

登入ECS執行個體。
具體操作，請參見使用Workbench工具以SSH協議登入Linux執行個體。
使用具有sudo存取權限的使用者，運行雲助手外掛程式ecs-fault-oscrash。
```
sudo acs-plugin-manager --exec --plugin ecs-fault-oscrash --params inject
```
顯示如下所示時，說明雲助手外掛程式ecs-fault-oscrash運行成功。
查看故障注入是否成功。
- 非預期營運事件中，出現因執行個體錯誤執行個體重啟類型的事件，說明故障注入成功。
- 在ECS執行個體中，執行uptime，查看系統已耗用時間來確定ECS執行個體是否重啟。
  顯示如下所示時，說明18:21:46系統已重新啟動，故障注入成功。

該情境下ECS執行個體會自動重啟並恢複正常狀態。如ECS執行個體未成功重啟，請在控制台強制重啟，具體操作，請參見重啟執行個體。