CPU利用率是衡量業務系統是否健康的一個重要指標,為使業務達到足夠的穩定性,CPU利用率需保持在合理的範圍內。過高的CPU利用率會導致業務延遲甚至中斷。通過注入高CPU故障,可以測試業務系統在特定CPU負載時的反應、檢測系統復原能力、驗證監控和警示機制的有效性等,並基於演練結果制定應對策略,確保生產環境高CPU利用率時系統能夠迅速恢複正常運行,降低業務中斷風險。
實現原理
本方案使用雲助手外掛程式ecs-fault-highcpu,啟動注入進程AliFaultHighCpu以特定占空比消耗CPU時間片。
使用指南
演練準備
請確保您的ECS執行個體已安裝雲助手Agent,並且雲助手狀態為正常。具體操作,請參見查看雲助手狀態及異常狀態處理。
故障注入
使用具有sudo存取權限的使用者,運行雲助手外掛程式
ecs-fault-highcpu。sudo acs-plugin-manager --exec --plugin ecs-fault-highcpu --params inject,[cpu-percent=paramA],[cpu-list=paramB][]內為可選故障注入參數,參數說明:cpu-percent(可選):要達到的CPU利用率,為空白時預設100。
說明cpu-percent為注入進程的CPU利用率,總CPU利用率還會受到其他進程的影響。
cpu-list(可選):用於對特定vCPU綁定負載,如cpu-list=0-2/4表示對core 0、core 1、core 2和core 4綁定CPU負載,為空白時對全部vCPU綁定負載。
查看故障注入是否成功。
在ECS執行個體中,執行
top命令,CPU利用率上升,說明故障注入成功。其中核心態(sy)和使用者態(us)之和約等於設定的CPU利用率。
在CloudMonitor監控圖表中,注入後CPU利用率上升,說明故障注入成功。

故障恢複
您可以使用以下方式,恢複ECS執行個體狀態。
方法一(推薦):在ECS執行個體中執行故障恢複命令,查看CPU利用率是否下降到故障注入前的水平。
sudo acs-plugin-manager --exec --plugin ecs-fault-highcpu --params recover如下所示,CPU利用率已下降到故障注入前的水平,系統已恢複正常。

方法二:自行終止名為
AliFaultHighCpu的進程。為不影響後續重複對該情境故障注入,終止
AliFaultHighCpu進程後,再次執行方法一的故障恢複命令。sudo kill <AliFaultHighCpu PID>