本文介紹ECS執行個體的自動回復事件如何改善您使用阿里雲ECS時的營運效率和整體體驗。

什麼是執行個體自動回復事件

在託管ECS執行個體的底層硬體意外崩潰的情況下,如果確認故障無法復原轉並且執行個體無法修複,則系統將自動重新啟動執行個體,實現宕機遷移。在這種情況下,所恢複執行個體的所有執行個體中繼資料都將保持不變,例如執行個體ID以及私人和公網IP地址等。

自動回復是異常類系統事件,其事件代碼為SystemFailure.Reboot。自動回復事件不需要您自行操作。下表區分了自動回復與其他類型的營運事件:

營運事件類型 是否可以查詢營運計劃 是否可以人工幹預
自動回復
非異常類系統事件

使用限制

  • 執行個體自動回復期間,您無法自行重啟執行個體。
  • 如果您使用的是本地碟執行個體,在執行個體宿主機發生意外崩潰但原宿主機可以自行重啟恢複時,本地碟執行個體方可自動回復,本地碟資料會被保留。若宿主機無法自行重啟恢複,本地碟執行個體需要被重新部署到其他健康宿主機來恢複執行個體的可用性,本地碟資料會被清除。本地碟執行個體發生營運事件時,您可以提交工單查詢本地碟資料恢複情況。

查看執行個體自動回復事件

本文樣本通過阿里雲CLI調用DescribeInstanceHistoryEvents查看執行個體是否有執行中或已執行。有關如何使用其他開發人員工具調用API,請參見ECS API快速入門

aliyun ecs DescribeInstanceHistoryEvents --RegionId TheRegionId --InstanceId YourInstanceId --InstanceEventCycleStatus.1=Executing --InstanceEventCycleStatus.2=Executed --InstanceEventType.1=SystemFailure.Reboot

有關如何使用ECS控制台查看自動回復事件,請參見系統事件

提高容錯率

若需充分利用執行個體的自動回復功能和容錯移轉操作,請確保您完成了以下操作:

  • 將您的核心應用程式(例如SAP HANA)添加到自啟動項列表中,避免業務操作的任何中斷。
  • 開啟應用程式的自動重新串連功能。例如,允許應用程式自動連接到MySQL、SQL Server或Apache Tomcat。
  • 對於負載平衡使用者,請將多台ECS執行個體部署在叢集環境中,當某一台ECS執行個體處於自動回復過程中時,其餘ECS執行個體可以繼提供業務訪問能力。
  • 定期備份本地碟上的資料,以實現資料冗餘和提供執行個體重新部署的資料檔案。