系統事件是影響執行個體運行狀態的有計劃或非預期事件。特指因探測到更新維護、違規操作、系統故障、軟硬體故障、因預付費即將到期或帳號欠費時,發生的重啟、停止或者釋放ECS執行個體等操作的事件。
概述
執行個體是您構建業務應用的核心基礎組件,當您完成了執行個體選型、購買、初始化配置並開始部署業務後,執行個體的健康狀態對於您的商務持續性和系統可靠性有關鍵作用。為提升系統可靠性、系統效能和安全防護能力,ECS會主動對執行個體所宿的物理伺服器做日常維護並修複潛在的系統故障。當探測到物理伺服器出現故障或者隱患時,ECS將執行個體線上熱遷移到健康的伺服器,以保持執行個體的健康運行狀態。這些維護是日常維護。日常維護有別於系統事件,日常維護通常是無感知完成的,不會發送維護通知,也不對執行個體造成影響。
發生系統事件時,ECS及時給您發送通知、應對措施和事件周期等資訊。對於有計劃的系統事件,會提前告知該事件對執行個體的影響和預計執行時間點等資訊。您可以在執行系統事件之前及時備份資料、做好應用程式層面的準備進而防備對業務的可靠性和連續性的潛在影響。對於已處理的系統事件,您可以查詢過去兩個月內執行個體的曆史系統事件,擷取故障診斷和複盤分析資料。
使用限制
除已停售的執行個體規格類型系列之外,例如sn2、sn1、t1、s1、s2、s3、m1、m2、c1、c2、c4、ce4、cm4、n1、n2、e3等,所有的執行個體規格類型系列均支援系統事件功能。更多詳情,請參閱執行個體規格類型系列。
事件類型
系統事件類型如下表所示。
類別 | 事件類型 | 對應參數 |
---|---|---|
執行個體重啟 | 因系統維護執行個體重啟 | SystemMaintenance.Reboot |
執行個體異常重啟 | 因系統錯誤執行個體重新啟動 | SystemFailure.Reboot |
因執行個體錯誤執行個體重啟 | InstanceFailure.Reboot |
|
執行個體停止 | 因預付費期限到期執行個體停止 | InstanceExpiration.Stop |
因帳號欠費隨用隨付資源停止 | AccountUnbalanced.Stop |
|
執行個體釋放 | 因預付費期限到期執行個體釋放 | InstanceExpiration.Delete |
因帳號欠費隨用隨付資源釋放 | AccountUnbalanced.Delete |
事件狀態
系統事件的生命週期中,有如下事件狀態。
事件狀態 | 狀態屬性 | 狀態原因 |
---|---|---|
待執行 | 中間狀態 | 系統事件已發生,但尚未執行 |
已避免 | 穩定點 | 您在使用者操作視窗期內提前操作,避免了系統事件在計劃時間點執行 |
執行中 | 中間狀態 | 正在執行系統事件 |
已執行 | 穩定點 | 系統事件已完成 |
已取消 | 穩定點 | ECS主動取消了已計劃的系統事件 |
失敗 | 穩定點 | 系統事件執行失敗 |
事件視窗
系統事件有如下視窗期:
- 使用者操作視窗期:系統事件計劃發起到執行之間的時間段。通常系統維護相關事件使用者操作視窗期為24~48小時,預付費執行個體即將到期而停止的操作視窗期為3天,帳號欠費而停止的操作視窗期通常小於1小時。因計費問題引發系統事件執行個體會被立刻停止、執行個體會在15天后被釋放。
您可以根據該事件對業務的影響情況,選擇推薦的應對方式提前修複系統事件,或者等待執行預設應對動作。對於ECS主動修複系統故障觸發的系統事件,ECS根據系統維護操作計劃安排提前一段時間向您發送事件通知。
- 事件執行視窗期:若您沒有提前應對系統事件,修複故障類系統事件通常會在進入事件執行視窗期的6小時內自動完成。隨後您會收到系統事件的執行結果。
说明 對於突發故障或者違規操作等非技術因素導致的非預期系統事件,通常不會存在使用者操作視窗期,只有短暫的事件執行視窗期。您可以查詢曆史系統事件用於故障診斷、原因分析或資料複原。
查看系統事件
控制台操作步驟
如果存在有計劃的系統事件,ECS控制台待處理事件按鈕上會出現顯著標示提醒您查看。
- 登入ECS管理主控台。
- 在左側導覽列裡,單擊概覽。
- 在概覽頁的常用操作地區,單擊待處理事件。
-
單擊系統計劃事件頁面,您可以看到執行個體ID、地區、執行個體運行狀態、事件類型和推薦操作等相關資訊。您可以在操作列執行需要的操作。
API操作步驟
本文API樣本的調用工具為阿里雲CLI。更多有關如何調用API的詳情,請參閱ECS API快速入門。
- 擷取執行個體ID。
aliyun ecs DescribeInstances --RegionId <TheRegionId> --output cols=InstanceId,InstanceName
- 使用DescribeInstancesFullStatus查詢執行個體的系統事件。
aliyun ecs DescribeInstancesFullStatus --RegionId <TheRegionId> --InstanceId.1 <YourInstanceId> --output cols=EventId,EventTypeName
執行個體Metadata操作步驟
更多詳情,請參見執行個體中繼資料動態執行個體中繼資料項。
修改預約重啟時間
您可以在ECS控制台上修改系統事件的執行時間,或者在視窗期之前手動完成執行個體重啟。該操作僅適用於有重啟計劃的系統事件,如因系統維護執行個體重啟的系統事件。
- 登入ECS管理主控台。
- 在左側導覽列裡,單擊概覽。
- 在概覽頁的常用操作地區,單擊待處理事件。
- 在系統事件頁簽下,選擇地區。
- 找到已經設定了重啟計劃的執行個體,在操作列,單擊預約重啟。
- 在預約重啟時間頁面,選擇預約日期和預約時間。
说明 預約重啟時間不能超過最晚可預約時間。其中,最晚可預約時間比事件計劃執行時間早30分鐘。
- 單擊確定。
查看曆史系統事件
您可以查看過去兩個月內發生的全部系統事件記錄,為故障診斷和複盤分析提供資料支撐。
控制台操作步驟
- 登入ECS管理主控台。
- 在左側導覽列裡,單擊概覽。
- 在概覽頁的常用操作地區,單擊待處理事件。
- 在左側導覽列中,單擊全部事件。在全部事件頁面,單擊 ,查看執行個體ID、事件類型和事件狀態等相關資訊。
API操作步驟
- 擷取執行個體ID。
aliyun ecs DescribeInstances --RegionId <TheRegionId> --output cols=InstanceId,InstanceName
- 使用DescribeInstanceHistoryEvents查詢執行個體的曆史系統事件。
aliyun ecs DescribeInstanceHistoryEvents --RegionId <TheRegionId> --InstanceId.1 <YourInstanceId> --output cols=EventId,EventTypeName
訂閱事件通知
所有系統事件均可以通過CloudMonitor配置警示規則,當事件發生時會及時通知您。更多詳情,請參閱CloudMonitor文檔雲產品系統事件監控。
應對建議
您可以通過控制台操作或者API調用應對系統事件。從系統事件出發管理ECS,可以提高您對ECS的底層感知能力,最佳化ECS執行個體營運。
事件類型 | 對執行個體影響 | 建議措施 |
---|---|---|
因系統維護執行個體重啟 | 執行個體將在計劃維護時間重新啟動 | 在使用者操作視窗期某個合適的時間點選擇以下任一種方法:
|
因系統錯誤執行個體重啟 | 發生非預期的宿主機故障時,執行個體重啟後會重新響應 | 當您收到事件通知時,執行個體正在或已完成重新啟動,建議您:
|
因執行個體錯誤執行個體重啟 | 因作業系統崩潰執行個體重新啟動 | 當您收到事件通知時,執行個體正在或已完成重新啟動,建議您:
|
因預付費執行個體到期停止 | 預付費資源即將被停止 | 建議您根據需要續約資源,或等待執行個體到期。 |
因帳號欠費後隨用隨付資源停止 | 隨用隨付資源即將被停止 |
建議您保持支付方式的額度充足,避免停止執行個體。 |
因預付費執行個體到期釋放 | 預付費資源即將被釋放 | 建議您根據需要續約資源,或等待執行個體釋放。 |
因賬戶欠費後隨用隨付資源釋放 | 隨用隨付資源即將被釋放 |
建議您保持支付方式的額度充足,避免釋放執行個體。 |