系統事件是影響執行個體運行狀態的有計劃或非預期事件。特指因探測到更新維護、違規操作、系統故障、軟硬體故障、因預付費即將到期或帳號欠費時,發生的重啟、停止或者釋放ECS執行個體等操作的事件。

概述

執行個體是您構建業務應用的核心基礎組件,當您完成了執行個體選型、購買、初始化配置並開始部署業務後,執行個體的健康狀態對於您的商務持續性和系統可靠性有關鍵作用。為提升系統可靠性、系統效能和安全防護能力,ECS會主動對執行個體所宿的物理伺服器做日常維護並修複潛在的系統故障。當探測到物理伺服器出現故障或者隱患時,ECS將執行個體線上熱遷移到健康的伺服器,以保持執行個體的健康運行狀態。這些維護是日常維護。日常維護有別於系統事件,日常維護通常是無感知完成的,不會發送維護通知,也不對執行個體造成影響。

發生系統事件時,ECS及時給您發送通知、應對措施和事件周期等資訊。對於有計劃的系統事件,會提前告知該事件對執行個體的影響和預計執行時間點等資訊。您可以在執行系統事件之前及時備份資料、做好應用程式層面的準備進而防備對業務的可靠性和連續性的潛在影響。對於已處理的系統事件,您可以查詢過去兩個月內執行個體的曆史系統事件,擷取故障診斷和複盤分析資料。

使用限制

除已停售的執行個體規格類型系列之外,例如sn2、sn1、t1、s1、s2、s3、m1、m2、c1、c2、c4、ce4、cm4、n1、n2、e3等,所有的執行個體規格類型系列均支援系統事件功能。更多詳情,請參閱執行個體規格類型系列

事件類型

系統事件類型如下表所示。

類別 事件類型 對應參數
執行個體重啟 因系統維護執行個體重啟 SystemMaintenance.Reboot
執行個體異常重啟 因系統錯誤執行個體重新啟動 SystemFailure.Reboot
因執行個體錯誤執行個體重啟 InstanceFailure.Reboot
執行個體停止 因預付費期限到期執行個體停止 InstanceExpiration.Stop
因帳號欠費隨用隨付資源停止 AccountUnbalanced.Stop
執行個體釋放 因預付費期限到期執行個體釋放 InstanceExpiration.Delete
因帳號欠費隨用隨付資源釋放 AccountUnbalanced.Delete

事件狀態

系統事件的生命週期中,有如下事件狀態。

事件狀態 狀態屬性 狀態原因
待執行 中間狀態 系統事件已發生,但尚未執行
已避免 穩定點 您在使用者操作視窗期內提前操作,避免了系統事件在計劃時間點執行
執行中 中間狀態 正在執行系統事件
已執行 穩定點 系統事件已完成
已取消 穩定點 ECS主動取消了已計劃的系統事件
失敗 穩定點 系統事件執行失敗

事件視窗

系統事件有如下視窗期:

  • 使用者操作視窗期:系統事件計劃發起到執行之間的時間段。通常系統維護相關事件使用者操作視窗期為24~48小時,預付費執行個體即將到期而停止的操作視窗期為3天,帳號欠費而停止的操作視窗期通常小於1小時。因計費問題引發系統事件執行個體會被立刻停止、執行個體會在15天后被釋放。

    您可以根據該事件對業務的影響情況,選擇推薦的應對方式提前修複系統事件,或者等待執行預設應對動作。對於ECS主動修複系統故障觸發的系統事件,ECS根據系統維護操作計劃安排提前一段時間向您發送事件通知。

  • 事件執行視窗期:若您沒有提前應對系統事件,修複故障類系統事件通常會在進入事件執行視窗期的6小時內自動完成。隨後您會收到系統事件的執行結果。

    说明 對於突發故障或者違規操作等非技術因素導致的非預期系統事件,通常不會存在使用者操作視窗期,只有短暫的事件執行視窗期。您可以查詢曆史系統事件用於故障診斷、原因分析或資料複原。

查看系統事件

控制台操作步驟

如果存在有計劃的系統事件,ECS控制台待處理事件按鈕上會出現顯著標示提醒您查看。

  1. 登入ECS管理主控台
  2. 在左側導覽列裡,單擊概覽
  3. 概覽頁的常用操作地區,單擊待處理事件
  4. 單擊系統計劃事件頁面,您可以看到執行個體ID、地區、執行個體運行狀態、事件類型和推薦操作等相關資訊。您可以在操作列執行需要的操作。

API操作步驟

本文API樣本的調用工具為阿里雲CLI。更多有關如何調用API的詳情,請參閱ECS API快速入門

  1. 擷取執行個體ID。
    aliyun ecs DescribeInstances --RegionId <TheRegionId> --output cols=InstanceId,InstanceName
  2. 使用DescribeInstancesFullStatus查詢執行個體的系統事件。
    aliyun ecs DescribeInstancesFullStatus --RegionId <TheRegionId> --InstanceId.1 <YourInstanceId> --output cols=EventId,EventTypeName

執行個體Metadata操作步驟

更多詳情,請參見執行個體中繼資料動態執行個體中繼資料項。

修改預約重啟時間

您可以在ECS控制台上修改系統事件的執行時間,或者在視窗期之前手動完成執行個體重啟。該操作僅適用於有重啟計劃的系統事件,如因系統維護執行個體重啟的系統事件。

  1. 登入ECS管理主控台
  2. 在左側導覽列裡,單擊概覽
  3. 概覽頁的常用操作地區,單擊待處理事件
  4. 系統事件頁簽下,選擇地區。
  5. 找到已經設定了重啟計劃的執行個體,在操作列,單擊預約重啟
  6. 預約重啟時間頁面,選擇預約日期預約時間
    说明 預約重啟時間不能超過最晚可預約時間。其中,最晚可預約時間事件計劃執行時間早30分鐘。


  7. 單擊確定

查看曆史系統事件

您可以查看過去兩個月內發生的全部系統事件記錄,為故障診斷和複盤分析提供資料支撐。

控制台操作步驟

  1. 登入ECS管理主控台
  2. 在左側導覽列裡,單擊概覽
  3. 概覽頁的常用操作地區,單擊待處理事件
  4. 在左側導覽列中,單擊全部事件。在全部事件頁面,單擊系統計劃事件 > 執行個體,查看執行個體ID、事件類型和事件狀態等相關資訊。

API操作步驟

  1. 擷取執行個體ID。
    aliyun ecs DescribeInstances --RegionId <TheRegionId> --output cols=InstanceId,InstanceName
  2. 使用DescribeInstanceHistoryEvents查詢執行個體的曆史系統事件。
    aliyun ecs DescribeInstanceHistoryEvents --RegionId <TheRegionId> --InstanceId.1 <YourInstanceId> --output cols=EventId,EventTypeName

訂閱事件通知

所有系統事件均可以通過CloudMonitor配置警示規則,當事件發生時會及時通知您。更多詳情,請參閱CloudMonitor文檔雲產品系統事件監控

應對建議

您可以通過控制台操作或者API調用應對系統事件。從系統事件出發管理ECS,可以提高您對ECS的底層感知能力,最佳化ECS執行個體營運。

事件類型 對執行個體影響 建議措施
因系統維護執行個體重啟 執行個體將在計劃維護時間重新啟動 在使用者操作視窗期某個合適的時間點選擇以下任一種方法: 並視情況為執行個體掛載的磁碟建立快照CreateSnapshot)備份資料。
因系統錯誤執行個體重啟 發生非預期的宿主機故障時,執行個體重啟後會重新響應 當您收到事件通知時,執行個體正在或已完成重新啟動,建議您:
  • 驗證執行個體和應用是否恢複正常。

  • 訂閱事件通知到您的Message ServiceMNS隊列或主題,聯動切換流量或實現負載平衡,實現容錯移轉。

因執行個體錯誤執行個體重啟 因作業系統崩潰執行個體重新啟動 當您收到事件通知時,執行個體正在或已完成重新啟動,建議您:
  • 查看執行個體系統日誌和螢幕截圖排查故障,檢查作業系統發生崩潰的原因,避免再次引發系統崩潰問題。

  • 驗證執行個體和應用是否恢複正常。

因預付費執行個體到期停止 預付費資源即將被停止 建議您根據需要續約資源,或等待執行個體到期。
因帳號欠費後隨用隨付資源停止 隨用隨付資源即將被停止

建議您保持支付方式的額度充足,避免停止執行個體。

因預付費執行個體到期釋放 預付費資源即將被釋放 建議您根據需要續約資源,或等待執行個體釋放。
因賬戶欠費後隨用隨付資源釋放 隨用隨付資源即將被釋放

建議您保持支付方式的額度充足,避免釋放執行個體。