合理使用監控相關的功能可以協助您及時發現和排查執行個體問題,在故障發生前處理掉潛在風險,避免影響業務。
及時處理系統事件
系統在執行某些營運動作或檢測到某些異常,判斷會影響執行個體正常運行時,會自動發送系統事件。系統事件中會同時提供應對措施、事件周期等資訊,建議您及時處理系統事件,避免執行個體重啟、停止等問題影響您的業務。更多資訊,請參見ECS系統事件概述。
通知訂用帳戶執行個體到期的系統事件樣本如下圖所示。
請確保在訊息中心開啟接收ECS到期通知、產品營運通知、ECS故障通知等訊息相關的站內信,否則在ECS管理主控台將不能收到系統事件,設定頁面如下圖所示。
關注執行個體運行指標
阿里雲收集並展示執行個體運行指標,供您瞭解執行個體的即時和歷史運行情況。您可以基於運行指標判斷執行個體運行是否正常,例如CPU使用率持續偏高時,可能需要排查是否存在異常進程或者執行個體配置過低。
您可以在ECS管理主控台的執行個體詳情頁的監控頁簽下或者CloudMonitor控制台的主機監控頁面查看執行個體運行指標,更多資訊,請參見查看執行個體監控資訊和主機監控概覽。
ECS管理主控台的執行個體詳情頁面中展示的運行指標如下:
執行個體計算、儲存、網路的資源使用方式,例如CPU使用率、磁碟讀寫情況、網路收發包數量等。
突發效能執行個體的CPU積分使用方式。

CloudMonitor控制台的主機監控頁的作業系統監控頁簽下展示的運行指標如下:
執行個體計算、儲存、網路的資源使用方式,例如CPU使用率、磁碟讀寫情況、網路收發包數量等。
執行個體內活躍進程的資訊。
GPU執行個體的顯存使用方式。

利用警示服務自動通知
使用CloudMonitor的警示服務,您可以針對關注的事件或者執行個體運行指標設定警示規則,在發生指定事件或執行個體運行指標出現異常時,自動以郵件等方式通知到連絡人,減輕人工營運壓力。更多資訊,請參見訂閱ECS系統事件通知和設定ECS執行個體警示規則。
針對事件的警示規則樣本如下所示。

針對執行個體運行指標的警示規則樣本如下所示。
