合理使用监控相关的功能可以帮助您及时发现和排查实例问题,在故障发生前处理掉潜在风险,避免影响业务。

及时处理系统事件

在系统将执行某些运维动作或检测到了某些异常,判断会影响实例正常运行时,会自动发送系统事件。系统事件中会同时提供应对措施、事件周期等信息,建议您及时处理系统事件,避免实例重启、停止等可能后果影响您的业务。更多信息,请参见系统事件概述

通知包年包月实例到期的系统事件示例如下图所示。 system-event
请确保在消息中心开启接收ECS到期通知、产品运维通知、ECS故障通知等消息相关的站内信,否则在ECS管理控制台将不能收到系统事件,设置页面如下图所示。 noti

关注实例运行指标

阿里云收集并展示实例运行指标,供您了解实例的实时和历史运行情况。您可以基于运行指标判断实例运行是否正常,例如CPU使用率持续偏高时,可能需要排查是否存在异常进程或者实例配置过低。

您可以在ECS控制台的实例详情页面或者云监控控制台的主机监控页面查看实例运行指标,更多信息,请参见 查看实例监控信息主机监控概览
  • ECS控制台的实例详情页面中展示的运行指标如下:
    • 实例计算、存储、网络的资源使用情况,例如CPU使用率、磁盘读写情况、网络收发包数量等。
    • 突发性能实例的CPU积分使用情况。
    instance-monitoring
  • 云监控控制台的主机监控页面中展示的运行指标如下:
    • 实例计算、存储、网络的资源使用情况,例如CPU使用率、磁盘读写情况、网络收发包数量等。
    • 实例内活跃进程的信息。
    • GPU实例的显存使用情况。
    cloudmonitor-host

利用报警服务自动通知

使用云监控的报警服务,您可以针对关注的事件或者实例运行指标设置报警规则,在发生指定事件或实例运行指标出现异常时,自动以邮件等方式通知到联系人,减轻人工运维压力。更多信息,请参见设置事件通知设置ECS实例报警

针对事件的报警规则示例如下所示。 event-alert
针对实例运行指标的报警规则示例如下所示。 host-alert