当您需要监控各云产品资源的使用和运行情况时,可以通过创建阈值报警规则,实现监控项超过设定阈值后自动发送报警通知的功能,帮助您及时了解监控数据异常并快速进行处理。

操作步骤

  1. 登录云监控控制台
  2. 在左侧导航栏,单击报警服务 > 报警规则
  3. 阈值报警页面,单击创建报警规则
  4. 创建报警规则页面,设置报警规则相关信息。
    创建报警规则
    参数 说明
    产品 云监控可管理的产品名称。例如:云服务器ECS。
    资源范围 报警规则的作用范围。取值:
    • 全部资源:表示该规则作用在用户名下对应产品的全部实例上。例如:您设置了全部资源粒度的MongoDB CPU使用率大于80%报警,则只要用户名下有MongoDB CPU使用率大于80%,就会发送报警通知。资源范围选择全部资源时,报警的资源最多1000个,超过1000个可能会导致达到阈值不报警的问题,建议您使用应用分组按业务划分资源后再设置报警。
    • 实例:表示该规则只作用在某个具体实例上。例如:您如果设置了实例粒度的主机CPU使用率大于80%报警,则当该实例CPU使用率大于80%时,会发送报警通知。
    规则名称 报警规则的名称。
    规则描述 报警规则的主体,定义在监控数据满足指定条件时,触发报警规则。例如:规则描述为CPU使用率5分钟平均值>=90%,则报警服务会5分钟检查一次数据是否满足平均值>=90%。
    以主机监控为例,单个服务器监控指标15秒上报一个数据点,5分钟有20个数据点。报警规则如下:
    • CPU使用率5分钟平均值>90%, 含义是CPU使用率5分钟的20个数据点平均值大于90%。
    • CPU使用率5分钟总是>90%, 含义是CPU使用率5分钟的20个数据点全部大于90%。
    • CPU使用率5分钟只要有一次>90%,含义是CPU使用率5分钟的20个数据点至少有1个大于90%。
    • 公网流出流量5分钟总计>50MB ,含义是公网流出流量5分钟的20个数据点求和结果大于50MB。
    通道沉默周期 指报警发生后如果未恢复正常,间隔多久重复发送一次报警通知。
    生效时间 报警规则的生效时间,报警规则只在生效时间内才会检查监控数据是否需要报警。
    通知对象 发送报警的联系人组。
    报警级别

    邮件+钉钉机器人

    弹性伸缩 产品选择弹性伸缩时,您需要设置弹性伸缩的地域弹性伸缩组弹性伸缩规则
    日志服务 产品选择日志服务时,您需要设置日志服务的地域ProjectLogstore
    邮件备注 自定义报警邮件补充信息。填写邮件备注后,发送报警的邮件通知中会附带您的备注。
    报警回调 填写公网可访问的URL,云监控会将报警信息通过POST请求推送到该地址,目前仅支持HTTP协议。
  5. 单击确认