日志服务SLS告警作为一站式运维告警平台,为OSS的访问提供了定制化的告警规则。您只需要在日志服务控制台进行简单配置,即可完成对OSS访问指标的监控,并在指标出现异常时及时收到告警通知。

场景描述

客户A是一家多媒体公司,主要产品有短视频App。用户可以在上面发布和观看短视频。客户A使用了OSS中名为examplebucket的存储空间来存储用户产生的短视频,App每天的用户活动具有一定的周期性,一般情况下深夜的PV较低,其他时段PV较高。

每天9点~10点之间的PV访问基本持平。例如每月5号9点~10点的PV是50万,6号9点~10点的PV是51万可以理解为正常波动。如果6号9~10点的PV出现陡增至100万或者陡降至20万的情况,您可以通过创建日志服务告警规则,指定在某个时间段内PV陡增或者陡降20%时发出告警,并通过钉钉机器人推送告警信息。

前提条件

已为目标存储空间examplebucket开启实时日志查询并记录生成的Project名称。

说明 开启实时日志查询后,日志服务将自动生成名为oss-log-store的Logstore,该Logstore保存在格式为oss-log-阿里云账号ID-region的Project下。请记录生成的Project名称,用于配置后续的通知渠道及告警阈值。开启实时日志查询的具体步骤,请参见实时日志查询

操作步骤

  1. 通过SLS OSS内置行动策略设置告警触发后的通知渠道。
    1. 登录日志服务控制台
    2. 在Project列表区域,单击目标Project。
    3. 在左侧导航栏中,单击告警图标。
    4. 告警中心页面,选择告警管理 > 行动策略
    5. 行动策略页面,单击策略名SLS OSS内置行动策略右侧的修改
    6. 第一行动列表页签,将请求地址修改为钉钉群的机器人WebHook地址。其他选项,保持默认配置。
      有关如何获取WebHook地址的具体操作,请参见钉钉-自定义。同时,日志服务支持多种通知渠道,例如通过短信、语音、邮件等形式推送给指定用户或用户组。详情请参见通知渠道说明
    7. 单击确认
  2. 设置触发告警阈值。
    1. 在Project列表区域,单击目标Project。
    2. 在左侧导航栏中,单击告警图标。
    3. 告警中心页面下的规则/事物页签,单击监控规则OSS访问PV同比昨日变化率过高告警右侧的添加
    4. 参数设置页面,设置以下参数,其他参数保留默认值。
      配置项 说明
      增长率阈值 20
      下降率阈值 20
      阿里云账号ID 填写通配符星号(*),表示监控审计服务下配置的所有阿里云账号。
      Bucket名称 填写目标存储空间examplebucket
    5. 单击设置并开启
  3. 接收告警通知。
    当满足以上触发条件时,将收到如下格式的告警通知。SLS

常见问题

问题描述:告警渠道选择钉钉机器人,但是钉钉通知发送失败,且出现如下错误。

{"errcode":310000,"errmsg":"sign not match"}
{"errcode":310000,"errmsg":"keywords not in content"}

问题原因:机器人的安全设置有误,导致通知被钉钉拦截。

解决方法:将安全设置配置为自定义关键字,其中一个关键字设置为“告警”,因为通知内容中至少包含其中1个关键字才可以发送成功。配置详情,请参见钉钉-自定义