通过服务监控报警功能,您可以监控服务运行情况。如果服务运行情况超过了配置的报警规则(条件),则发送报警通知。

背景信息

PAI-EAS支持对服务的以下项目进行监控报警。
监控项目 描述
CPU消耗 服务当前消耗的CPU核数。
GPU利用率 服务当前GPU使用量占部署GPU总量的比重。
内存消耗 服务当前内存消耗,单位MB。
每秒总调用次数 服务每秒总调用次数。
状态码2xx每秒响应 状态码为2xx码的每秒响应。
状态码2xx响应占比 状态码为2xx码的响应占比。
状态码4xx每秒响应 状态码为4xx码的每秒响应。
状态码4xx响应占比 状态码为4xx码的响应占比。
状态码5xx每秒响应 状态码为5xx码的每秒响应。
状态码5xx响应占比 状态码为5xx码的响应占比。
入流量 每秒进入服务的数据量,单位KB。
出流量 每秒流出服务的数据量,单位KB。

步骤一:配置报警联系人

  1. 创建报警联系人。
    1. 登录云监控控制台
    2. 在左侧导航栏,单击报警服务 > 报警联系人
    3. 报警联系人页面,单击新建联系人
    4. 设置报警联系人面板,输入报警联系人姓名、邮箱和钉钉机器人。
    5. 选择报警通知信息语言,并滑动下方的滑块。
      系统支持如下三种方式:
      • 自动:自动根据当前账号注册时的语言环境选择语言,即中国站为中文,国际站和日本站为英文。
      • 中文
      • English
    6. 单击确认
  2. 创建报警联系组。
    1. 报警联系人页面,单击报警联系组页签。
    2. 报警联系组页面,单击新建联系组
    3. 新建联系组面板,输入组名,并选择已有联系人,其他参数使用默认配置。
    4. 单击确认

步骤二:配置报警规则

  1. 在云监控控制台的左侧导航栏,单击报警服务 > 报警规则
  2. 报警规则列表页面,单击创建报警规则
  3. 创建报警规则页面,配置关联资源、报警规则及通知方式。
    参数 描述
    产品 云监控管理的产品名称,选择为PAI-EAS在线预测服务
    资源范围 报警规则的作用范围,分为服务和全部资源:
    • 全部资源:PAI-EAS的任何服务满足报警规则,都会发送报警通知。
    • 服务:仅选中的单个或多个服务满足警报规则时,才发送警报通知。
    规则名称 报警规则的名称。
    规则描述 报警规则的主体,定义在监控数据满足指定条件时,触发报警规则。
    说明 规则描述中的监控项(CPU消耗、GPU利用率及内存消耗等)单位需要与PAI-EAS服务监控页面的图表纵坐标单位一致。
    通道沉默周期 指报警发生后如果未恢复正常,间隔多久重复发送一次报警通知。
    生效时间 报警规则的生效时间,报警规则只在生效时间内才会检查监控数据是否需要报警。
    通知对象 发送报警的联系人组,选择为已绑定报警联系人的报警组。
    报警级别

    邮件+钉钉机器人

    弹性伸缩 如果您选中弹性伸缩复选框,当报警发生时,会触发相应的伸缩规则。您需要配置弹性伸缩的地域弹性伸缩组弹性伸缩规则
    日志服务 如果您选中日志服务复选框,当报警发生时,会将报警信息写入日志服务。您需要配置日志服务的地域ProjectLogstore

    创建Project和Logstore的操作方法,请参见日志服务快速入门

    邮件备注 自定义报警邮件补充信息。配置邮件备注后,发送报警的邮件通知中会附带您的备注信息。
    报警回调 可以访问的公网URL,云监控会将报警信息通过POST请求推送至该地址,仅支持HTTP协议。
  4. 单击确认