全部产品
Search
文档中心

实时计算Flink版:配置监控告警

更新时间:Dec 08, 2023

Flink全托管支持配置作业运行的监控告警,作业运行过程中,如果触发了监控规则,系统会给您发送告警消息,便于您及时发现并处理异常。本文为您介绍如何在Flink全托管控制台配置监控告警。

前提条件

已开通应用实时监控服务ARMS,详情请参见开通ARMS

使用限制

部署时提交至Session集群的Flink作业不支持创建自定义规则。

创建自定义规则

  1. 进入告警配置入口。

    1. 登录实时计算控制台

    2. Flink全托管页签,单击目标工作空间操作列下的控制台

    3. 作业运维页面,单击目标作业名称。

    4. 单击告警配置页签。

  2. 告警规则页签,选择添加告警规则 > 自定义规则

    如果您已在配置管理中配置了告警模板,您也可以直接单击告警模板名称,继续后续的步骤,加快配置监控告警的效率。告警模板创建步骤请参见创建告警规则模板

  3. 填写告警规则信息。

    类别

    参数

    描述

    具体规则

    规则名称

    以字母开头,仅包含小写英文字母、数字、下划线(_), 长度限制为3~64个字符。

    描述

    规则的备注信息。

    内容

    配置触发报警的条件内容,配置完成后会每间隔指定时间,对指定的指标值与阈值进行计算比较,计算结果满足则自动报警。

    其中:

    • 指标

      • Restart Count in 1 Minute:1分钟内Job Manager重启次数,单位为次。

      • Checkpoint Count in 5 Minutes:5分钟内Checkpoint成功次数,单位为个。

      • Emit Delay:业务延时,即数据发生时间与数据离开Source算子的时间差值,单位为秒。

        重要

        数据发生时间依赖于外部系统中记录的时间戳。如果外部系统里面没时间戳,或者数据写入外部系统时,乱写时间戳,则Emit Delay数值不准确,无法反映真实延时。

      • IN RPS:每秒输入记录数,单位为条/秒。

      • OUT RPS:每秒输出记录数,单位为条/秒。

      • Source IdIe Time:源端未处理数据的时间,单位为毫秒。

      • Job Failed:作业失败。

    • 时间差:每分钟查询最近时间差分钟内的数据,并与阈值比较。如果历史数据中满足条件,则会触发告警规则。

      例如配置时间差为10分钟,则每分钟取历史10分钟的纵轴数据,并将其与阈值进行比较,根据您选择不同的运算符来触发告警规则:

      • 如果您选择的运算符是>= ,则取纵轴中的MAX值。如果历史10分钟内最大值>=阈值,则触发告警规则。

      • 如果您选择的运算符是<= ,则取纵轴中的MIN值。如果历史10分钟内最小值<= 阈值,则触发告警规则。

    • 运算符:支持>=<=两种。

    • 阈值:与指标进行比较的值。

    生效时间

    告警监控的生效时间,可以指定只在白天(9点~18点)生效,默认全天生效。

    告警频率

    支持1分钟~24小时。

    通知方式

    通知方式

    支持以下通知方式:

    • DingTalk:钉钉

    • Email:邮件

    • SMS:短信

    • Webhook:网络服务地址。

    • Phone:电话。

    您可以在联系人中配置联系人的电话、邮箱和钉钉信息。

    重要

    请确保已创建并添加可用的通知对象,否则将导致告警通知方式失败。

    通知对象

    支持同时通知多个通知对象,您可以直接选择或搜索通知对象。在选择通知对象前,您需要先管理通知对象。

    具体操作为单击右侧的通知对象管理,然后分别在联系人组联系人Webhook钉钉机器人页签中,单击编辑后单击保存

    如何新建Webhook和添加钉钉机器人,详情请参见常见问题

    告警降噪

    单击高级配置后,您可以打开告警降噪开关。

    打开告警降噪开关后,对于作业可以快速恢复的场景(因集群调度或触发自动调优等场景触发的短期的Failover)则不会向您发送告警,只有连续达到您设置的阈值条件时,才会向您发送告警。

    无数据告警

    单击高级配置后,您可以打开无数据告警开关并填写连续无数据的时间信息。

    打开该功能后,将监测无监控埋点数据汇报场景,如果数据在选择时间段内没有汇报就会触发告警。通常JobManager异常、作业异常停止或者汇报链路异常会导致无监控埋点数据汇报。

  4. 单击确定

    保存后的告警规则默认已启用,且出现在告警规则列表中,您可以选择停止、编辑或删除。

创建告警规则模板

  1. 进入告警规则模板创建入口。

    您可以通过以下任意一个入口进入:

    • 通过配置管理页面进入。

      1. 登录实时计算控制台

      2. Flink全托管页签,单击目标工作空间操作列下的控制台

      3. 在左侧导航栏上,单击配置管理

      4. 告警规则模板页签,单击添加告警规则模板

    • 通过作业运维页面进入。

      1. 登录实时计算控制台

      2. Flink全托管页签,单击目标工作空间操作列下的控制台

      3. 作业运维页签,单击目标作业名称。

      4. 单击告警配置页签。

      5. 告警规则页签,选择添加告警规则 > 规则模板 > 添加规则模板

  2. 填写告警模板信息。

    类别

    参数

    描述

    具体规则

    规则名称

    以字母开头,仅包含小写英文字母、数字、下划线(_), 长度限制为3~64个字符。

    描述

    规则的备注信息。

    内容

    配置触发报警的条件内容,配置完成后会每间隔指定时间,对指定的指标值与阈值进行计算比较,计算结果满足则自动报警。

    其中:

    • 指标

      • Restart Count in 1 Minute:1分钟内Job Manager重启次数,单位为次。

      • Checkpoint Count in 5 Minutes:5分钟内Checkpoint成功次数,单位为个。

      • Emit Delay:业务延时,即数据发生时间与数据离开Source算子的时间差值,单位为秒。

        重要

        数据发生时间依赖于外部系统中记录的时间戳。如果外部系统里面没时间戳,或者数据写入外部系统时,乱写时间戳,则Emit Delay数值不准确,无法反映真实延时。

      • IN RPS:每秒输入记录数,单位为条/秒。

      • OUT RPS:每秒输出记录数,单位为条/秒。

      • Source IdIe Time:源端未处理数据的时间,单位为毫秒。

      • Job Failed:作业失败。

    • 时间差:每分钟查询最近时间差分钟内的数据,并与阈值比较。如果历史数据中满足条件,则会触发告警规则。

      例如配置时间差为10分钟,则每分钟取历史10分钟的纵轴数据,并将其与阈值进行比较,根据您选择不同的运算符来触发告警规则:

      • 如果您选择的运算符是>= ,则取纵轴中的MAX值。如果历史10分钟内最大值>=阈值,则触发告警规则。

      • 如果您选择的运算符是<= ,则取纵轴中的MIN值。如果历史10分钟内最小值<= 阈值,则触发告警规则。

    • 运算符:支持>=<=两种。

    • 阈值:与指标进行比较的值。

    生效时间

    告警监控的生效时间,可以指定只在白天(9点~18点)生效,默认全天生效。

    告警频率

    支持1分钟~24小时。

    通知方式

    通知方式

    支持以下通知方式:

    • DingTalk:钉钉

    • Email:邮件

    • SMS:短信

    • Webhook:网络服务地址。

    • Phone:电话。

    您可以在联系人中配置联系人的电话、邮箱和钉钉信息。

    重要

    请确保已创建并添加可用的通知对象,否则将导致告警通知方式失败。

    通知对象

    支持同时通知多个通知对象,您可以直接选择或搜索通知对象。在选择通知对象前,您需要先管理通知对象。

    具体操作为单击右侧的通知对象管理,然后分别在联系人组联系人Webhook钉钉机器人页签中,单击编辑后单击保存

    如何新建Webhook和添加钉钉机器人,详情请参见常见问题

    告警降噪

    单击高级配置后,您可以打开告警降噪开关。

    打开告警降噪开关后,对于作业可以快速恢复的场景(因集群调度或触发自动调优等场景触发的短期的Failover)则不会向您发送告警,只有连续达到您设置的阈值条件时,才会向您发送告警。

    无数据告警

    单击高级配置后,您可以打开无数据告警开关并填写连续无数据的时间信息。

    打开该功能后,将监测无监控埋点数据汇报场景,如果数据在选择时间段内没有汇报就会触发告警。通常JobManager异常、作业异常停止或者汇报链路异常会导致无监控埋点数据汇报。

  3. 单击确定

    创建的告警规则模板会出现在告警规则模板列表中,您可以进行编辑删除

常见问题

  • 如何新建Webhook?

    1. 在填写告警模板或者规则信息页面,单击通知对象管理

    2. Webhook页签,单击新建Webhook

    3. 新建Webhook页面,输入Webhook信息。

      参数

      说明

      名称

      必填,Webhook名称。

      URL

      必填,网络服务地址。

      Headers

      可选,请求头,用来存放cookie和token信息。格式为key: value

      说明

      请确保key与value的冒号后存在空格分隔符。

      Params

      可选,请求参数,格式为key: value

      说明

      请确保key与value的冒号后存在空格分隔符。

      Body

      必填,请求体,用来存放post的参数和参数数据。

      您可以在Body字符串中使用$content占位符输出报警内容。

    4. 单击确定

  • 如何添加钉钉机器人?

    1. 在填写告警模板或者规则信息页面,单击通知对象管理

    2. 钉钉机器人页签,单击添加钉钉机器人

    3. 输入钉钉机器人的名称地址

      您首先需要添加一个自定义钉钉机器人,然后获取他的Webhook地址,详情请参见添加自定义钉钉机器人并获取Webhook地址

      重要

      安全设置请至少选中自定义关键词,且关键词至少设置为报警才能收到告警信息。

    4. 单击提交