自定义监控规则帮助您根据实际业务需求,定制监控内容,监控实例任务的运行状态,以便及时发现并处理异常。本文为您介绍如何在规则管理页面自定义报警规则,以及添加钉钉群机器人获取Webhook地址。

使用限制

  • 自定义监控规则仅对周期实例生效。
  • 电话告警功能可用版本:仅DataWorks专业版及以上版本,才可以使用电话告警功能。
  • WebHook报警功能的使用限制如下:
    • 可用版本:仅DataWorks企业版及旗舰版支持使用WebHook功能。
    • 可用地域:仅欧洲中部 1(法兰克福)、亚太东南1(新加坡)地域支持自定义规则和基线使用WebHook功能报警。
    • 可用格式:DataWorks仅支持使用WebHook功能推送报警信息至企业微信或飞书。

创建自定义规则

  1. 进入数据开发页面。
    1. 登录DataWorks控制台
    2. 在左侧导航栏,单击工作空间列表
    3. 选择工作空间所在地域后,单击相应工作空间后的进入数据开发
  2. 单击左上角的图标图标,选择全部产品 > 任务运维 > 运维中心(工作流),进入运维中心页面。
  3. 在左侧导航栏,单击智能监控 > 规则管理
  4. 规则管理页面,单击右上角的新建自定义规则
  5. 新建自定义规则对话框中,配置各项参数。
    新建自定义规则
    分类 参数 描述
    基本信息 规则名称 输入新建自定义规则的名称。
    对象类型 控制监控的粒度,包括任务节点基线工作空间业务流程独享调度资源组独享数据集成资源组
    规则对象 如果对象类型选择任务节点、基线、工作空间和业务流程,则需要填写规则对象。输入监控对象的名称或者ID后,在列表中选择需要添加的对象,单击添加图标图标。
    资源组名称 如果对象类型选择独享调度资源组和独享数据集成资源组,则需要选择资源组名称
    触发方式 触发条件 如果对象类型选择任务节点、基线、工作空间和业务流程,此时触发条件取值如下:
    • 完成

      表示从实例任务运行的起始时间点开始监控,在任务运行成功时系统发送报警。

    • 未完成

      表示从实例任务运行的起始时间点开始监控,到指定的目标时间点任务仍未结束运行,则系统发送报警。例如,实例任务的定时调度时间为1点,设置的未完成时间为2点,则1点时该任务开始运行,在2点时任务仍未结束运行,则发送报警。

    • 出错

      表示从实例任务运行的起始时间点开始监控,如果任务运行出错,则系统发送报警。

      实例任务运行出错即在运维中心 > 周期任务运维 > 周期实例的基本信息列,目标实例显示3状态。

    • 周期未完成

      表示在指定的周期内,实例任务仍未结束运行,则系统发送报警。通常用于监控以小时为周期单位的实例任务。

      例如,任务A每2小时调度一次,运行一次耗时25min。运行起始时间为每日0点0分,则该任务一天(24小时)共有12个任务周期,0点为第一个周期,2点为第二个周期,依次类推,22点为第12个周期。该任务正常运行时,会在每日0点25分、2点25分等时间节点执行完毕。如果在任意周期结束时间点该任务仍未结束运行,则发送报警。
      说明 周期未完成可用于监控业务流程等任务。

      当业务流程设置了周期未完成监控后,系统会根据您设置的周期N,对业务流程中的节点任务(例如,天任务、小时任务、分钟任务等),进行第N个周期任务的监控。如果任务实例数少于N时,则会忽略该任务的告警。

      例如,设置的周期为3,业务流程中有如下两个节点任务,则告警监控情况如下:
      • 小时任务A:每2小时调度一次,运行一次耗时25min。运行起始时间为每日0点0分,则该任务一天(24小时)共有12个任务周期,0点为第一个周期,则第3个周期为4点。该任务正常运行时,第3个周期任务会在4点25分执行完毕。如果在该周期结束时间点该任务仍未结束运行,则发送报警。
      • 分钟任务B:每10分钟调度一次,运行一次耗时2min。运行起始时间为每日0点0分,则该任务一小时共有6个任务周期,0点0分为第一个周期,则第3个周期为0点20分。该任务正常运行时,第3个周期任务会在0点22分执行完毕。如果在该周期结束时间点该任务仍未结束运行,则发送报警。
    • 超时

      表示从实例任务运行的起始时间点开始监控,到指定的运行时长后,该任务仍未结束运行,则系统发送报警。通常用于监控实例任务的运行时间。

    • 自动重跑后仍出错

      表示从实例任务运行的起始时间点开始监控,如果任务运行出错且自动重跑后仍出错,则系统发送报警,

    触发条件 如果对象类型选择独享调度资源组和独享数据集成资源组,触发条件取值为:
    • 利用率大于某个数值并持续多长时间。

      例如:利用率大于50%并持续15分钟。

    • 等资源实例数大于某个数值并持续多长时间。

      例如:等资源实例数大于10并持续15分钟。

    报警行为 报警方式 包括邮件短信电话钉钉群机器人WebHook。 您可以添加钉钉群机器人接收报警,请参见下文的操作,将报警消息发送到钉钉群。如果您需要多个钉钉群接收报警信息,请添加多个Webhook地址。
    注意
    • 您需要购买DataWorks专业版及以上版本,才可以使用电话告警功能。
    • 如果您选择报警方式电话,则需要选中为了避免短时间内产生大量报警电话,DataWorks会对报警电话进行过滤,同一个用户在20分钟内最多接受到一通报警电话,其余报警电话将被降级为短信,请知悉。
    • 仅支持钉钉Webhook地址。
    接收人 报警的对象,包括任务责任人值班表其他
    疲劳度控制 最大报警次数 报警的最大次数,超过设置的次数后,不再产生报警。
    最小报警间隔 两次报警之间的最小时间间隔。
    免打扰时间 在设置的时间段内不会发送报警。
  6. 单击确定,即可生成规则。
    您可以单击规则管理页面相应规则的操作列下的详情,查看规则的具体内容。

发送报警消息至钉钉群

  1. 打开需要告警的目标钉钉群,单击右上角的群设置图标。
  2. 单击智能群助手
  3. 智能群助手页面,单击添加机器人
  4. 群机器人页面,单击新增图标。
  5. 选择要添加的机器人页面,单击自定义
  6. 自定义对话框中,单击添加
  7. 添加机器人对话框中,配置各项参数。
    参数 描述
    机器人名字 自定义机器人的名称。
    添加到群组 添加机器人的群组,不可以修改。
    自定义关键词 设定后,只有包含关键词的消息内容才会被正常发送。此处建议设置关键词为DataWorks
    说明 最多可以设置10个关键词,消息中至少包含其中1个关键词才可以发送成功。
  8. 选中我已阅读并同意《自定义机器人服务及免责条款》,单击完成
  9. 完成安全设置后,复制机器人的Webhook,单击完成
    注意
    • 请保存复制的Webhook地址,用于配置自定义规则中的钉钉群机器人
    • 请妥善保管Webhook地址,一旦泄露会有安全风险。