如果您需要保障重要任务能按时完成,您可以使用基线管理功能将重要任务添加至基线上并设置承诺时间,系统将根据任务运行情况计算基线任务的预计完成时间。当系统判断基线任务可能无法在承诺时间前完成时,将发出告警。本文为您介绍如何创建和管理基线。

背景信息

智能基线能够及时捕捉导致任务无法按时完成的异常情况并提前预警,保障复杂依赖场景下重要数据能在预期时间内顺利产出。详情请参见:智能基线概述

使用限制

  • 版本要求:

    仅DataWorks标准版及更高版本可以使用基线管理功能。低版本用户请先升级再使用该功能,详情请参见:DataWorks各版本详解

  • 权限管控:
    • 新建基线:仅空间管理员、阿里云主账号和租户管理员可以创建基线。角色添加详情请参见:添加工作空间成员和角色
    • 删除、修改、开启或关闭基线:仅租户管理员和基线责任人可以删除、修改、开启或关闭基线。
  • 报警方式:事件报警和基线报警支持邮件短信钉钉群机器人WebHook报警方式,使用限制如下:
    • 短信:报警地域仅支持新加坡、马来西亚(吉隆坡)、德国(法兰克福)。其他地域如果希望通过短信方式报警,可提交工单联系阿里云DataWorks技术人员咨询办理。
    • WebHook
      • 可用版本:仅DataWorks企业版及旗舰版支持使用WebHook功能。
      • 可用地域:仅华东2(上海)、西南1(成都)、华北3(张家口)、华北2(北京)、华东1(杭州)、华南1(深圳)、中国(香港)、欧洲中部 1(法兰克福)、亚太东南1(新加坡)地域支持使用WebHook功能报警。
      • 可用报警方式:仅支持推送报警信息至企业微信或飞书。
    说明
    • DataWorks仅支持使用钉钉群、企业微信和飞书的WebHook地址,如果您需要使用其他的WebHook,请工单联系我们。
    • RAM用户如果希望通过短信、电话等方式接收告警信息,则需要在报警联系人页面,将目标RAM用户添加为报警联系人。当任务运行报错时,DataWorks会将相应的报警信息发送至对应联系人。详情请参见:查看和设置报警联系人

创建基线

  1. 进入运维中心。详情请参见:进入运维大屏
  2. 单击左侧导航栏中的智能监控 > 智能基线
  3. 基线管理页签中,单击+新建基线,并配置基线的基本信息和报警行为,即可创建基线。新建基线
  4. 配置基线的基本属性。新建基线
    参数 说明
    基线名称 输入基线的名称。
    所属工作空间 选择当前需要保障的任务所属的工作空间。
    责任人 基线负责人。
    基线类型 定义基线监测周期,包括天监测和小时监测。
    • 天基线:按照天维度对任务进行监测,天调度任务可选择此监测方式。
    • 小时基线:按照小时维度对任务进行监测,小时调度任务可选择此监测方式。
    保障任务 选择需要添加到当前基线上进行数据产出保障的任务。
    • 任务节点:输入任务节点名称或ID后,单击右侧的添加按钮进行添加,可以添加多个任务节点至当前基线。
    • 业务流程:输入业务流程名称或ID后,单击右侧的添加按钮进行添加, 默认将当前业务流程下的所有任务添加至当前基线。
      说明 选择业务流程后,建议仅添加业务流程最下游的节点任务,添加后,影响该节点数据产出的上游节点都将被纳入基线监控范围,不推荐将业务流程上所有的任务都添加到基线上。
    优先级 定义基线的优先级,数值越大基线优先级越高,基线上任务的优先级也会越高。优先级高的任务,在调度资源紧张的情况下,将优先获得调度资源。
    说明 该优先级将映射为MaxCompute计算任务的优先级。
    预计完成时间 系统将根据基线任务的历史运行数据计算基线的预计完成时间。如果历史数据不足,则系统会提示历史数据不足,暂无法预估
    承诺时间 基线上的任务承诺最晚完成时间(需要保障的数据最晚产出时间),基线将根据该时间来推算预警时间,承诺时间需要基于预计完成时间来配置。保证承诺时间 - 预警余量时间晚于基线任务的预计完成时间。
    说明
    • 基线预警时间=承诺时间-预警余量,如果实际完成时间晚于承诺时间 - 预警余量时间,则会触发报警。例如,设置承诺时间为3:30,预警余量为10分钟,如果系统预测任务无法在3:20分完成,则会发出基线报警。
    • 小时基线需要指定保障数据产出的小时实例,并设置该实例(小时任务某周期)最晚完成时间。
    预警余量 用于定义基线的预警时间。建议预警余量基于基线上任务的运行时长来配置。
  5. 配置基线的报警行为。

    您可以通过报警开关控制基线是否开启报警,并定义基线上数据无法按时产出时的基线报警策略,及影响基线数据产出的任务及其上游任务出错或变慢时的事件报警策略。

    报警行为
    参数 说明
    报警开关 单击报警开关按钮开启或关闭事件报警基线报警
    • 开启报警开关
      • 当预测到基线上任务无法在承诺时间内完成时,系统将根据定义的报警方式发送基线报警信息。详情请参见:核心逻辑介绍:基线报警
      • 当基线任务及其上游任务出错,或关键路径上的任务变慢时,系统将根据定义的报警方式发送事件报警信息。您可以在DataWorks的事件管理页面查看当前已存在的事件列表。详情请参见:事件管理
      说明 报警开关打开后,您可以选择进行基线报警还是事件报警,建议对重要任务同时配置基线报警和事件报警。
    • 关闭报警开关:基线不会产生任何报警。如果基线任务为开启状态,则基线实例会正常生成、基线优先级仍然生效。
    基线报警
    • 报警方式:支持邮件短信的方式报警给基线责任人、值班表中的当日值班人员或者指定人员。同时支持钉钉群机器人报警或通过添加WebHook地址的方式报警给其他应用(目前支持钉钉、企业微信和飞书)。
      • 报警方式为钉钉群机器人、webhook时,您可单击操作列的发送测试消息,测试该报警是否可以正常发送。配置钉钉机器人详情请参见:发送报警消息至钉钉群
      • 报警方式为短信、邮件时,您可以单击校验联系方式,校验手机号、邮箱是否填写正确。
      说明
      • 您需要购买DataWorks专业版及以上版本,才可以使用电话报警功能。
      • 如果您选择通过电话方式进行报警,为了避免短时间内产生大量报警电话,DataWorks会对报警电话进行过滤,同一个用户在20分钟内最多只会接收到一通报警电话,其余报警电话将被降级为短信,请知悉。
    • 报警疲劳度控制
      • 最大报警次数:报警的最大次数,超过设置的次数后,不再产生报警。
      • 最小报警间隔:两次报警之间的最小时间间隔。
      • 免打扰时间:设置了免打扰时间后,则在该时间段内系统将不会发送告警。

        例如,当目标任务设置的免打扰时间为00:0008:00时,则该时间段内基线与事件的报警将不会触发。如果到达8点,事件仍处于异常状态,则会发出报警信息。

    事件报警
    • 报警类型:包括出错变慢报警。
      • 出错:基线监控范围内的任务运行失败。
      • 变慢:基线监控范围内的任务本次运行时间和过去一段时间内的平均运行时间相比,明显变长。
    • 报警方式:支持邮件短信的方式报警给基线责任人、值班表中的当日值班人员或者指定人员。同时支持钉钉群机器人报警或通过添加WebHook地址的方式报警给其他应用(目前支持钉钉、企业微信和飞书)。
      • 报警方式为钉钉群机器人、webhook时,您可单击操作列的发送测试消息,测试该报警是否可以正常发送。配置钉钉机器人详情请参见:发送报警消息至钉钉群
      • 报警方式为短信、邮件时,您可以单击校验联系方式,校验手机号、邮箱是否填写正确。
      说明
      • 您需要购买DataWorks专业版及以上版本,才可以使用电话报警功能。
      • 如果您选择通过电话方式进行报警,为了避免短时间内产生大量报警电话,DataWorks会对报警电话进行过滤,同一个用户在20分钟内最多只会接收到一通报警电话,其余报警电话将被降级为短信,请知悉。
    • 报警疲劳度控制
      • 最大报警次数:报警的最大次数,超过设置的次数后,不再产生报警。
      • 最小报警间隔:两次报警之间的最小时间间隔。
      • 免打扰时间:设置了免打扰时间后,则在该时间段内系统将不会发送告警。

        例如,当目标任务设置的免打扰时间为00:0008:00时,则该时间段内基线与事件的报警将不会触发。如果到达8点,事件仍处于异常状态,则会发出报警信息。

  6. 单击确定,完成基线的创建。

基线管理

基线管理
操作 说明
过滤 在上图的区域①,您可以通过筛选条件过滤目标基线。

您可以根据责任人工作空间基线名称基线类型优先级基线开启状态等条件进行精确筛选。

基线操作 在上图的区域②,您可以单击相应基线后的详情编辑开启/关闭变更记录删除进行相关操作。
  • 详情:单击详情,即可查看基线任务的基本情况。
  • 编辑:单击编辑,即可直接修改基线。
  • 变更记录:单击变更记录,即可查看基线的历史变更记录。
  • 开启关闭:控制基线任务的状态,开启后方可生成周期实例。保障基线每日生成基线实例,您可以在基线实例面板查看每日基线详情。
  • 删除:单击删除,即可直接删除基线任务。

添加任务

任务只可以添加在一条基线上,例如,当任务A已添加至基线A上,此时新建基线B并添加任务A时,任务A将从基线A转移至基线B。
说明 当开启状态的基线上无任务时,该基线将变为空基线并产生空基线实例,关于空基线的说明详情请参见:为什么在基线实例页面会显示基线状态为空基线?
您可以通过以下2种方式添加任务至基线上:
  • 进入基线管理页面,单击右上角的新建基线进行添加。
  • 进入周期任务页面,选择相应任务后的更多 > 添加到基线
    • 单个任务添加至基线添加到基线
    • 批量添加任务至基线添加基线

后续

  • 开启状态的基线每天会生成基线实例,您可以在基线实例页面查看基线运行详情,详情请参见:基线实例
  • 您可以进入操作历史界面查看基线的操作记录。