DataWorks的补数据功能用于在指定日期范围内运行周期任务,您可以在补数据实例页面查看实例的运行状态,以及对补数据实例进行终止、重跑和解冻等操作。本文为您介绍如何对周期任务进行补数据,并管理补数据实例。

背景信息

周期任务开发完成并提交发布后,任务会按照调度配置定时运行。如果您希望在指定时间段运行周期任务,可以使用补数据功能。DataWorks周期任务的补数据操作,详情请参见 补数据,其支持的补数据模式如下:
  • 当前节点:用于对当前节点进行补数据操作。
  • 当前节点及下游节点:用于对当前节点及下游节点进行批量补数据操作,通常在当前节点的下游节点数量较少时使用该功能,支持指定部分下游节点。
  • 海量节点模式:用于对当前节点及下游节点进行批量补数据操作,通常在当前节点的下游节点数量较多时使用该功能,支持按照项目筛选下游节点。同时,支持节点白名单和黑名单,选中或过滤目标节点。
  • 高级模式:用于灵活选择一批节点进行批量补数据操作,节点之间可以不存在依赖关系。您可以在DAG图上使用可视化方式添加节点,也可以在任务列表中添加节点。
    • 您可以在当前周期任务的DAG图中,结合DAG的聚合功能,按照工作空间、所属责任人或优先级等维度将节点划分为组,直接勾选该节点组,快速添加目标类别的节点为补数据节点。实例的DAG图,详情请参见实例DAG图
    • 您可以在周期任务界面,通过目标条件进行筛选过滤,在左侧任务列表中,勾选符合条件的节点为需要补数据的节点。

使用限制

  • 仅华南1(深圳)、中东东部 1(迪拜)地域支持周期任务使用高级模式进行补数据。
  • DataWorks支持批量终止补数据实例,但暂不支持批量删除补数据实例。补数据实例在过期后(30天左右)将自动删除。

注意事项

  • 当补一个区间的数据时,在启动补数据的第一天存在一个运行失败的实例,则当天的补数据实例会被置为失败状态,第二天的实例也不会启动运行(只有当天的全部任务实例都成功,第二天的任务实例才会开始运行)。
  • 自依赖的周期任务执行补数据时,如果补数据任务中第一个实例前一天的周期实例没有运行,则该补数据任务也无法触发运行。如果补数据任务的第一个实例前一天没有周期实例,则补数据实例会直接触发运行。
  • 如果周期实例和补数据实例均启动运行,为了保证周期实例的正常运行,您需要终止补数据实例的运行。
  • 补数据实例过多或并行数过高可能导致周期调度的资源紧张,请您根据需求合理配置。

补数据

  1. 进入数据开发页面。
    1. 登录DataWorks控制台
    2. 在左侧导航栏,单击工作空间列表
    3. 选择工作空间所在地域后,单击相应工作空间后的进入数据开发
  2. 单击左上方的周期任务图标,选择全部产品 > 任务运维 > 运维中心(工作流)
  3. 在左侧导航栏,单击周期任务运维 > 周期任务,进入周期任务页面。
  4. 目标节点补数据。
    1. 单击周期任务列表中的目标任务,打开该任务的DAG图。
      您也可以单击 展开图标展开周期任务列表,单击目标任务 操作列DAG图,打开该任务的DAG图。
    2. 右键单击目标节点,鼠标悬停至补数据,选择相应的补数据模式,配置补数据的相关参数。
    说明 您也可以在 周期任务页面,单击 展开图标展开周期任务列表,单击目标任务 操作列补数据,选择相应的补数据模式,对该周期任务进行补数据。该操作即对目标周期任务所包含的所有节点统一进行补数据。
    补数据模式补数据的模式及参数配置如下:
    • 使用当前节点模式补数据。
      当前节点补数据参数配置如下。
      参数 描述
      补数据名称

      系统会自动生成补数据名称,您可以根据需要进行修改。

      当前任务

      当前选中的任务。

      业务日期
      选择执行补数据任务的业务日期,业务日期精确到天。
      • 如果您需要对该任务的多个不连续的时间段进行补数据,则可以单击添加,配置多个时间段。
      • 当配置的业务日期晚于当前日期,则您可以选择立即运行定时时间大于此刻的补数据实例,后续当实际时间大于配置的业务日期时间,系统会立即运行该补数据实例。

        例如,当前日期为2021-08-24,业务日期为2021-09-17,则等实际日期为2021-09-18(立即大于业务日期)时,该补数据实例会立即启动运行。

      说明 建议补数据的时间不要太长,以免出现任务需要等待资源的情况。
      是否并行
      您可以通过选择是否并行,控制同时生成多少个补数据实例来进行补数据,具体如下:
      • 不并行:按照业务日期顺序串行执行,前一个补数据实例运行结束后下个补数据实例才会运行。
      • 并行:根据您配置的并行数,按照业务日期将补数据实例拆分成若干组并行执行。同一时刻有多个不同业务日期的补数据实例运行。
      并行数
      用于配置当前补数据任务生成的补数据实例个数,当进行补数据时,所有补数据实例并行执行。
      说明是否并行参数选择并行时,需要配置当前参数。
      并行数取值最小为 2组,最大为 10组。多个实例并行执行的情况如下:
      • 如果业务日期的跨度时间少于配置的并行组数,则并行执行。例如业务日期是1月11日~1月13日,并行数配置为4组,则只会生成三个补数据实例(每个补数据实例对应一个业务日期),三个实例同时并发执行。
      • 如果业务日期的跨度大于选择的并行组数,则系统会结合配置的业务日期顺序兼有串行和并行。例如业务日期是1月11日~1月13日,并行数配置为2组,则会生成两个补数据实例(其中一个补数据实例会有两个业务日期,这两个业务日期对应的任务串行执行),两个补数据实例并行执行。
      顺序

      您可以选择按照业务日期正序业务日期倒序进行补数据。

    • 使用当前节点及下游节点模式补数据。
      当前节点及下游节点补数据参数配置如下。
      参数 描述
      补数据名称

      系统会自动生成补数据名称,您可以根据需要进行修改。

      业务日期
      选择执行补数据任务的业务日期,业务日期精确到天。
      • 如果您需要对该任务的多个不连续的时间段进行补数据,则可以单击添加,配置多个时间段。
      • 当配置的业务日期晚于当前日期,则您可以选择立即运行定时时间大于此刻的补数据实例,后续当实际时间大于配置的业务日期时间,系统会立即运行该补数据实例。

        例如,当前日期为2021-08-24,业务日期为2021-09-17,则等实际日期为2021-09-18(立即大于业务日期)时,该补数据实例会立即启动运行。

      说明 建议补数据的时间不要太长,以免出现任务需要等待资源的情况。
      是否并行
      您可以通过选择是否并行,控制同时生成多少个补数据实例来进行补数据,具体如下:
      • 不并行:按照业务日期顺序串行执行,前一个补数据实例运行结束后下个补数据实例才会运行。
      • 并行:根据您配置的并行数,按照业务日期将补数据实例拆分成若干组并行执行。同一时刻有多个不同业务日期的补数据实例运行。
      并行数
      并行数取值最小为 2组,最大为 10组。多个实例并行执行的情况如下:
      • 如果业务日期的跨度时间少于配置的并行组数,则并行执行。例如业务日期是1月11日~1月13日,并行数配置为4组,则只会生成三个补数据实例(每个补数据实例对应一个业务日期),三个实例同时并发执行。
      • 如果业务日期的跨度大于选择的并行组数,则系统会结合配置的业务日期顺序兼有串行和并行。例如业务日期是1月11日~1月13日,并行数配置为2组,则会生成两个补数据实例(其中一个补数据实例会有两个业务日期,这两个业务日期对应的任务串行执行),两个补数据实例并行执行。
      顺序

      您可以选择按照业务日期正序业务日期倒序进行补数据。

      选择需要补数据的节点 您可以根据任务名称层级等条件进行筛选过滤,选择需要补数据的目标节点。
      说明
      • 通过任务名称进行搜索时支持模糊匹配,即输入关键字,即可显示所有名称中包含关键字的节点。
      • 选择需要补数据的节点区域为您展示的是当前节点及其包含的所有下游节点(包含下游节点的子节点),您可以选择当前节点及其下游节点的部分或全部节点任务(包含当前节点)进行补数据。
    • 使用海量节点模式补数据。
      海量节点模式参数配置如下。
      参数 描述
      补数据名称

      系统会自动生成补数据名称,您可以根据需要进行修改。

      业务日期
      选择执行补数据任务的业务日期,业务日期精确到天。
      • 如果您需要对该任务的多个不连续的时间段进行补数据,则可以单击添加,配置多个时间段。
      • 当配置的业务日期晚于当前日期,则您可以选择立即运行定时时间大于此刻的补数据实例,后续当实际时间大于配置的业务日期时间,系统会立即运行该补数据实例。

        例如,当前日期为2021-08-24,业务日期为2021-09-17,则等实际日期为2021-09-18(立即大于业务日期)时,该补数据实例会立即启动运行。

      说明 建议补数据的时间不要太长,以免出现任务需要等待资源的情况。
      顺序

      您可以选择按照业务日期正序业务日期倒序进行补数据。

      按工作空间选择需要补数据的节点 您可以根据业务需求,在您的所有项目区域,选择目标工作空间,将其添加至补数据的项目区域,为所选的目标工作空间中所有节点进行补数据。
      说明
      • 筛选DataWorks工作空间支持模糊匹配,即输入关键字,即可显示所有名称中包含关键字的工作空间。
      • 您只能选择当前所在地域中的DataWorks工作空间进行补数据操作。
      • 您可以为该补数据任务配置节点白名单或黑名单,选中或过滤无需执行补数据的节点。
      • 您可以选择该补数据任务是否包含当前节点,取值如下:
        • 如果勾选包含当前节点,则补的是当前节点及下游节点的数据。
        • 如果未勾选包含当前节点,则当前节点会空跑,补的是当前节点下游节点的数据。
      节点白名单 除选中的DataWorks工作空间中包含的节点外,仍需要进行补数据的节点。
      说明 目前仅支持通过节点ID搜索目标节点。
      节点黑名单 选中的DataWorks工作空间中不需要进行补数据的节点。
      说明 目前仅支持通过节点ID搜索目标节点。
    • 使用高级模式补数据。
      在高级模式中,您可以使用DAG图的聚合功能及节点的类型、责任人等过滤条件,批量为节点之间不存在依赖关系的多个节点进行补数据。 高级模式补数据高级模式补数据步骤如下:
      1. 选择需要补数据的节点。
        • 在当前周期任务的DAG图中,您可以结合DAG图的聚合功能(区域1),按照不聚合按所属工作空间聚合按责任人聚合按优先级聚合等维度将节点划分为组,直接勾选该节点组(区域2),快速添加目标类别的节点为补数据节点。DAG图的聚合功能,详情请参见实例DAG图
        • 您也可以在周期任务界面,通过节点名称节点类型责任人调度资源组等筛选条件进行过滤(区域3),在左侧任务列表中,勾选符合条件的周期任务为需要补数据的节点(区域4),单击下方的添加,将目标周期任务添加至补数据任务中。
          说明 该方式是将整个目标周期任务添加至补数据任务中,因此系统会对该周期任务中的所有节点进行补数据。如果您希望对周期任务中的部分节点进行补数据,则可以单击目标周期任务的名称,进入DAG图界面,选择需要进行补数据的节点。
      2. 查看补数据节点。
        补数据节点添加完成后,您可以在区域5的 补数据面板,查看已选择的节点。同时,您还可以执行如下管理操作:
        • 单击目标节点后的定位图标,跳转至该节点的DAG图界面,您可以重新勾选该DAG图中需要补数据的节点。
        • 单击目标节点后的删除图标,在当前补数据任务中删除该节点。
      3. 在区域5的补数据面板,单击去配置,配置补数据任务的相关参数。高级补数据模式参数配置如下。
        参数 描述
        补数据名称

        系统会自动生成补数据名称,您可以根据需要进行修改。

        已选任务数 当前补数据任务中包含的节点个数。您可以单击修改,修改当前补数据任务包含的节点。
        业务日期
        选择执行补数据任务的业务日期,业务日期精确到天。
        • 如果您需要对该任务的多个不连续的时间段进行补数据,则可以单击添加,配置多个时间段。
        • 当配置的业务日期晚于当前日期,则您可以选择立即运行定时时间大于此刻的补数据实例,后续当实际时间大于配置的业务日期时间,系统会立即运行该补数据实例。

          例如,当前日期为2021-08-24,业务日期为2021-09-17,则等实际日期为2021-09-18(立即大于业务日期)时,该补数据实例会立即启动运行。

        说明 建议补数据的时间不要太长,以免出现任务需要等待资源的情况。
        是否并行
        您可以通过选择是否并行,控制同时生成多少个补数据实例来进行补数据,具体如下:
        • 不并行:按照业务日期顺序串行执行,前一个补数据实例运行结束后下个补数据实例才会运行。
        • 并行:根据您配置的并行数,按照业务日期将补数据实例拆分成若干组并行执行。同一时刻有多个不同业务日期的补数据实例运行。
        并行数
        并行数取值最小为 2组,最大为 10组。多个实例并行执行的情况如下:
        • 如果业务日期的跨度时间少于配置的并行组数,则并行执行。例如业务日期是1月11日~1月13日,并行数配置为4组,则只会生成三个补数据实例(每个补数据实例对应一个业务日期),三个实例同时并发执行。
        • 如果业务日期的跨度大于选择的并行组数,则系统会结合配置的业务日期顺序兼有串行和并行。例如业务日期是1月11日~1月13日,并行数配置为2组,则会生成两个补数据实例(其中一个补数据实例会有两个业务日期,这两个业务日期对应的任务串行执行),两个补数据实例并行执行。
        顺序

        您可以选择按照业务日期正序业务日期倒序进行补数据。

  5. 单击确定,启动补数据。

管理补数据实例

补数据任务启动后,会生成相应的补数据实例,您可以在 运维中心页面,单击左侧导航栏的 周期任务运维 > 补数据实例,查看补数据实例的基本信息及运行详情,并进行终止运行、重跑等管理操作。进入 运维中心,详情请参见 进入运维中心管理补数据实例
区域 描述
1 在该区域,您可以通过筛选条件过滤出需要查询的实例。

您可以根据节点名称节点ID补数据名称创建人创建日期运行状态业务日期我的节点我发起的等条件进行精确筛选。

说明
  • 在该区域,您需要单击展开搜索,才会显示节点类型调度资源组引擎实例等更多的筛选条件。
  • 节点名称支持模糊匹配,即输入关键字,即可显示所有名称中包含关键字的节点。
2
在该区域,您可以查看补数据实例的相关信息,包括:
  • 任务名称:为您展示补数据实例的名称。单击实例名称前的展开图标,即可显示该实例的运行日期,实例包含的节点及节点的运行信息(即区域3)。
  • 检查状态:当前补数据实例的检查状态。
  • 运行状态:包括运行中、未运行、等待资源、异常、停止五种状态。
  • 创建人:创建补数据实例的阿里云账号。
  • 创建日期:创建补数据实例的日期。
  • 节点个数:补数据实例包含的节点数量。
  • 业务日期:运行补数据实例的日期。
在该区域,您还可以对补数据实例执行如下操作:
  • 批量终止:您可以选择批量终止补数据实例中运行状态为等待运行和运行中的实例,执行此操作后,对应实例将被置为失败状态。
    说明
    • DataWorks支持批量终止补数据实例,但暂不支持批量删除补数据实例。补数据实例在过期后(30天左右)将自动删除。
    • DataWorks当前不支持对状态为未运行、运行成功或运行失败的实例执行终止运行操作。
  • 批量重跑:批量重新运行补数据实例。
    说明 DataWorks当前仅支持批量重跑状态为运行失败的补数据实例。
  • 复用:您可以选择复用某次补数据操作的节点集,方便您快速选定需要进行补数据的节点。
3
在该区域,您可以查看补数据实例所包含节点的相关信息,包括:
  • 名称:为您展示补数据实例所包含节点的名称。单击节点名称,即可进入节点的详情页面。
  • 责任人:节点任务所在的工作空间责任人。
  • 定时时间:节点任务设置的定时运行时间。
  • 开始运行时间:节点任务运行的起始时间。
  • 结束时间:节点任务运行的结束时间。
  • 运行时长:节点任务运行的时长。
在该区域,您还可以对节点任务执行如下操作:
  • 终止运行:终止运行状态为等待运行和运行中的节点,执行此操作后,该节点将被置为失败状态。
    说明 DataWorks当前不支持对状态为未运行、运行成功或运行失败的节点执行终止运行操作。
  • 重跑:重新运行目标节点任务。
    说明 仅支持重跑状态为运行成功和运行失败的节点。
  • 更多 > 重跑下游:重新运行目标节点任务的下游节点。
  • 更多 > 置成功:将该节点任务的状态置为成功。
  • 更多 > 暂停(冻结):将当前节点置为暂停(冻结)状态,并停止调度。
  • 更多 > 恢复(解冻):将暂停(冻结)的节点恢复调度。
  • 更多 > 查看血缘:查看节点的血缘关系图。
4 您可以在区域3勾选多个目标节点任务,在本区域(区域4)单击终止运行重跑,即可批量终止运行或重新运行所选的节点任务。

实例状态说明

序号 状态类型 状态标识
1 运行成功状态 1
2 未运行状态 2
3 运行失败状态 3
4 正在运行状态 4
5 等待状态 5
6 冻结状态 6