运维中心包括运维大屏、实时任务运维、周期任务运维、手动任务运维、智能监控、智能诊断、资源运维和引擎运维功能模块,为您提供任务操作与状态、引擎、资源等多方位的运维能力。

运维中心功能模块

通常情况下,您在DataWorks的DataStudio中编辑好作业任务后,可进行提交发布,后续您即可在运维中心对任务进行运维操作。运维中心提供运维大屏、实时任务运维等多个能力模块,以下为您概要介绍每个功能模块的主要应用场景。运维中心
模块 描述 环境支持情况
运维大屏 运维大屏以报表的形式为您展示任务的运行情况。详情请参见查看运维大屏 DataWorks为标准模式时,仅生产环境支持。
实时任务运维 在实时任务运维界面,您可以针对实时任务进行启动、停止、下线与监控报警相关操作。详情请参见实时同步任务 -
周期任务运维 周期任务运维为您展示任务提交到调度系统后的调度任务列表,与经过调度系统运行后的周期实例。周期任务面板展示当前所有的调度节点,您可以在周期任务面板对周期调度的任务进行修改资源组、责任人等操作。

平台每晚会根据周期任务来生成自动调度的周期实例,同时您也可以针对周期任务触发生成补数据实例测试实例,详情请参见周期任务运维

-
手动任务运维 手动任务运维为您展示任务提交到调度系统后的手动任务列表,与经过手动触发运行后的手动实例手动任务面板展示当前所有的手动触发式任务,您可以在手动任务面板修改任务执行时候使用的调度资源组,责任人等相关操作。

手动任务面板中,您可以选择类型为手动业务流程,您可以针对手动业务流程手动触发运行并且生成手动实例,您可以在生成的手动实例查看任务执行详情。详情请参见手动任务运维

-
智能监控 智能监控支持针对自动调度周期任务设置监控报警,监控在自动调度场景下的周期实例运行情况以及独享资源组使用情况。

智能监控支持针对指定对象(节点、业务流程、工作空间、基线、实时计算任务、独享调度资源组、独享数据集成资源组)的监控报警,同时也支持针对整个“业务线”的基线预警,并通过您配置的报警方式来发送相应的报警信息。目前支持短信、邮件、电话、钉钉群机器人等报警方式。详情请参见智能监控

DataWorks为标准模式时,仅生产环境支持。
资源运维 资源运维主要对独享调度资源组及独享数据集成资源组的使用情况(使用率、运行中任务列表、排队任务列表)进行监控和自动运维。详情请参见资源运维 -
引擎运维 目前支持对emr引擎的运维。在DataWorks实例任务中,E-MapReduce计算引擎任务会被分为若干作业有序执行,您可以使用DataWorks的引擎运维功能,查看各个E-MapReduce作业的详细信息,及时查找并清理运行有误的作业,避免该类作业阻塞下游任务,影响实例任务的正常运行。详情请参见引擎运维 DataWorks为标准模式时,仅生产环境支持。
智能诊断 DataWorks运维中心为您提供智能诊断功能,帮助您掌握任务运行的全链路信息,以迅速定位问题。详情请参见运行诊断 DataWorks为标准模式时,仅生产环境支持。
同时,需关注以下注意事项:
  • 在标准模式工作空间下,您可以通过界面切换进入到开发运维中心和生产运维中心。
  • 仅生产环境运维中心支持自动调度。即只有在生产环境运维中心,您才能在周期实例面板中看到自动调度执行的周期实例。

任务运行逻辑说明

由上文可见,提交发布至运维中心的各类任务在实际运行时,均需要先生成可运行任务的任务实例,然后通过不同任务的触发运行机制开始运行任务。运维逻辑
以周期任务为例:
  • 周期任务被提交到运维中心,后续周期调度运行时,DataWorks每晚会生成第二天运行任务的实例,周期实例会根据您设置的调度配置结果(节点的依赖关系、定时时间、使用的资源等),满足运行条件后即会自动调度。
  • 您可以针对周期任务手动触发补数据生成补数据实例,用于运行获取周期任务在某一历史时间段的结果数据;或者针对周期任务手动触发任务测试,生成测试实例。
    说明 通过上述描述可知,周期实例根据周期任务自动生成并根据条件自动运行。测试实例、补数据实例是针对周期任务手动触发的,因此会以最新的任务配置情况生成对应的实例。
  • 您可以在周期任务运维下的周期实例面板、补数据实例面板、测试实例面板中查看各类实例的运行情况,根据实例的状态了解数据产出是否异常,不同实例状态的详情请参见附录:实例状态
实例类型 应用场景 与周期任务的关系

(对应实例如何生成)

实例触发方式

(对应实例如何触发执行)

任务运行条件
周期实例 周期性自动化进行ETL操作。 平台根据某一时间点周期任务快照信息自动生成周期实例。
说明 DataWorks为标准模式时,仅生产环境支持自动生成周期实例并自动调度运行。
平台自动触发周期实例执行。 以周期实例上的任务为例,任务开始运行前需满足以下条件:
  • 依赖的所有父节点实例状态都为成功状态。
  • 已到达任务节点设置的任务定时运行时间。
  • 调度资源充足。
  • 本任务不是冻结状态。
补数据实例
  • 需要对当前节点及下游节点进行补过去某一时间段的数据的操作,即需要对历史数据进行ETL操作。
  • 需要对当前节点及下游节点进行补某一时间段数据的操作,即需要对未来数据提前进行ETL操作。
人为针对当前周期任务手动触发补数据操作,并生成补数据实例。 人为针对对周期任务进行补数据操作后,会生成补数据实例,并同时触发补数据实例执行。
测试实例 需要对当前周期任务进行测试运行,观察执行结果是否符合预期。
说明 测试实例的运行其实际上也在真实执行代码逻辑的。
人为针对当前周期任务手动触发测试操作,并生成测试实例。 人为针对周期任务的进行测试操作后,会生成测试实例,并且同时触发测试实例执行。

节点发布生产环境后,您可以马上在周期任务面板看到,但周期实例何时生成跟您选择的实例生成方式有关。详情请参考配置时间属性

任务运维:智能监控

您可以针对周期实例和独享资源组 监控报警。

  • 自定义规则报警

    通过新建自定义规则实现针对指定对象的报警。

    您可以对指定对象(任务节点、基线、工作空间、业务流程)上节点的状态:完成、未完成、出错、周期未完成、超时、自动重跑后仍出错等及实时计算任务的出错,设置监控报警。同时也支持针对独享资源组使用率及等待实例数设置监控报警,并且支持结合自助运维的功能来实现短信、邮件、电话、钉钉机器人的方式发送报警给责任人(节点责任人、指定责任人、值班表中的排班等)。详情请参考自定义规则

  • 内置全局规则报警
    通过设置内置规则实现针对特殊场景及全局监控的报警,包括节点孤立报警,节点成环报警,全局事件报警,全局基线预警。
    • 节点孤立报警

      孤立节点指节点在周期任务或周期实例展开父节点看没有依赖任何父节点,这类型节点在自动调度时不会被调度调起,所以孤立节点不会自动调度运行,如果该孤立节点下游依赖较多,可能会造成较严重的后果。孤立节点产生后会自动报警,如果收到孤立节点报警请及时处理。

    • 节点成环报警

      节点成环指的是某节点为上游节点但又同时依赖了自己的下游节点。导致依赖关系成环,这类型节点在自动调度时不会被调度调起,节点成环后会自动报警,如果收到节点成环报警请及时处理。

    • 全局事件报警

      针对影响重保基线上的任务产生的事件报警,您可以设置处理最大报警次数 、最小报警间隔、报警方式、报警接收人。

    • 全局基线预警

      针对重保基线设置处理最大报警次数、最小报警间隔、报警方式、报警接收人。

  • 基线预警

    通过基线管理功能来实现针对业务线的动态预警和基线报警。

    您可以将需要重保的任务移到一条基线上,基线开启之后,基线上的任务就会处于重保状态,当有节点影响到该保障基线上的节点数据产出(这些节点出错或者变慢)时,会生成相应事件报警,同时会根据历史完成时间推算当天数据是否会顺利产出,并提前预警。详情请参考文档基线管理

  • 自助运维

    自助运维支持通过自定义规则中的独享资源组监控规则,并在限定条件进行对资源组的运维操作,比如终止运行中的实例。详情请参考自动运维

数据运维:数据质量

针对自动调度的周期实例、补数据实例、测试实例产出的表数据的监控。

您可以为节点产出的表数据配置数据质量规则,数据质量通过表配置的分区表达式来匹配节点产出的表分区,数据质量规则关联产出该表数据的调度节点执行(运维中心中产出表数据的节点执行),才会触发该数据质量规则校验,您可以设置规则的强弱来控制节点是否失败退出,从而避免脏数据影响扩大,您也可以通过订阅规则来第一时间接收相应报警。详情请参考文档数据质量

附录:实例状态

根据任务运行逻辑说明可知,任务开始运行前需满足以下条件:
  • 依赖的所有父节点实例状态都为成功状态。
  • 已到达任务节点设置的任务定时运行时间。
  • 调度资源充足。
  • 本任务不是冻结状态。

其中,父节点已完成运行、本任务不是冻结状态均是对任务实例状态的要求。任务实例状态机模型是针对数据任务节点在整个运行生命周期的状态定义,共有6种状态,各状态之间的转换逻辑如下所示。

序号 状态类型 状态标识 转换逻辑
1 运行成功状态 运行成功 转换逻辑
2 未运行状态 未运行
3 运行失败状态 运行失败
4 正在运行状态 正在运行
5 等待状态 等待状态
6 暂停/冻结状态 暂停冻结状态