全部产品
Search
文档中心

大数据开发治理平台 DataWorks:查看运维大屏

更新时间:Dec 13, 2023

运维大屏为您展示工作空间的运维稳定性评估、重点关注的运维指标、调度资源使用及周期任务运行概况,以及数据集成同步任务的运行详情,助力您从宏观角度快速了解空间任务的整体概况,及时发现并处理异常任务,提升运维效率。

使用说明

运维大屏支持选择使用如下两种视角查看工作空间的整体运维概览数据集成任务运维概况

  • 指定项目:即查看所选工作空间的运维概况。该视角可查看工作空间的运维概览,也可单独查看数据集成同步任务的运维概况。

  • 全部项目:即查看当前账号下所有工作空间的运维概况。该视角无法单独查看数据集成同步任务的运维概况。

使用限制

  • 标准模式开发环境运维中心不支持运维大屏功能。标准模式工作空间可在运维中心界面顶部菜单栏左侧切换生产环境及开发环境。

  • 运维概览页面仅统计周期任务及周期实例的相关运维情况,不包括其它类型的任务和实例。

进入运维大屏

登录DataWorks控制台,单击左侧导航栏的数据建模与开发 > 运维中心,在下拉框中选择对应工作空间后单击进入运维中心

查看运维概览

运维概览页面通过整体运维稳定性、异常运维问题、周期实例及周期任务运行、资源组使用、实例运行及出错情况排行榜等维度,为您介绍工作空间中的运维概况。

整体运维状态评估

通过工作空间中任务的整体运行情况,为您工作空间的运维稳定性进行了状态评估。稳定性的健康程度分为优、良、中、差四个等级,当出现高危或低危标签时,表示工作空间的健康程度较差,需尽快处理优化。通过我的全部项目视角下,可查看当前所有已加入的空间运维稳定性情况、周期实例数、及周期实例完成情况。整体运维状态评估

查看重点关注

重点关注以智能基线及周期任务相关异常统计为维度,统计空间视角和个人视角下任务运维的异常事项。您可查看工作空间整体的异常问题情况,或仅查看您名下的异常问题(即您作为任务责任人的异常任务)概况,及时发现并治理,以免影响业务正常运行。异常问题通常,异常问题分为如下几类:

异常问题类型

异常问题说明

相关文档

基线实例破线

统计今日破线的基线实例数量。基线实例破线,即基线上的任务预计完成时间超过基线的承诺时间,未按指定时间运行完成导致触发报警。

基线实例

基线实例预警

统计今日预警的基线实例数量。预警余量能保障复杂依赖场景下重要数据在预期时间内顺利产出,超出预警余量,可能导致任务无法按时完成造成异常。

基线承诺时间及预警余量

运行出错事件

统计今日运行出错的事件数量。当任务处于基线监控范围内,任务运行出错会产生出错事件。当前任务运行出错,可能会阻塞其相关下游任务运行,您需及时处理出错任务,以免影响下游任务正常运行。

事件管理

运行变慢事件

统计今日运行变慢的事件数量。当任务处于基线监控范围内,任务运行变慢会产生变慢事件。运行变慢即任务本次运行时间相比过去一段时间内的平均运行时间明显变长。

任务被孤立

统计周期任务中没有上游依赖的周期任务个数。当节点没有上游依赖时,该节点会变为孤立节点,将无法再自动调度运行。

孤立节点

任务被冻结

统计冻结(暂停)状态的周期任务个数。周期任务冻结后,该周期任务产生的实例也将是冻结状态,冻结状态的实例将不会运行,并且会阻塞其下游节点执行。

任务冻结与解冻

任务过期

统计调度生效日期已过的周期任务个数。节点在调度生效日期内将自动产生周期实例并运行,调度生效日期范围外将无法产生周期实例并自动调度。

任务被修改

今日修改的周期调度任务个数。

  • 修改操作:包括代码变更、调度配置变更、节点状态变更及节点责任人变更等。

  • 统计范围:包括在数据开发(DataStudio)变更后,通过任务发布流程变更的生产任务操作,以及直接在生产环境执行的周期任务变更操作。

说明

当切换至我的视角下时,则统计的是我名下任务(即您为该任务的责任人)存在变更的节点数量。

周期实例及周期任务运维概况

周期实例及周期任务的相关运维概况如下表。

运维类别

说明

图示

周期实例运行状态分布

统计指定业务日期,当前工作空间下调度实例,即周期实例或您名下调度实例的运行状态分布情况。统计的是页面请求发生时的数据。单击饼图中的某个色块,即可查看相应状态的实例数量及占比。

需重点关注如下状态实例,以免影响业务正常运行:

  • 运行失败:实例运行失败,可能会阻塞其相关下游任务运行。

  • 冻结:冻结状态的实例将不会运行,并且会阻塞其下游节点执行。

  • 运行慢: 指状态为运行中的实例,如果运行时间大于过去10天平均值15分钟的实例,会被判定为运行慢。如果历史实例数小于4,则运行时间大于半小时的实例会被视为运行慢。

说明

此处仅统计正常任务,不统计空跑和冻结状态的任务。

实例运行状态分布

周期实例完成情况

统计页面请求当天00:00~23:00内,当前工作空间中周期实例昨日、今日和历史平均的完成情况(即运行成功或未运行的实例个数及波动情况),并通过折线图呈现。如果三条折线偏移过多,表示在某个时间段内存在异常情况,需进一步检查分析。 同时,支持指定需要查看的任务类型。

说明

此处的历史平均统计的是近10天的实例完成情况。

周期实例完成情况

周期实例与周期任务趋势

统计某段业务日期范围内,生产环境的周期任务、周期实例的数量变化趋势。最多支持查看近一年的调度任务数量变化。

说明

此处时间是根据业务日期(即昨天)进行选择的,即如需查看今天周期实例或周期任务的完成情况,时间需选择为昨天。

周期实例与周期任务趋势

周期任务分布情况

统计页面请求发生时,不同节点类型、优先级、责任人、调度周期维度的周期任务数量及占比。饼图的展示存在上限,若统计类型超过上限,会进行合并展示。

说明

我的全部项目视角下,支持按照工作空间查看周期任务分布情况。

任务分布情况

调度资源组使用情况

统计指定时间段内所选调度资源组的使用率(即运行在该资源组上的实例所占用资源的百分比)与各时间点运行在该资源组上的实例数量的变化趋势。当资源组使用率超过80%时,建议对资源组进行扩容,以免资源不足,影响任务正常执行。

说明
  • 最多支持统计7天的数据。

  • 资源组使用率与资源组上运行的实例数量的统计维度为资源组级别。例如,若您使用的独享调度资源组为多个工作空间共享,则此处统计的为多个工作空间下,该资源组总的资源使用率和实例数量变化趋势。

调度资源组使用情况

周期实例运行排行及出错排行

实例运行及出错排行

  • 昨日周期实例排行榜

    统计昨天运行时长、等资源时长和运行变慢时长的周期实例排行,目前仅展示Top30的任务。您可根据排行快速查找耗时较久的任务,并单击实例ID进入实例详情页,通过运行诊断查看当前实例的运行详情。

    说明

    变慢时长:即昨日该实例运行时长相比历史平均运行时长变慢多少,并按照差值降序排序。

  • 周期实例近一个月出错排行榜

    统计最近一个月的周期实例出错排行,目前仅展示Top30的任务。您可快速定位近一个月出错率较高的任务,查看任务详情并定位出错原因。

查看数据集成任务运维

您可在数据集成页签,查看昨天或今天数据集成同步任务的相关概况及资源组的使用情况。

独享数据集成资源组使用情况

统计当前工作空间下所有独享数据集成资源组的使用详情,包括运行任务数、资源使用率、到期时间等。根据资源组使用率及任务量,判断是否需要对资源进行扩缩容等操作,合理分配资源。独享数据集成资源组使用情况

说明
  • 独享数据集成资源组的相关操作,详情请参见独享数据集成资源组

  • 运维大屏 > 数据集成仅统计对独享数据集成资源组的相关运维情况,关于公共数据集成资源组的运维操作,详情请参见使用公共资源组

数据集成同步任务运行状态分布

使用饼图统计当前工作空间下,同步任务不同运行状态的分布情况。单击不同色块,即可跳转至相应状态任务的详情页,查看并处理问题任务。您需重点关注异常运行异常的任务,该类任务通常会阻塞下游任务执行。运行状态分布

离线同步任务运行情况

离线同步任务运行情况介绍如下表。

运维类别

说明

图示

数据同步进度

统计所选业务日期内离线同步的数据总量及总的流量使用情况。

数据同步速度

数据同步量

根据数据源类型展示所选业务日期内,同步数据量的拉取和写入曲线,快速查看同步数据量较大的引擎任务,后续可考虑向该类引擎任务进行资源倾斜。

离线数据同步任务数据统计量

数据同步榜单

统计最近10个最新失败实例最新成功实例,以便您全局查看最新的同步任务状态。您可根据报错信息,快速定位实例运行失败的原因并处理。

离线任务同步榜单

数据同步任务详情

支持通过提交时间任务状态任务名称等条件筛选,快速搜索任务实例,查看该实例的运行详情。

离线同步任务详情

实时同步任务运行情况

实时同步任务运行情况介绍如下表。

运维类别

说明

图示

数据同步速度

统计当前工作空间下,所有实时同步任务的数据速度和记录速度的总和。

同步速度

数据同步任务延迟情况

统计存在延迟最高的10个实时同步任务,以便快速定位高延迟任务并及时优化。

任务延迟

数据同步任务报警信息

统计最近时间实时同步任务运行产生的报警信息,以便您快速捕捉异常情况并及时解决。

报警信息

数据同步任务Failover信息

统计实时同步任务在指定时间内的Failover消息,以便总览任务Failover的状态。Failover详情请参见实时同步任务运行与管理

failover