全部产品
Search
文档中心

大数据开发治理平台 DataWorks:工作流

更新时间:Feb 03, 2026

工作流是一种数据处理流程自动化管理工具,它通过可视化拖拽方式整合多种类型的子任务节点,便捷地建立任务上下游关系,加速数据处理流程的搭建,有效提升任务开发效率。

什么是工作流

工作流(Workflow)是 DataWorks 中用于编排和管理数据任务的核心单元。它将多个任务节点(如 SQL、Shell、Python、数据同步、Check等)以 DAG(有向无环图) 的形式进行可视化组织,建立清晰的上下游依赖关系,并统一调度执行,从而构建稳定、可维护的数据管线。此外,工作流之间也可相互编排,支持复杂业务场景的开发。

工作流的本质,是将离散的数据任务整合为结构化、可视化的流程,实现从“管理单个任务”到“管理整条数据生产线”的跃迁。其核心价值体现在以下三个方面:

  • 开发流程的抽象与可视化
    将具有依赖关系的节点(如SQL、Shell)封装为面向业务目标的工作流(如“日活分析”),形成清晰的DAG图。这不仅让技术链路一目了然,也让非技术人员理解数据流转逻辑,促进业务与技术对齐。

  • 开发与运维的原子化管理
    工作流作为变更和操作的最小单元,支持整体提交、发布与运维(如测试、重跑、补数据),避免因局部修改导致的生产异常,保障端到端的一致性与稳定性。

  • 组织协作的边界划分
    在多团队环境中,工作流明确归属与责任(如交易团队负责交易数据,商品团队负责商品数据),实现权限隔离与问题追溯;同时通过标准化产出,支撑上下游团队高效解耦协作。

工作流类型对比

DataWorks 当前主要推荐使用两类工作流:

  • 周期工作流:按固定时间周期(如小时、天、周等)自动调度运行的工作流,适用于需要定期执行的数据处理场景。它通过配置调度规则定时触发,内部节点的执行受该调度时间控制。

  • 触发式工作流:一种按需执行的工作流,由外部信号(如手动操作、OpenAPI 调用或事件消息)触发,适用于对实时性或外部事件响应有要求的场景。它不依赖固定调度周期,支持手动触发、API 触发和事件触发三种方式。

对比维度

周期工作流

触发式工作流

手动业务流程(不推荐)

调度方式

按调度时间和依赖关系触发

手动/事件/API 触发

手动运行

适用场景

日批/小时批/周月批

实时处理/按需执行/外部集成

临时任务(旧版兼容)

参数优先级

节点 > 工作流 > 工作空间

节点 > 工作流 > 工作空间

业务流程 > 节点

典型案例

每天凌晨 T+1 报表

OSS 文件到达自动处理

一次性数据修复

重要
  • 触发式工作流在“不绑定触发器”时,也可以作为“手动运行”的工作流使用,用于逐步替代“手动业务流程”。

  • 手动业务流程主要用于兼容旧版数据开发形态,新项目不建议使用。

快速选型指南

通过以下 3 个问题,快速确定适合的工作流类型:

image

相关文档

根据您的场景选择对应文档: