E-MapReduce工作流支持通过DAG的方式并行执行大数据作业,用户可以暂停、停止、重新运行工作流,还可以在Web UI查看工作流的执行状态。

操作步骤

  1. 新建工作流。
    1. 通过主账号登录阿里云 E-MapReduce 控制台
    2. 单击上方的数据开发页签。
    3. 项目列表页面,单击对应项目右侧的工作流设计
    4. 工作流设计页面,在需要操作的文件夹上单击右键,选择新建工作流
    5. 新建工作流对话框中,输入工作流名称、工作流描述,选择执行集群。
      用户可以选择已经创建的且被关联到该项目的预付费和后付费EMR集群用于执行工作流,也可以通过集群模板的方式新建一个临时集群用于执行该工作流。
    6. 单击确定
  2. 编辑工作流。
    用户可以通过拖拽方式将不同类型的作业拉到工作流编辑画布,将不同作业节点通过连线的方式指定工作流的流转。作业拖拽完成后,从控制节点处拖拽END组件到画布中,表示整个工作流设计完成。编辑工作流
  3. 配置工作流。
    1. 工作流设计页面,单击配置按钮,可以进行工作流调度配置。
    2. 基本属性页签,可修改工作流描述,选择执行集群

      选择当前工作流中各个节点默认的执行集群,有以下两种模式:

      • 选择当前已存在集群: 表示工作流执行时,相关任务会下发到该集群中。
      • 选择集群模板: 表示调度系统在工作流启动时先按模版创建一个集群,然后将作业下发到该集群上执行。在工作流结束后,调度系统会自动释放该集群。
    3. 基本属性设置完成后,单击调度属性,设置工作流的调度属性。

      根据需求设置调度状态,在开启工作流调度后,时间依赖是默认必须使用的,同时您可以添加工作流依赖调度。

      • 时间属性调度:设置工作流调度的开始时间调度周期,在此时间范围内,系统会根据您设置的周期执行工作流。
      • 依赖属性调度:选择所选项目,从所选项目中,选择依赖工作流,即当前工作流的前续工作流。当前续工作流执行完成后,当前工作流才会被调度执行。
    4. 调度属性设置完成后,单击告警设置,设置工作流的告警配置项。
      配置项 说明
      执行失败 设置工作流执行失败时,是否通知到用户告警组或钉钉告警组。
      节点失败 设置工作流节点执行失败时,是否通知到用户告警组或钉钉告警组。
      执行成功 设置工作流执行成功时,是否通知到用户告警组或钉钉告警组。
      启动超时 设置工作流启动失败时,是否通知到用户告警组或钉钉告警组。
  4. 单击右上角的运行,执行工作流。
  5. 可选: 查看并操作工作流实例。
    1. 单击下方运行记录页签,可以查看工作流实例的运行状态。
    2. 单击工作流实例所在行的详情,可以查看作业实例的运行情况,也可以暂停、恢复、停止和重跑工作流实例。
      工作实例
      • 暂停工作流后:正在运行的作业节点会继续执行,但后续的作业节点不再执行,可以单击恢复工作流,系统将继续执行暂停作业节点之后的作业。
      • 取消工作流:所有正在运行的作业节点立即停止。
      • 重跑工作流实例:系统将从工作流的start节点从头开始执行工作流。