全部产品
Search
文档中心

开源大数据平台E-MapReduce:管理工作流定义

更新时间:Aug 16, 2023

本文为您介绍如何创建工作流及工作流定义的相关操作。

前提条件

已新建项目,详情请参见管理项目

创建工作流

  1. 进入项目管理页面。

    1. 登录E-MapReduce控制台

    2. 在左侧导航栏,选择EMR Studio > Workflow

    3. 单击上方的项目管理页签。

    4. 项目管理页面,单击已有项目的项目名称。

  2. 在左侧导航栏,选择工作流 > 工作流定义

  3. 工作流定义页面,单击创建工作流

  4. 创建工作流页面,拖拽HIVECLI节点块到画布中,在弹出的对话框中,配置相关的参数,单击确定

    本文以HIVECLI任务类型为例,具体配置请参见HIVECLI。其他任务类型详情请参见任务类型

  5. (可选)配置任务之间的依赖关系

    EMR Workflow支持流程间的自定义任务依赖。

    • 单击任务节点右侧的image..png(加号)可以连接任务。

    • 选中连接线或节点,单击右上角的image..png图标(删除),可以删除任务间的依赖关系或节点。

  6. 保存工作流定义。

    1. 单击右上角的保存

    2. 在弹出的对话框中,配置相关的参数,单击确定

      参数

      说明

      工作流名称

      工作流的名称。

      描述

      当前工作流的功能描述。

      超时告警

      默认关闭。打开超时告警开关,需填写超时时长,如果任务执行时间超过超时时长,则会发送告警。

      执行策略

      支持以下策略:

      • 并行:如果由同一个工作流定义生成了多个工作流实例,则并行执行工作流实例。

      • 串行等待:如果由同一个工作流定义生成了多个工作流实例,则串行执行工作流实例。

      全局变量

      是指针对整个工作流的所有任务节点都有效的参数。

工作流定义操作

操作

说明

image..png编辑

只能编辑处于下线状态的工作流定义。

image..png运行

只有上线状态的工作流能运行,但不能编辑。运行工作流的具体操作,请参见运行工作流

image..png定时

只有上线的工作流可以定时,系统自动定时调度工作流运行。创建定时后的状态为上线,需在定时管理页面上线定时才生效。定时工作流的具体操作,请参见定时工作流

image..png上线

工作流状态为下线时,可以上线工作流。

image..png下线

工作流状态为上线时,下线工作流,下线状态的工作流可以编辑,但不能运行。

image..png复制工作流

根据当前工作流复制一个新的工作流。

image..png定时管理

定时管理页面可以编辑、上线、下线、删除定时。

image..png删除

删除工作流定义。删除前需先下线工作流。在同一个项目中,只能删除自己创建的工作流定义,不能删除其他用户的工作流定义。

image..png工作流树形图

以树形结构展示任务节点的类型及任务状态。

image..png导出

导出工作流(.json文件)到本地。

image..png版本信息

查看当前工作流定义的版本信息。

运行工作流

每运行一次工作流,在工作流实例页面都会产生一个工作流实例。

  1. 工作流定义页面,单击目标工作流操作列的image..png图标(上线)。

  2. 单击image..png图标(运行)。

  3. 在弹出的对话框中,配置相关参数,单击确定

    参数

    说明

    失败策略

    当某一个任务节点执行失败时,其他并行的任务节点需要执行的策略。

    • 继续:某一任务失败后,其他任务节点正常执行。

    • 结束:某一任务失败后,终止其下游任务。

    通知策略

    当流程结束,根据流程状态发送流程执行信息通知邮件。通知策略包含都不发成功发失败发成功或失败都发

    流程优先级

    流程运行的优先级。支持以下级别:

    • HIGHEST:最高。

    • HIGH:高。

    • MEDIUM(默认):中。

    • LOW:低。

    • LOWEST:最低。

    执行集群

    在下拉列表中选择在安全中心已绑定的集群。

    告警组

    在下拉列表中选择在安全中心已创建的告警组。

    补数

    指运行指定时间范围内的工作流定义,根据补数策略生成对应的工作流实例。

    勾选是否是补数,还需配置以下参数:

    • 依赖模式:支持打开关闭(默认)。是否触发下游依赖节点依赖到当前工作流的工作流实例的补数。

      只有当前补数的工作流实例定时状态已上线,才会触发下游直接依赖到该工作流实例的补数。

    • 执行方式

      • 串行执行:指定时间范围内,从开始日期至结束日期依次执行补数,依次生成多条流程实例。

      • 并行执行: 指定时间范围内,同时进行多天的补数,同时生成多条流程实例。

        此方式下,还需配置自定义并行度参数,表示最多并行执行的实例数。

        说明

        创建工作流定义时,如果选择并行执行策略,则该工作流只能并行执行补数;如果选择串行等待执行策略,则该工作流只能进行串行执行补数。

    • 调度日期:指定该工作流运行的时间范围。

    启动参数

    在启动新的流程实例时,设置或覆盖全局参数的值。

    是否空跑

    判断是否空跑,空跑则打印日记,直接按成功处理。

  4. 在左侧导航栏,选择工作流>工作流实例,可以查看实例的运行状况。

导入工作流

  1. 项目管理工作流定义页面,单击导入工作流

  2. 单击上传,选择导出到本地的工作流(.json文件)。

  3. 单击确定

定时工作流

  1. 工作流定义页面,单击目标工作流操作列的image..png图标(定时)。

  2. 在弹出的对话框中,选择起止时间定时执行集群,单击确定

    • 起止时间:在起止时间范围内,定时运行工作流;不在起止时间范围内,不再产生定时工作流实例。

    • 定时:选择执行的时间。

  3. 上线定时任务。

    此时定时状态为下线,需上线才生效。

    1. 工作流定义页面,单击目标工作流操作列的图标image..png(定时管理)。

    2. 定时管理页面,单击定时任务操作列的image..png图标(上线)。