全部产品
Search
文档中心

开源大数据平台E-MapReduce:快速使用EMR Workflow

更新时间:Aug 14, 2023

本文以HIVECLI任务类型为例,为您介绍如何快速使用EMR Workflow。

前提条件

  • 已完成系统角色授权,详情请参见EMR Workflow角色授权

  • 已在EMR on ECS页面创建集群,详情请参见创建集群

    支持的集群类型为DataLake、Hadoop和Custom。

操作步骤

步骤一:绑定EMR集群

  1. 登录E-MapReduce控制台

  2. 在左侧导航栏,选择EMR Studio > Workflow

  3. 单击上方的安全中心页签。

  4. 集群管理页面,单击绑定集群

  5. 在弹出的对话框中,选择相应的集群类型,集群ID和交换机ID,单击确定

    您可以通过刷新页面来查看进度,当状态显示为已绑定时,表示完成集群的绑定。

    说明

    绑定集群大约需要5~10分钟,请耐心等待。

步骤二:新建项目

  1. 单击上方的项目管理页签。

  2. 项目管理页面,单击创建项目

  3. 在弹出的对话框中,输入项目名称,单击确定

    本文项目名称以project_test为例。

步骤三:编辑工作流

  1. 项目管理页面,单击新建项目的项目名称(本文示例为project_test)。

  2. 在左侧导航栏,选择工作流 > 工作流定义

  3. 工作流定义页面,单击创建工作流

  4. 创建工作流页面,拖拽HIVECLI节点块到画布中。

    本文以HIVECLI任务类型为例。任务类型的详细信息,请参见任务类型

  5. 在弹出的对话框中,设置节点名称脚本,单击确定

    设置示例如下表所示,其他参数保持默认值即可。更多参数的说明,请参见HIVECLI

    参数

    示例

    节点名称

    hivecli

    脚本

    create table if not exists mytable(a string, b int);
    insert into mytable values ('abc', 1), ('def', 2);
    select a, sum(b) from mytable group by a;
  6. 保存工作流。

    1. 单击画布右上方的保存

    2. 在弹出的对话中,输入工作流名称,单击确定

      本文工作流名称以workflow_test为例。

步骤四:运行工作流

  1. 工作流定义页面,单击image..png图标(上线)。

  2. 单击image..png图标(运行)。

  3. 在弹出的对话框中,在执行集群下拉列表中选择在步骤一:绑定EMR集群中绑定的集群,单击确定

步骤五:查看任务实例日志

  1. 在左侧导航栏,选择工作流>工作流实例,可以查看实例的运行状况。

  2. 在左侧导航栏,选择任务>任务实例

  3. 任务实例页面,单击目标任务名称操作列的image..png图标(查看日志),可以查看任务节点的运行日志。

(可选)步骤六:下线工作流

工作流定义页面,单击目标工作流操作列的image..png(下线)。

相关文档