本文将为您介绍,如何通过一键迁移方式以及文件导入导出方式将阿里云E-MapReduce(以下简称EMR)项目迁移至DataWorks工作空间的操作方法。

前提条件

  • 已开通DataWorks服务并创建DataWorks工作空间。
  • 如您是RAM用户,需要拥有管理员权限或RAM账号拥有AliyunDataWorksFullAccessAliyunEMRFullAccess权限。
  • EMR集群已绑定至DataWorks工作空间中,绑定方法请参见配置工作空间

背景信息

DataWorks为您提供了以下两种迁移方式,将EMR集群下的工作流(节点和调度配置)、手动任务、资源、数据源通过DataWorks迁移助手迁移至DataWorks工作空间中。您可通过DataWorks控制台迁移助手,查看迁移进度、迁移结果以及迁移报告,报告查询方法请参见查看迁移报告与结果

方式一:通过EMR控制台一键迁移

您可将存在EMR集群中的配置信息,通过EMR控制台一键迁移操作,迁移至DataWorks工作空间中,具体操作步骤如下。

  1. 登录阿里云E-MapReduce控制台
  2. 在顶部菜单栏处,根据实际情况选择地域(Region)。
  3. 单击上方的数据开发页签,进入对应实例详情页,单击项目管理,依次选择左侧项目迁移DataWorks > 选择DataWorks工作空间项目迁移
  4. EMR工作迁移DataWorks流程页面,选择对应的工作空间并填写备注,单击开始一键迁移
    说明 开始迁移后,系统将自动生成导出文件并导入DataWorks工作空间中。
    一键迁移
  5. 在弹出的提示对话框中,检查迁移前EMR项目中工作流(节点和调度配置)、手动任务、资源、数据源的类型,迁移至DataWorks工作空间后的转换关系,便于后续核对迁移内容是否完整正确,完成后单击确认
    • 原作业类型:项目在EMR时的类型。
    • DataWorks任务类型:项目迁移至DataWorks后,在DataWorks中的类型。
    迁移类型对比
  6. 系统将开始进行项目迁移,您可单击去导入列表查看迁移进度,详情请参见查看迁移报告与结果

方式二:通过DataWorks控制台导出文件后导入进行迁移

您可通过DataWorks控制台,将存储在EMR集群下的工作流(节点和调度配置)、手动任务、资源、数据源,以文件的形式导出,然后再导入至DataWorks工作空间中。不同版本的DataWorks迁移助手支持的策略不同,账号角色间也有不同的操作权限,详情请参见使用限制

说明 如您使用RAM账号进行操作,需具有AliyunEMRFullAccess,否则在选择项目名称时系统将会报错。
  1. 登录DataWorks迁移助手。
    1. 登录DataWorks控制台
    2. 在左侧导航栏,单击工作空间列表
    3. 选择工作空间所在地域后,单击相应工作空间后的进入数据开发
    4. 单击左上方的图标图标,选择全部产品 > 其他 > 迁移助手
  2. 配置导出内容。
    1. 迁移助手页面,单击左侧任务上云 > 调度引擎作业导出
    2. 调度引擎导出方案选择页面,单击EMR > 新建导出任务操作步骤
    3. 新建导出任务对话框,填写导出名称并选择需要导出的项目名称,单击开始导出
      导出作业
    4. 导出成功后,您可在调度引擎导出方案选择页面,查看导出结果。完成后单击下载导出包,将文件导出至本地。
      说明 下载链接有效期为30天,请及时下载包至本地。超期后链接将失效,您需要重新执行导出操作。
      导出方案
  3. 配置导入内容。
    1. 迁移助手页面,单击左侧任务上云 > 调度引擎作业导入 > 新建导入任务
    2. 在弹出的新建导入任务对话框,配置如下信息,并单击确认
      导入任务
      参数项名称 描述说明
      导入名称 导入任务的名称,可自定义设置。
      引擎类型 可导入的项目的引擎类型,本实例请选择阿里云EMR
      上传方式 上传文件的方式。
      • 本地上传:上传导出包文件小于或等于30 MB时,您可使用本方式上传导出包文件到DataWorks工作空间中。
      • OSS链接:上传导出包文件大于30 MB时,请将导出包文件上传至OSS存储。在OSS存储控制台文件详情页面复制URL链接,将获取到的OSS链接上传至DataWorks工作空间中。OSS上传操作请参见上传文件,获取OSS下载链接请参见分享文件下载链接
      选择文件 选择已导出的EMR项目文件,上传完成后系统将自动进行校验文件是否符合要求。
      文件名 上传的文件名称,由系统根据上传的文件名称自动生成。
      备注 导入任务的备注描述信息。
    3. 进入编辑导入任务页面后,您可浏览即将导入的内容,完成后单击开始导入
    4. 系统将开始进行项目迁移,您可单击去导入列表查看迁移进度,详情请参见查看迁移报告与结果

查看迁移报告与结果

项目迁移完成后,您可在DataWorks迁移助手中查看已执行的迁移任务进度、结果以及相关报告(导入报告、导出报告)。

  • 导入

    您可在调度引擎作业导入页面,单击对应任务操作列的查看导入报告

    导入报告入口
  • 导出

    您可在调度引擎作业导出页面,单击EMR,在该页签下单击对应任务操作列的查看导出报告

    查看报告