全部产品
Search
文档中心

大数据开发治理平台 DataWorks:注册CDH或CDP集群至DataWorks

更新时间:Dec 12, 2023

DataWorks提供了与CDH(Cloudera’s Distribution Including Apache Hadoop,以下简称CDH) 和CDP(Cloudera Data Platform,以下简称CDP)集群对接的能力,您可在DataWorks中注册CDH及CDP集群,进行任务开发、调度、数据地图(元数据管理)和数据质量等一系列的数据开发和治理操作。

背景信息

  • CDH是Cloudera的开源平台发行版,提供开箱即用的集群管理、集群监控、集群诊断等功能,并支持使用多种组件,助力您执行端到端的大数据工作流程。

  • CDP是跨平台收集和整合客户数据的公共数据平台,可帮助您收集实时数据,并将其构建为单独的用户数据使用。

您可在DataWorks中注册CDH及CDP集群,基于业务需求进行相关任务开发、调度、数据地图(元数据管理)和数据质量等一系列的数据开发和治理操作。

前提条件

使用限制

  • 仅支持使用独享调度资源组运行CDH或CDP集群任务。

  • 仅支持在DataWorks注册CDH5.16.2、CDH6.1.1、CDH6.2.1、CDH6.3.2、CDP7.1.7版本集群。

  • 仅支持华北2(北京)、华东2(上海)、华东1(杭州)、华南1(深圳)、华北3(张家口)、西南1(成都)地域注册CDH或CDP集群。

步骤一:进入集群注册页面

  1. 进入管理中心页面。

    登录DataWorks控制台,单击左侧导航栏的管理中心,在下拉框中选择对应工作空间后单击进入管理中心

  1. 在左侧导航栏单击开源集群 > 注册集群,选择CDH,进入集群注册页面。

步骤二:注册CDH或CDP集群

说明
  • 标准模式工作空间,需分别注册开发环境集群和生产环境集群。工作空间模式介绍,详情请参见必读:简单模式和标准模式的区别

  • CDP与CDH基于DataWorks的开发操作基本一致,本文以CDH为例,为您介绍在DataWorks如何注册CDH集群。

  1. 配置集群基本信息。

    参数

    描述

    集群显示名称

    定义集群在DataWorks的名称,名称必须唯一。

    集群版本

    选择注册的集群版本。

    当前支持选择CDH5.16.2、CDH6.1.1、CDH6.2.1、CDH6.3.2、CDP7.1.7版本。不同版本需配置的参数存在差异,具体请以实际配置界面为准。

    集群名称

    用于确定当前所注册集群的配置信息来源。可选择其他工作空间已注册的集群或新建集群:

    • 已注册集群:当前所注册集群的配置信息,直接引用其他工作空间已注册集群的配置信息。

    • 新建集群:当前注册集群的配置信息需您自行配置。

  2. 配置集群连接信息。

    根据实际使用情况选择对应集群的组件版本,并输入获取到的组件地址信息。获取组件信息,详情请参见准备工作:获取CDH或CDP集群信息并配置网络连通image.png

  3. 添加集群配置文件。

    您可根据需要上传所需组件的配置文件。获取配置文件,详情请参见准备工作:获取CDH或CDP集群信息并配置网络连通

    image.png

  4. 配置集群默认访问身份。

    用于配置在DataWorks运行CDH集群任务时,使用什么账号访问CDH集群,不同环境支持使用的账号存在差异,具体如下。

    说明

    当注册集群时,默认访问身份配置为非集群账号,若该账号未设置账号映射或设置的映射类型选择无认证方式,则任务均会执行失败。

    环境

    默认访问身份

    相关文档

    开发环境

    • 集群账号:无论谁在DataWorks运行CDH任务(例如,阿里云主账号、只拥有开发权限的子账号),实际统一使用指定集群账号访问CDH集群。

    • 映射账号:使用任务执行者运行CDH任务时,需配置任务执行者账号与集群账号的映射关系,配置后,则运行任务时实际使用该映射账号访问CDH集群。

    配置账号映射关系,详情请参见设置集群身份映射

    生产环境

    • 集群账号:无论谁在DataWorks运行CDH任务(例如,阿里云主账号、只拥有开发权限的子账号),实际统一使用指定集群账号访问CDH集群。

    • 映射账号:使用任务责任人、阿里云主账号、阿里云子账号运行CDH任务时,需配置相应账号与集群账号的映射关系,配置后,则运行任务时实际使用该映射账号访问CDH集群。

  5. 单击完成注册,即成功在DataWorks中注册集群。

步骤三:资源组初始化

初次绑定集群、集群服务配置变更组件版本升级(例如:修改core-site.xml)请初始化资源组,确保资源组可正常访问CDH集群,资源组当前环境配置可正常执行CDH集群任务。在开源集群页面,找到已注册的CDH集群,单击右上角的资源组初始化选择所需资源组并进行初始化操作。

说明
  • DataWorks仅支持使用独享调度资源组运行CDH集群任务,因此,此处仅支持选择独享调度资源组进行初始化操作。

  • 若无可用资源组,请根据需要新建。创建资源组,详情请参见新增和使用独享调度资源组

后续步骤

  • 设置集群身份映射:当CDH集群默认访问身份非指定集群账号时(即通过DataWorks云账号访问),您需配置DataWorks云账号与集群账号的映射关系,使DataWorks云账号可通过映射的集群指定身份访问CDH集群,实现相关数据权限的隔离和管控。

  • 数据开发:您可在DataStudio(数据开发)中创建Hive、Spark、MapReduce、Impala或者Presto任务节点,进行相关开发操作。详情请参见使用DataWorks进行数据开发