全部产品
Search
文档中心

大数据开发治理平台 DataWorks:准备工作:获取CDH或CDP集群信息并配置网络连通

更新时间:Jul 12, 2024

DataWorks提供了与CDH(Cloudera’s Distribution Including Apache Hadoop,以下简称CDH) 和CDP(Cloudera Data Platform,以下简称CDP)集群对接的能力,您可在DataWorks中注册CDH及CDP集群,进行任务开发、调度、数据地图(元数据管理)和数据质量等一系列的数据开发和治理操作。注册CDH或CDP集群前,您需先获取注册集群所需的配置信息,并配置集群与资源组网络连通。本文以CDH集群为例,为您介绍如何获取集群信息,并配置集群与资源组网络连通。

背景信息

  • CDH是Cloudera的开源平台发行版,提供开箱即用的集群管理、集群监控、集群诊断等功能,并支持使用多种组件,助力您执行端到端的大数据工作流程。

  • CDP是跨平台收集和整合客户数据的公共数据平台,可帮助您收集实时数据,并将其构建为单独的用户数据使用。

您可在DataWorks中注册CDH及CDP集群,基于业务需求进行相关任务开发、调度、数据地图(元数据管理)和数据质量等一系列的数据开发和治理操作。

前提条件

  • 已部署CDH集群。

    DataWorks支持使用非阿里云ECS环境部署的CDH,但需确保部署CDH的环境和阿里云专有网络可连通。通常您可使用高速通道、VPN等网络连通方案来保障网络的连通性。

  • 已购买DataWorks新版通用型资源组(推荐)或旧版独享调度资源组。

    DataWorks资源组购买后,默认与其他云产品网络不连通。在对接使用CDH时,需先保障CDH集群和资源组间网络连通,才可进行后续相关操作。

    说明
    • (推荐)新版资源组为通用型资源组,可满足多种任务类型(例如,数据同步、任务调度)的场景应用,购买详情请参见新增和使用新版通用型资源组。新用户(即在当前地域未开通过任意版本DataWorks的用户)仅支持购买新版资源组。

    • 若您已购买过旧版独享调度资源组,也可使用该资源组运行CDH或CDP任务。详情请参见使用独享调度资源组

获取CDH集群配置信息

您需按如下步骤获取CDH配置信息,用于后续在DataWorks注册CDH集群使用。

  1. 获取CDH版本信息。

    登录Cloudera Manager,在主界面集群名称右侧查看当前部署的CDH集群版本,如下图所示。cdh版本信息

  2. 获取Host地址与组件地址信息,用于注册CDH集群时配置集群连接信息。

    方式一:使用DataWorks JAR包工具获取

    1. 登录Cloudera Manager,下载工具JAR包。

      wget https://dataworks-public-tools.oss-cn-shanghai.aliyuncs.com/dw-tools.jar
    2. 运行工具JAR包。

      export PATH=$PATH:/usr/java/jdk1.8.0_181-cloudera/bin
      java -jar dw-tools.jar <user> <password>

      其中<user><password>分别是Cloudera Manager的用户名和密码。

      在运行结果中查看并记录CDH的Host地址和组件地址信息。组件信息

    方式二:在Cloudera Manager页面手动查看

    登录Cloudera Manager,在主机(Hosts)下拉菜单中选择角色(Roles),根据关键字和图标识别需要配置的服务,然后查看左侧对应的主机(Host),按照格式补全要填写的地址。默认端口号可参考方法一的输出结果样例。方法二

    其中:

    • HS2表示:HiveServer2

    • HMS表示:Hive Metastore

    • ID表示:Impala Daemon

    • RM表示:YARN ResourceManager

  3. 获取配置文件,用于后续注册CDH集群时上传使用。

    1. 登录Cloudera Manager。

    2. 状态页面,单击集群的下拉菜单中的查看客户端配置 URL配置文件

    3. 以YARN为例,在对话框中下载配置包。配置文件2

  4. 获取CDH集群的网络信息,用于后续与DataWorks独享调度资源组配置网络连通。

    1. 登录部署CDH集群的ECS控制台

    2. 在实例列表中找到部署CDH集群的ECS实例,单击实例名称进入实例详情页,查看并记录安全组专有网络虚拟交换机信息。

配置网络连通

本文以独享调度资源组示例,为您介绍资源组与CDH集群的网络连通配置。

DataWorks的独享调度资源组购买后,默认与其他云产品网络不可达,在对接使用CDH时,您需获取部署CDH集群的网络信息,将独享调度资源组绑定至CDH集群所在的VPC网络中,保障CDH集群与独享调度资源组的网络连通。

  1. 进入独享资源组网络配置页面。

    1. 登录DataWorks控制台

    2. 在左侧导航栏,单击资源组列表,默认进入独享资源组页签。

    3. 单击已购买的独享调度资源组后的网络设置

  2. 绑定VPC。

    专有网络绑定页签,单击新增绑定,在配置页面选择上述获取CDH集群配置信息:步骤4记录的CDH集群所在VPC、可用区、交换机、安全组。

  3. 配置Host。

    Host配置页签,单击批量修改,在对话框中配置为上述获取CDH集群配置信息:步骤2中记录的Host地址信息。host配置

后续步骤

完成本文准备工作后,您可开始在DataWorks注册CDH集群进行相关开发操作,详情请参见注册CDH或CDP集群至DataWorks