DataWorks提供了与CDH(Cloudera’s Distribution Including Apache Hadoop,以下简称CDH) 和CDP(Cloudera Data Platform,以下简称CDP)集群对接的能力,您可在DataWorks中注册CDH及CDP集群,进行任务开发、调度、数据地图(元数据管理)和数据质量等一系列的数据开发和治理操作。注册CDH或CDP集群前,您需先获取注册集群所需的配置信息,并配置集群与资源组网络连通。本文以CDH集群为例,为您介绍如何获取集群信息,并配置集群与资源组网络连通。
背景信息
CDH是Cloudera的开源平台发行版,提供开箱即用的集群管理、集群监控、集群诊断等功能,并支持使用多种组件,助力您执行端到端的大数据工作流程。
CDP是跨平台收集和整合客户数据的公共数据平台,可帮助您收集实时数据,并将其构建为单独的用户数据使用。
您可在DataWorks中注册CDH及CDP集群,基于业务需求进行相关任务开发、调度、数据地图(元数据管理)和数据质量等一系列的数据开发和治理操作。
前提条件
已部署CDH集群。
DataWorks支持使用非阿里云ECS环境部署的CDH,但需确保部署CDH的环境和阿里云专有网络可连通。通常您可使用高速通道、VPN等网络连通方案来保障网络的连通性。
已购买DataWorks新版通用型资源组(推荐)或旧版独享调度资源组。
DataWorks资源组购买后,默认与其他云产品网络不连通。在对接使用CDH时,需先保障CDH集群和资源组间网络连通,才可进行后续相关操作。
说明(推荐)新版资源组为通用型资源组,可满足多种任务类型(例如,数据同步、任务调度)的场景应用,购买详情请参见新增和使用新版通用型资源组。新用户(即在当前地域未开通过任意版本DataWorks的用户)仅支持购买新版资源组。
若您已购买过旧版独享调度资源组,也可使用该资源组运行CDH或CDP任务。详情请参见使用独享调度资源组。
获取CDH集群配置信息
您需按如下步骤获取CDH配置信息,用于后续在DataWorks注册CDH集群使用。
获取CDH版本信息。
登录Cloudera Manager,在主界面集群名称右侧查看当前部署的CDH集群版本,如下图所示。
获取Host地址与组件地址信息,用于注册CDH集群时配置集群连接信息。
方式一:使用DataWorks JAR包工具获取
登录Cloudera Manager,下载工具JAR包。
wget https://dataworks-public-tools.oss-cn-shanghai.aliyuncs.com/dw-tools.jar
运行工具JAR包。
export PATH=$PATH:/usr/java/jdk1.8.0_181-cloudera/bin java -jar dw-tools.jar <user> <password>
其中
<user>
和<password>
分别是Cloudera Manager的用户名和密码。在运行结果中查看并记录CDH的Host地址和组件地址信息。
方式二:在Cloudera Manager页面手动查看
登录Cloudera Manager,在主机(Hosts)下拉菜单中选择角色(Roles),根据关键字和图标识别需要配置的服务,然后查看左侧对应的主机(Host),按照格式补全要填写的地址。默认端口号可参考方法一的输出结果样例。
其中:
HS2表示:HiveServer2
HMS表示:Hive Metastore
ID表示:Impala Daemon
RM表示:YARN ResourceManager
获取配置文件,用于后续注册CDH集群时上传使用。
登录Cloudera Manager。
在状态页面,单击集群的下拉菜单中的查看客户端配置 URL。
以YARN为例,在对话框中下载配置包。
获取CDH集群的网络信息,用于后续与DataWorks独享调度资源组配置网络连通。
登录部署CDH集群的ECS控制台。
在实例列表中找到部署CDH集群的ECS实例,单击实例名称进入实例详情页,查看并记录安全组、专有网络、虚拟交换机信息。
配置网络连通
本文以独享调度资源组示例,为您介绍资源组与CDH集群的网络连通配置。
DataWorks的独享调度资源组购买后,默认与其他云产品网络不可达,在对接使用CDH时,您需获取部署CDH集群的网络信息,将独享调度资源组绑定至CDH集群所在的VPC网络中,保障CDH集群与独享调度资源组的网络连通。
进入独享资源组网络配置页面。
登录DataWorks控制台。
在左侧导航栏,单击资源组列表,默认进入独享资源组页签。
单击已购买的独享调度资源组后的网络设置。
绑定VPC。
在专有网络绑定页签,单击新增绑定,在配置页面选择上述获取CDH集群配置信息:步骤4记录的CDH集群所在VPC、可用区、交换机、安全组。
配置Host。
在Host配置页签,单击批量修改,在对话框中配置为上述获取CDH集群配置信息:步骤2中记录的Host地址信息。
后续步骤
完成本文准备工作后,您可开始在DataWorks注册CDH集群进行相关开发操作,详情请参见注册CDH或CDP集群至DataWorks。