DataWorks提供了與CDH(Cloudera’s Distribution Including Apache Hadoop,以下簡稱CDH) 和CDP(Cloudera Data Platform,以下簡稱CDP)叢集對接的能力,您可在DataWorks中註冊CDH及CDP叢集,進行任務開發、調度、資料地圖(中繼資料管理)和資料品質等一系列的資料開發和治理操作。註冊CDH或CDP叢集前,您需先擷取註冊叢集所需的配置資訊,並配置叢集與資源群組網路連通。本文以CDH叢集為例,為您介紹如何擷取叢集資訊,並配置叢集與資源群組網路連通。
背景資訊
-
CDH是Cloudera的開源平台發行版,提供開箱即用的叢集管理、叢集監控、叢集診斷等功能,並支援使用多種組件,助力您執行端到端的巨量資料工作流程。
-
CDP是跨平台收集和整合客戶資料的公用資料平台,可協助您收集即時資料,並將其構建為單獨的使用者資料使用。
您可在DataWorks中註冊CDH及CDP叢集,基於業務需求進行相關任務開發、調度、資料地圖(中繼資料管理)和資料品質等一系列的資料開發和治理操作。
前提條件
-
已部署CDH叢集。
DataWorks支援使用非阿里雲ECS環境部署的CDH,但需確保部署CDH的環境和阿里雲專用網路可連通。通常您可使用Express Connect、VPN等網路連通方案來保障網路的連通性。
-
已購買DataWorks新版Serverless資源群組(推薦)或舊版獨享調度資源群組。
DataWorks資源群組購買後,預設與其他雲產品網路不連通。在對接使用CDH時,需先保障CDH叢集和資源群組間網路連通,才可進行後續相關操作。
說明-
Serverless資源群組(推薦)為通用型資源群組,可滿足多種任務類型(例如,資料同步、任務調度)的情境應用,購買詳情請參見使用Serverless資源群組。新使用者(即在當前地區未開通過任意版本DataWorks的使用者)僅支援購買新版資源群組。
-
若您已購買過舊版獨享調度資源群組,也可使用該資源群組運行CDH或CDP任務。詳情請參見使用獨享調度資源群組。
-
擷取CDH叢集配置資訊
您需按如下步驟擷取CDH配置資訊,用於後續在DataWorks註冊CDH叢集使用。
-
擷取CDH版本資訊。
登入Cloudera Manager,在主介面叢集名稱右側查看當前部署的CDH叢集版本。登入 Cloudera Manager,在首頁左側叢集面板中可查看 CDH 版本資訊,例如 Cluster 1(CDH 6.1.1, Parcel),同時可確認各服務(HBase、HDFS、Hive、Hue、Impala、Oozie、Solr、Spark、YARN、ZooKeeper 等)的運行狀態。
-
擷取Host地址與組件地址資訊,用於註冊CDH叢集時配置叢集串連資訊。
在Cloudera Manager頁面手動查看
登入Cloudera Manager,在主機(Hosts)下拉式功能表中選擇角色(Roles),根據關鍵字和表徵圖識別需要配置的服務,然後查看左側對應的主機(Host),按照格式補全要填寫的地址。在 Cloudera Manager 頂部導覽列中,單擊主機 > 角色,進入角色頁面。頁面按分配了相同角色的主機分組顯示,其中 cdh-header-1-cn-shanghai 主機分配了 HMS、HS2、RM 等角色,cdh-worker-[1-2]-cn-shanghai 主機分配了 ID 等角色。
其中:
-
HS2表示:HiveServer2
-
HMS表示:Hive Metastore
-
ID表示:Impala Daemon
-
RM表示:YARN ResourceManager
-
-
擷取設定檔,用於後續註冊CDH叢集時上傳使用。
-
登入Cloudera Manager。
-
在狀態頁面,單擊叢集的下拉式功能表中的查看用戶端配置 URL。
-
以YARN為例,在對話方塊中下載配置包。彈窗中展示各服務的用戶端配置下載連結,包括 YARN (MR2 Included)、HBase、Solr、HDFS、Hive 等服務。單擊目標服務(如 YARN (MR2 Included))對應的下載表徵圖即可擷取用戶端設定檔。
-
-
擷取CDH叢集的網路資訊,用於後續與DataWorks資源群組配置網路連通。
-
登入部署CDH叢集的ECS控制台。
-
在執行個體列表中找到部署CDH叢集的ECS執行個體,單擊執行個體名稱進入執行個體詳情頁,查看並記錄安全性群組、專用網路、虛擬交換器資訊。
-
配置網路連通
Serverless資源群組
本文以Serverless資源群組樣本,為您介紹資源群組與CDH叢集的網路連通配置。
DataWorks的Serverless資源群組購買後,預設與其他雲產品網路不可達,在對接使用CDH時,您需擷取部署CDH叢集的網路資訊,將資源群組綁定至CDH叢集所在的VPC網路中,保障CDH叢集與資源群組的網路連通。
-
進入Serverless資源群組網路設定頁面。
-
登入DataWorks控制台。
-
在左側導覽列,單擊資源組,預設進入資源群組列表的獨享資源組頁簽。
-
單擊已購買資源群組後的網絡設置。
-
-
綁定VPC。
在專有網絡綁定頁簽下面的資料調度 & Data Integration裡,單擊新增綁定,在配置頁面選擇上述擷取CDH叢集配置資訊:步驟4記錄的CDH叢集所在VPC、可用性區域、交換器。
-
配置Host。
進入Alibaba Cloud DNS控制台。將擷取CDH叢集配置資訊:步驟2中記錄的Host地址資訊,在Alibaba Cloud DNS的內網DNS解析 (PrivateZone)中進行權威解析。
-
開通內網DNS解析,詳情請參見開通內網DNS解析。
說明如已開通內網DNS解析您可忽略此步驟。
-
添加內建權威網域名稱,詳情請參見添加內建權威網域名稱。
說明-
本文以在Cloudera Manager頁面手動查看擷取的主機網域名稱
cdh-header-1-cn-shanghai為例,對網域名稱cdh-header-1-cn-shanghai進行權威解析,您可根據自己主機網域名稱配置情況調整該參數。 -
解析的IP為CDH叢集所在的ECS執行個體
私人IP地址。
-
-
設定網域名稱生效範圍,詳情請參見設定網域名稱生效範圍。
說明設定網域名稱生效範圍的VPC時,您需選擇CDH叢集、資源群組綁定的VPC。
-
獨享調度資源群組
本文以獨享調度資源群組樣本,為您介紹資源群組與CDH叢集的網路連通配置。
DataWorks的獨享調度資源群組購買後,預設與其他雲產品網路不可達,在對接使用CDH時,您需擷取部署CDH叢集的網路資訊,將獨享調度資源群組綁定至CDH叢集所在的VPC網路中,保障CDH叢集與獨享調度資源群組的網路連通。
-
進入獨享資源群組網路設定頁面。
-
登入DataWorks控制台。
-
在左側導覽列,單擊資源組,預設進入資源群組列表的獨享資源組頁簽。
-
單擊已購買的獨享調度資源群組後的網絡設置。
-
-
綁定VPC。
在專有網絡綁定頁簽,單擊新增綁定,在配置頁面選擇上述擷取CDH叢集配置資訊:步驟4記錄的CDH叢集所在VPC、可用性區域、交換器、安全性群組。
-
配置Host。
在Host配置頁簽,單擊批核修改,在對話方塊中配置為上述擷取CDH叢集配置資訊:步驟2中記錄的Host地址資訊。
後續步驟
完成本文準備工作後,您可開始在DataWorks註冊CDH叢集進行相關開發操作,詳情請參見舊版資料開發:綁定CDH計算資源。