若您要使用DataWorks進行CDH(Cloudera’s Distribution Including Apache Hadoop,以下簡稱CDH)任務的開發、管理,需先將您的CDH叢集綁定為DataWorks的CDH計算資源。綁定完成後,可在DataWorks中使用該計算資源進行資料同步和開發等操作。
前提條件
操作者使用的RAM帳號已加入工作空間並設定為工作空間管理員角色。
已部署CDH叢集。
說明DataWorks支援使用非阿里雲ECS環境部署的CDH,但需確保部署CDH的環境和阿里雲專用網路可連通。通常您可使用IDC資料來源網路連通方式來保障網路的連通性。
已為工作空間綁定資源群組,且確保網路連通。
使用Serverless資源群組時,只需確保CDH計算資源與Serverless資源群組連通性正常即可。
使用舊版獨享型資源群組時,需確保CDH計算資源與對應情境下的獨享調度資源群組連通性正常。
使用限制
地區限制:支援華北2(北京)、華東2(上海)、華南1(深圳)、華東1(杭州)、華北3(張家口)、西南1(成都)、德國(法蘭克福)。
許可權限制:
操作人
具備許可權說明
阿里雲主帳號
無需額外授權。
阿里雲RAM帳號/RAM角色
僅擁有營運和空間管理員角色的空間成員,或擁有
AliyunDataWorksFullAccess許可權的空間成員可建立計算資源。授權詳情請參見授權使用者空間管理員權限。
進入計算資源清單頁
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的,在下拉框中選擇對應工作空間後單擊進入管理中心。
在左側導覽列單擊計算資源,進入計算資源清單頁。
綁定CDH計算資源
在計算資源清單頁,配置綁定CDH計算資源。
選擇綁定計算資源類型。
單擊綁定計算資源,進入綁定計算資源頁面。
在綁定計算資源頁面選擇計算資源類型為CDH,進入綁定CDH計算資源配置頁面。
配置CDH計算資源。
在綁定CDH計算資源配置頁面,根據下表內容進行相應配置。
參數
配置說明
叢集版本
選擇註冊的叢集版本。
DataWorks提供的CDH 5.16.2、CDH 6.1.1、CDH 6.2.1、CDH 6.3.2、CDP 7.1.7版本您可直接選擇,該類叢集版本配套的組件版本(即叢集串連資訊中各組件的版本)固定。若該類叢集版本不滿足您的業務需要,您可選擇自訂版本,並按需配置組件版本。
說明不同叢集版本需配置的組件存在差異,具體請以實際介面為準。
使用自訂版本叢集註冊至DataWorks,僅支援使用舊版獨享調度資源群組,且註冊完成後需提交工單聯絡技術支援人員初始化相關環境。
叢集名稱
選擇其他工作空間中登入的叢集名稱來載入相關配置,或者自訂叢集名稱來填寫新配置。
叢集串連資訊
Hive串連資訊
用於提交Hive類作業至叢集。
HiveServer2配置格式:
jdbc:hive2://<host>:<port>/<database>Metastore配置格式:
thrift://<host>:<port>
參數擷取方式:擷取CDH或CDP叢集資訊並配置網路連通
組件版本選擇:系統會自動識別為當前叢集對應組件版本。
說明如果使用Serverless資源群組通過網域名稱訪問CDH相關組件,則需要在Alibaba Cloud DNS的內網DNS解析 (PrivateZone)中對CDH組件網域名稱進行權威解析並設定網域名稱生效範圍。
Impala串連資訊
用於提交Impala作業。
配置格式:
jdbc:impala://<host>:<port>/<schema>。Spark串連資訊
如需在DataWorks中使用Spark組件,您可以在此選擇預設版本並進行配置。
Yarn串連資訊
任務提交與查看任務詳情配置。
Yarn.Resourcemanager.Address配置格式:
http://<host>:<port>說明Spark或MapReduce任務提交地址。
Jobhistory.Webapp.Address配置格式:
http://<host>:<port2>說明配置了JobHistory Server的Web UI地址,使用者可以通過瀏覽器訪問該地址查看歷史任務的詳細資料。
MapReduce串連資訊
如需在DataWorks中使用MapReduce組件,您可以在此選擇預設版本並進行配置。
Presto串連資訊
用於提交Presto作業。
JDBC地址資訊配置格式:
jdbc:presto://<host>:<port>/<catalog>/<schema>說明非CDH預設組件,需根據實際情況進行相應配置。
叢集設定檔
配置Core-Site檔案
包含Hadoop Core庫的全域配置。例如,HDFS和MapReduce常用的I/O設定。
運行Spark或MapReduce任務,需上傳該檔案。
配置Hdfs-Site檔案
包含HDFS的相關配置。例如,資料區塊大小、備份數量、路徑名稱等。
配置Mapred-Site檔案
用於配置MapReduce相關的參數。例如,配置MapReduce作業的執行方式和調度行為。
運行MapReduce任務,需上傳該檔案。
配置Yarn-Site檔案
包含了與YARN守護進程相關的所有配置。例如,資源管理員、節點管理器和應用程式運行時的環境配置。
運行Spark或MapReduce任務,或帳號映射類型選擇Kerberos時,需上傳該檔案。
配置Hive-Site檔案
包含了用於配置Hive的各項參數。例如,資料庫連接資訊、Hive Metastore的設定和執行引擎等。
帳號映射類型選擇Kerberos時,需上傳該檔案。
配置Spark-Defaults檔案
用於指定Spark作業執行時應用的預設配置。您可通過
spark-defaults.conf檔案預先設定一系列參數(例如,記憶體大小、CPU核心數),Spark應用程式在運行時將採用該參數配置。運行Spark任務,需上傳該檔案。
配置Config.Properties檔案
包含Presto伺服器的相關配置。例如,設定Presto叢集中協調器節點和工作節點的全域屬性。
使用Presto組件,且帳號映射類型選擇OPEN LDAP或Kerberos時,需上傳該檔案。
配置Presto.Jks檔案
用於儲存安全性憑證,包括私密金鑰和頒發給應用程式的密鑰憑證。在Presto資料庫查詢引擎中,
presto.jks檔案用於為Presto進程啟用SSL/TLS加密通訊,確保資料轉送的安全。預設訪問身份
如您選擇使用映射叢集帳號相關身份,可在計算資源列表頁的帳號映射頁簽設定叢集身份映射。
開發環境:可選擇叢集帳號,或任務執行者所映射叢集帳號。
生產環境:可選擇使用叢集帳號,任務責任人所映射叢集帳號、阿里雲主帳號所映射叢集帳號或阿里雲子帳號所映射叢集帳號。
計算資源執行個體名
自訂計算資源執行個體名。在任務運行時,可根據計算資源名稱來選擇任務啟動並執行計算資源。
單擊確認,完成CDH計算資源配置。
資源群組初始化
初次註冊叢集、叢集服務配置變更(例如:修改core-site.xml)請初始化資源群組,確保通過配置網路連通,資源群組可正常訪問CDH叢集。
在計算資源列表頁,找到您所建立的CDH計算資源。單擊右上方的資源群組初始化。
在需要的資源群組後面單擊初始化。資源群組初始化成功後,單擊確定即可。
(可選)設定YARN資源隊列
您可在計算資源列表頁找到您所綁定的CDH叢集,在YARN 資源隊列頁簽單擊編輯YARN 資源隊列,在不同模組為任務設定專有的YARN資源隊列。
(可選)設定SPARK參數
在不同模組為任務設定專有的SPARK屬性參數。
在計算資源列表頁找到您所綁定的CDH叢集。
單擊SPARK 參數頁簽的編輯SPARK 參數按鈕,進入編輯CDH叢集的SPARK參數頁。
通過單擊模組下方的添加按鈕,輸入Spark屬性名稱和對應的Spark屬性值,設定Spark屬性資訊。
(可選)設定Host配置
當您使用 DataWorks 的 Serverless 資源群組在串連一個開啟了 Kerberos 認證的 CDH 叢集時,可能會遇到任務提交失敗的問題。
這是因為 Kerberos 認證機制強依賴於主機名稱 (Hostname) 來進行安全通訊。在某些網路環境下,標準的 DNS 解析服務可能無法正確地將叢集的 IP 位址解析為其在 Kerberos 中註冊的主機名稱,從而導致認證失敗。
Host配置功能允許您為 CDH 類型的計算資源手動設定一個靜態 IP-主機名稱映射表。配置後,DataWorks 在訪問您的 CDH 叢集時,會優先使用您提供的這份映射關係,確保 Kerberos 認證能夠順利通過。
找到您需要配置的 CDH 計算資源,單擊主機配置按鈕。
在彈出的對話方塊中,按照
IP地址 主機名稱的格式輸入映射關係。每一行代表一條映射記錄。單擊確定儲存配置。
儲存後,您可以在計算資源卡片上看到已配置的主機名稱資訊,表示配置已生效。
格式要求:
IP地址和主機名稱之間必須用一個或多個空格隔開。配置完整性:請確保您已為所有參與 Kerberos 認證和任務執行的關鍵節點(如 NameNode、ResourceManager、NodeManagers 等)都配置了正確的映射關係。
作用範圍:此主機配置僅對當前計算資源生效,不會影響工作空間下的其他計算資源。
後續步驟
配置完CDH計算資源後,您可在資料開發中通過CDH相關節點進行資料開發操作。