本文為您介紹如何在DataWorks綁定自建 Hadoop 叢集並進行任務開發,以及如何自訂自建叢集運行環境。
背景資訊
您可通過註冊CDH叢集時配置自建Hadoop叢集服務地址的方式,在DataWorks訪問您自建的Hadoop叢集,並通過DataWorks預設CDH鏡像構建符合您叢集組件版本的DataWorks運行環境,實現在DataWorks上調度運行您的自建Hadoop叢集作業。
前置條件
在進行建立自訂鏡像前,需完成對叢集環境、DataWorks環境以及OSSObject Storage Service的準備。
已存在自建的Hadoop叢集。
已開通DataWorks產品,並已建立DataWorks工作空間和Serverless資源群組。
若需從OSS的公網地址下載安裝包,則Serverless資源群組需具備公網訪問能力,請為Serverless資源群組開通NAT Gateway,詳情請參見:網路連通方案概述。
已開通OSS產品,並建立Bucket,用於上傳儲存需自訂的Spark安裝包和Hadoop安裝包,並提供給自訂鏡像的指令碼進行擷取。
步驟一:綁定自建叢集至DataWorks
請將您自建Hadoop叢集綁定至DataWorks作為計算資源,由於使用新版資料開發(Data Studio)的空間與未使用新版資料開發(Data Studio)的空間綁定方式不一樣,所以請按照您空間實際環境,參考對應的文檔進行綁定。
資料開發(Data Studio)(新版):綁定計算資源。
資料開發(DataStudio):舊版資料開發:綁定CDH計算資源。
步驟二:自訂自建叢集運行環境
DataWorks支援您在DataWorks預設的CDH官方鏡像基礎上,構建自訂鏡像,作為您自建叢集在DataWorks上的任務運行環境。請按照以下準備安裝包,並構建新鏡像。
準備自訂叢集環境安裝包
在建立自訂鏡像之前,您需要擷取所需的組件安裝包。這些安裝包可以通過從現有的自建Hadoop叢集中提取,或者直接下載所需組件的安裝包來獲得。擷取到安裝包後,請將其上傳至OSSObject Storage Service中。
擷取自訂群組件安裝包。
在自建Hadoop叢集中找到所需自訂群組件的安裝目錄,提取安裝包。
下載對應版本的自訂群組件的安裝包。
本樣本以開源的 Spark 安裝包和 Hadoop 安裝包為例進行示範,以下為Spark和Hadoop安裝包的擷取地址。
Spark開源包下載地址:Spark開源包下載。
Hadoop開源包下載地址:Hadoop開源包下載。
說明本示將擷取
Spark-3.4.2版本和Hadoop-3.2.1版本的安裝包,以供後續安裝使用。
上傳擷取到的Spark和Hadoop安裝包至OSSObject Storage Service中。
基於安裝包構建新鏡像
建立自訂鏡像需要通過編寫指令碼來下載儲存在OSSObject Storage Service中的Spark和Hadoop安裝包,然後將這些開源包安裝到CDH鏡像中。完成安裝後,構建並發布自訂鏡像,以便在資料開發過程中使用。
建立自訂鏡像。
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的鏡像管理,切換頁簽至自訂鏡像。
單擊建立鏡像按鈕,進行建立鏡像,以下為建立自訂鏡像的關鍵參數,更多參數詳情請參見:鏡像管理。
配置項
說明
樣本內容
鏡像名稱/ID
在此處支援選擇多種不同鏡像,基於Hadoop叢集的鏡像可選擇DataWorks官方鏡像提供的CDH官方鏡像。
下拉選擇:
dataworks_cdh_custom_task_pod。支援任務類型
CDH鏡像支援
CDH Hive、CDH Spark、CDH Spark SQL、CDH MR、CDH Presto以及CDH Impala類型的任務,您可根據需求選擇任務類型。本樣本選擇CDH鏡像的所有任務類型。
安裝包
在安裝包配置項中,需要您通過指令碼將下載並上傳至OSS中的Hadoop安裝包以及Spark安裝包下載並安裝。
您可按需對樣本內容中的安裝包進行自訂替換。
下拉選擇:Script。
配置完成後,單擊確定建立鏡像。
構建發布自訂鏡像。
完成自訂鏡像配置後,需要將鏡像構建發布後,才可在資料開發中選擇使用,以下為建立好的鏡像構建發布流程:
完成自訂鏡像建立後,單擊操作列的發布按鈕進行測試發布。

在鏡像發佈頁面,下拉選擇測試資源群組,對鏡像進行測試,測試成功後,單擊發布,即可發布鏡像。

說明若需從OSS的公網地址下載安裝包,則測試資源群組需具備公網訪問能力,請為Serverless資源群組開通NAT Gateway,詳情請參見:網路連通方案概述。
步驟三:使用自訂環境運行任務
鏡像發布後,即可在資料開發中使用自訂鏡像,根據是否使用新版資料開發(Data Studio),選擇不同的使用方法,您可參考以下內容:
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的,在下拉框中選擇對應工作空間後單擊進入Data Studio/資料開發。
按鈕,選擇


按鈕,選擇
按鈕,進入節點測試回合配置參數彈窗,在彈窗內配置已建立的
按鈕,進入節點測試回合配置參數彈窗,在彈窗內配置已建立的