全部產品
Search
文件中心

DataWorks:基於自建Hadoop叢集進行任務開發

更新時間:Oct 29, 2025

本文為您介紹如何在DataWorks綁定自建 Hadoop 叢集並進行任務開發,以及如何自訂自建叢集運行環境。

背景資訊

您可通過註冊CDH叢集時配置自建Hadoop叢集服務地址的方式,在DataWorks訪問您自建的Hadoop叢集,並通過DataWorks預設CDH鏡像構建符合您叢集組件版本的DataWorks運行環境,實現在DataWorks上調度運行您的自建Hadoop叢集作業。

前置條件

在進行建立自訂鏡像前,需完成對叢集環境、DataWorks環境以及OSSObject Storage Service的準備。

  • 已存在自建的Hadoop叢集。

  • 已開通DataWorks產品,並已建立DataWorks工作空間Serverless資源群組

    若需從OSS的公網地址下載安裝包,則Serverless資源群組需具備公網訪問能力,請為Serverless資源群組開通NAT Gateway,詳情請參見:網路連通方案概述

  • 已開通OSS產品,並建立Bucket,用於上傳儲存需自訂的Spark安裝包Hadoop安裝包,並提供給自訂鏡像的指令碼進行擷取。

步驟一:綁定自建叢集至DataWorks

請將您自建Hadoop叢集綁定至DataWorks作為計算資源,由於使用新版資料開發(Data Studio)的空間與使用新版資料開發(Data Studio)的空間綁定方式不一樣,所以請按照您空間實際環境,參考對應的文檔進行綁定。

步驟二:自訂自建叢集運行環境

DataWorks支援您在DataWorks預設的CDH官方鏡像基礎上,構建自訂鏡像,作為您自建叢集在DataWorks上的任務運行環境。請按照以下準備安裝包,並構建新鏡像。

準備自訂叢集環境安裝包

在建立自訂鏡像之前,您需要擷取所需的組件安裝包。這些安裝包可以通過從現有的自建Hadoop叢集中提取,或者直接下載所需組件的安裝包來獲得。擷取到安裝包後,請將其上傳至OSSObject Storage Service中。

  1. 擷取自訂群組件安裝包。

    • 在自建Hadoop叢集中找到所需自訂群組件的安裝目錄,提取安裝包。

    • 下載對應版本的自訂群組件的安裝包。

      本樣本以開源的 Spark 安裝包和 Hadoop 安裝包為例進行示範,以下為Spark和Hadoop安裝包的擷取地址。

      說明

      本示將擷取Spark-3.4.2版本Hadoop-3.2.1版本的安裝包,以供後續安裝使用。

  2. 上傳擷取到的Spark和Hadoop安裝包至OSSObject Storage Service中。

基於安裝包構建新鏡像

建立自訂鏡像需要通過編寫指令碼來下載儲存在OSSObject Storage Service中的Spark和Hadoop安裝包,然後將這些開源包安裝到CDH鏡像中。完成安裝後,構建並發布自訂鏡像,以便在資料開發過程中使用。

  1. 建立自訂鏡像。

    1. 登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的鏡像管理,切換頁簽至自訂鏡像

    2. 單擊建立鏡像按鈕,進行建立鏡像,以下為建立自訂鏡像的關鍵參數,更多參數詳情請參見:鏡像管理

      配置項

      說明

      樣本內容

      鏡像名稱/ID

      在此處支援選擇多種不同鏡像,基於Hadoop叢集的鏡像可選擇DataWorks官方鏡像提供的CDH官方鏡像。

      下拉選擇:dataworks_cdh_custom_task_pod

      支援任務類型

      CDH鏡像支援CDH HiveCDH SparkCDH Spark SQLCDH MRCDH Presto以及CDH Impala類型的任務,您可根據需求選擇任務類型。

      本樣本選擇CDH鏡像的所有任務類型。

      安裝包

      • 在安裝包配置項中,需要您通過指令碼將下載並上傳至OSS中的Hadoop安裝包以及Spark安裝包下載並安裝

      • 您可按需對樣本內容中的安裝包進行自訂替換

      下拉選擇:Script

      自訂指令碼代碼。

      mkdir -p /opt/taobao/tbdpapp/cdh/custom
      
      wget -O spark-3.4.2-bin-hadoop3.tgz "{OSS 下載地址}"
      tar zxf spark-3.4.2-bin-hadoop3.tgz
      mv spark-3.4.2-bin-hadoop3 /opt/taobao/tbdpapp/cdh/custom
      
      wget -O hadoop-3.2.1.tar.gz "{OSS 下載地址}"
      tar zxf hadoop-3.2.1.tar.gz
      mv hadoop-3.2.1 /opt/taobao/tbdpapp/cdh/custom
      
      echo "\nexport PATH=/opt/taobao/tbdpapp/cdh/custom/hadoop-3.2.1/bin:/opt/taobao/tbdpapp/cdh/custom/spark-3.4.2-bin-hadoop3/bin:$PATH" >> /home/admin/.bashrc
      說明
      • {OSS 下載地址}替換為實際的下載地址,檔案下載地址詳情可參見:使用檔案URL

        • OSS檔案為公用讀取時:設定檔下載地址即可。

        • OSS檔案為私人時:設定檔下載地址,確保檔案並未失效。

      • 本範例程式碼中的版本僅供參考,請以上傳至OSS內的組件安裝包為準。

    3. 配置完成後,單擊確定建立鏡像。

  2. 構建發布自訂鏡像。

    完成自訂鏡像配置後,需要將鏡像構建發布後,才可在資料開發中選擇使用,以下為建立好的鏡像構建發布流程:

    1. 完成自訂鏡像建立後,單擊操作列的發布按鈕進行測試發布。

      image

    2. 在鏡像發佈頁面,下拉選擇測試資源群組,對鏡像進行測試,測試成功後,單擊發布,即可發布鏡像。

      image

    說明

    若需從OSS的公網地址下載安裝包,則測試資源群組需具備公網訪問能力,請為Serverless資源群組開通NAT Gateway,詳情請參見:網路連通方案概述

步驟三:使用自訂環境運行任務

鏡像發布後,即可在資料開發中使用自訂鏡像,根據是否使用新版資料開發(Data Studio),選擇不同的使用方法,您可參考以下內容:

登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的資料開發與營運 > 資料開發,在下拉框中選擇對應工作空間後單擊進入Data Studio/資料開發

在資料開發(Data Studio)(新版)運行

  1. 建立CDH節點。

    在Data Studio頁面,單擊image按鈕,選擇建立節點 > CDH > CDH Hive,輸入節點名,斷行符號建立CDH Hive節點。

    image

  2. 配置CDH Hive節點鏡像。

    • 調試配置

      1. 雙擊CDH Hive節點名,進入節點編輯頁面,單擊右側調試配置,進入調試配置頁面。

      2. 切換至DataWorks配置頁簽,將鏡像切換至建立的鏡像。

        • 資源群組:選擇Serverless資源群組。

        • 鏡像:選擇發行並綁定了當前工作空間的自訂鏡像。

      image

    • 調度配置

      1. 雙擊CDH Hive節點名,進入節點編輯頁面,單擊右側調度配置,進入調度配置頁面。

      2. 切換至調度策略頁簽,進行配置。

        • 調度資源群組:選擇Serverless資源群組。

        • 鏡像:選擇發行並綁定了當前工作空間的自訂鏡像。

        image

說明
  • CHD鏡像支援節點:CDH HiveCDH SparkCDH Spark SQLCDH MRCDH PrestoCDH Impala

  • 為確保任務節點順利運行,請確保調度資源群組發布鏡像時選擇的測試資源群組一致。

  • 如果此處未顯示目標資源群組,請檢查是否將該資源群組綁定至當前工作空間。您可以前往資源群組列表頁,找到目標資源群組,然後單擊操作列的綁定工作空間,完成綁定。

在資料開發(DataStudio)運行

  1. 建立CDH節點。

    1. 單擊image按鈕,選擇建立節點 > CDH > CDH Hive

      配置項

      配置內容

      引擎執行個體

      選擇綁定自建叢集至DataWorks時註冊的CDH叢集。

      節點類型

      CDH Hive

      路徑

      • 可選擇該CDH Hive節點存放的流程。

      • 本樣本選擇:Workflow

      名稱

      自訂節點名稱。

      配置完成後,單擊確定即可建立節點。

    2. 雙擊CDH Hive節點名,進入節點編輯頁面。

      開發完成CDH Hive代碼後,即可測試在鏡像上運行,為節點配置鏡像。

      • 帶參運行。

        單擊上方image按鈕,進入節點測試回合配置參數彈窗,在彈窗內配置已建立的dw_cdh_mirroring即可。

        • 資源群組名稱:選擇Serverless資源群組。

        • 鏡像:選擇發行並綁定了當前工作空間的自訂鏡像。

        image

      • 調度配置。

        單擊上方image按鈕,進入節點測試回合配置參數彈窗,在彈窗內配置已建立的dw_cdh_mirroring即可。

        • 調度資源群組:選擇Serverless資源群組。

        • 鏡像:選擇發行並綁定了當前工作空間的自訂鏡像。

        image

說明
  • CHD鏡像支援節點:CDH HiveCDH SparkCDH Spark SQLCDH MRCDH PrestoCDH Impala

  • 為確保任務節點順利運行,請確保調度資源群組發布鏡像時選擇的測試資源群組一致。

  • 如果此處未顯示目標資源群組,請檢查是否將該資源群組綁定至當前工作空間。您可以前往資源群組列表頁,找到目標資源群組,然後單擊操作列的綁定工作空間,完成綁定。