全部產品
Search
文件中心

DataWorks:新版資料開發:綁定CDH計算資源

更新時間:Dec 04, 2025

若您要使用DataWorks進行CDH(Cloudera’s Distribution Including Apache Hadoop,以下簡稱CDH)任務的開發、管理,需先將您的CDH叢集綁定為DataWorks的CDH計算資源。綁定完成後,可在DataWorks中使用該計算資源進行資料同步和開發等操作。

前提條件

  • 操作者使用的RAM帳號已加入工作空間並設定為工作空間管理員角色。

  • 已部署CDH叢集。

    說明

    DataWorks支援使用非阿里雲ECS環境部署的CDH,但需確保部署CDH的環境和阿里雲專用網路可連通。通常您可使用IDC資料來源網路連通方式來保障網路的連通性。

  • 已為工作空間綁定資源群組,且確保網路連通。

使用限制

  • 地區限制:支援華北2(北京)、華東2(上海)、華南1(深圳)、華東1(杭州)、華北3(張家口)、西南1(成都)、德國(法蘭克福)。

  • 許可權限制

    操作人

    具備許可權說明

    阿里雲主帳號

    無需額外授權。

    阿里雲RAM帳號/RAM角色

    • 僅擁有營運空間管理員角色的空間成員,或擁有AliyunDataWorksFullAccess許可權的空間成員可建立計算資源。授權詳情請參見授權使用者空間管理員權限

進入計算資源清單頁

  1. 登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的更多 > 管理中心,在下拉框中選擇對應工作空間後單擊進入管理中心

  2. 在左側導覽列單擊計算資源,進入計算資源清單頁。

綁定CDH計算資源

計算資源清單頁,配置綁定CDH計算資源。

  1. 選擇綁定計算資源類型。

    1. 單擊綁定計算資源,進入綁定計算資源頁面。

    2. 綁定計算資源頁面選擇計算資源類型為CDH,進入綁定CDH計算資源配置頁面。

  2. 配置CDH計算資源。

    綁定CDH計算資源配置頁面,根據下表內容進行相應配置。

    參數

    配置說明

    叢集版本

    選擇註冊的叢集版本。

    DataWorks提供的CDH 5.16.2、CDH 6.1.1、CDH 6.2.1、CDH 6.3.2、CDP 7.1.7版本您可直接選擇,該類叢集版本配套的組件版本(即叢集串連資訊中各組件的版本)固定。若該類叢集版本不滿足您的業務需要,您可選擇自訂版本,並按需配置組件版本。

    說明
    • 不同叢集版本需配置的組件存在差異,具體請以實際介面為準。

    • 使用自訂版本叢集註冊至DataWorks,僅支援使用舊版獨享調度資源群組,且註冊完成後需提交工單聯絡技術支援人員初始化相關環境。

    叢集名稱

    選擇其他工作空間中登入的叢集名稱來載入相關配置,或者自訂叢集名稱來填寫新配置。

    叢集串連資訊

    Hive串連資訊

    用於提交Hive類作業至叢集。

    • HiveServer2配置格式jdbc:hive2://<host>:<port>/<database>

    • Metastore配置格式:thrift://<host>:<port>

    參數擷取方式擷取CDH或CDP叢集資訊並配置網路連通

    組件版本選擇:系統會自動識別為當前叢集對應組件版本。

    說明

    如果使用Serverless資源群組通過網域名稱訪問CDH相關組件,則需要在Alibaba Cloud DNS的內網DNS解析 (PrivateZone)中對CDH組件網域名稱進行權威解析設定網域名稱生效範圍

    Impala串連資訊

    用於提交Impala作業。

    配置格式jdbc:impala://<host>:<port>/<schema>

    Spark串連資訊

    如需在DataWorks中使用Spark組件,您可以在此選擇預設版本並進行配置。

    Yarn串連資訊

    任務提交與查看任務詳情配置。

    • Yarn.Resourcemanager.Address配置格式http://<host>:<port>

      說明

      Spark或MapReduce任務提交地址。

    • Jobhistory.Webapp.Address配置格式http://<host>:<port2>

      說明

      配置了JobHistory Server的Web UI地址,使用者可以通過瀏覽器訪問該地址查看歷史任務的詳細資料。

    MapReduce串連資訊

    如需在DataWorks中使用MapReduce組件,您可以在此選擇預設版本並進行配置。

    Presto串連資訊

    用於提交Presto作業。

    JDBC地址資訊配置格式jdbc:presto://<host>:<port>/<catalog>/<schema>

    說明

    非CDH預設組件,需根據實際情況進行相應配置。

    叢集設定檔

    配置Core-Site檔案

    包含Hadoop Core庫的全域配置。例如,HDFS和MapReduce常用的I/O設定。

    運行Spark或MapReduce任務,需上傳該檔案。

    配置Hdfs-Site檔案

    包含HDFS的相關配置。例如,資料區塊大小、備份數量、路徑名稱等。

    配置Mapred-Site檔案

    用於配置MapReduce相關的參數。例如,配置MapReduce作業的執行方式和調度行為。

    運行MapReduce任務,需上傳該檔案。

    配置Yarn-Site檔案

    包含了與YARN守護進程相關的所有配置。例如,資源管理員、節點管理器和應用程式運行時的環境配置。

    運行Spark或MapReduce任務,或帳號映射類型選擇Kerberos時,需上傳該檔案。

    配置Hive-Site檔案

    包含了用於配置Hive的各項參數。例如,資料庫連接資訊、Hive Metastore的設定和執行引擎等。

    帳號映射類型選擇Kerberos時,需上傳該檔案。

    配置Spark-Defaults檔案

    用於指定Spark作業執行時應用的預設配置。您可通過 spark-defaults.conf 檔案預先設定一系列參數(例如,記憶體大小、CPU核心數),Spark應用程式在運行時將採用該參數配置。

    運行Spark任務,需上傳該檔案。

    配置Config.Properties檔案

    包含Presto伺服器的相關配置。例如,設定Presto叢集中協調器節點和工作節點的全域屬性。

    使用Presto組件,且帳號映射類型選擇OPEN LDAP或Kerberos時,需上傳該檔案。

    配置Presto.Jks檔案

    用於儲存安全性憑證,包括私密金鑰和頒發給應用程式的密鑰憑證。在Presto資料庫查詢引擎中,presto.jks 檔案用於為Presto進程啟用SSL/TLS加密通訊,確保資料轉送的安全。

    預設訪問身份

    如您選擇使用映射叢集帳號相關身份,可在計算資源列表頁的帳號映射頁簽設定叢集身份映射

    • 開發環境:可選擇叢集帳號,或任務執行者所映射叢集帳號

    • 生產環境:可選擇使用叢集帳號任務責任人所映射叢集帳號阿里雲主帳號所映射叢集帳號阿里雲子帳號所映射叢集帳號

    計算資源執行個體名

    自訂計算資源執行個體名。在任務運行時,可根據計算資源名稱來選擇任務啟動並執行計算資源。

  3. 單擊確認,完成CDH計算資源配置。

資源群組初始化

初次註冊叢集、叢集服務配置變更(例如:修改core-site.xml)請初始化資源群組,確保通過配置網路連通,資源群組可正常訪問CDH叢集。

  1. 計算資源列表頁,找到您所建立的CDH計算資源。單擊右上方的資源群組初始化

  2. 在需要的資源群組後面單擊初始化。資源群組初始化成功後,單擊確定即可。

(可選)設定YARN資源隊列

可在計算資源列表頁找到您所綁定的CDH叢集,在YARN 資源隊列頁簽單擊編輯YARN 資源隊列,在不同模組為任務設定專有的YARN資源隊列。

(可選)設定SPARK參數

在不同模組為任務設定專有的SPARK屬性參數。

  1. 計算資源列表頁找到您所綁定的CDH叢集。

  2. 單擊SPARK 參數頁簽的編輯SPARK 參數按鈕,進入編輯CDH叢集的SPARK參數頁。

  3. 通過單擊模組下方的添加按鈕,輸入Spark屬性名稱和對應的Spark屬性值,設定Spark屬性資訊

(可選)設定Host配置

當您使用 DataWorks 的 Serverless 資源群組在串連一個開啟了 Kerberos 認證的 CDH 叢集時,可能會遇到任務提交失敗的問題。

這是因為 Kerberos 認證機制強依賴於主機名稱 (Hostname) 來進行安全通訊。在某些網路環境下,標準的 DNS 解析服務可能無法正確地將叢集的 IP 位址解析為其在 Kerberos 中註冊的主機名稱,從而導致認證失敗。

Host配置功能允許您為 CDH 類型的計算資源手動設定一個靜態 IP-主機名稱映射表。配置後,DataWorks 在訪問您的 CDH 叢集時,會優先使用您提供的這份映射關係,確保 Kerberos 認證能夠順利通過。

  1. 找到您需要配置的 CDH 計算資源,單擊主機配置按鈕。

  2. 在彈出的對話方塊中,按照 IP地址 主機名稱 的格式輸入映射關係。每一行代表一條映射記錄

  3. 單擊確定儲存配置。

  4. 儲存後,您可以在計算資源卡片上看到已配置的主機名稱資訊,表示配置已生效。

重要
  • 格式要求IP地址主機名稱 之間必須用一個或多個空格隔開。

  • 配置完整性:請確保您已為所有參與 Kerberos 認證和任務執行的關鍵節點(如 NameNode、ResourceManager、NodeManagers 等)都配置了正確的映射關係。

  • 作用範圍:此主機配置僅對當前計算資源生效,不會影響工作空間下的其他計算資源。

後續步驟

配置完CDH計算資源後,您可在資料開發中通過CDH相關節點進行資料開發操作。