在DataWorks任務開發中,您可以通過建立CDH MR(MapReduce)節點處理超大規模的資料集。本文為您介紹如何在DataWorks中建立並使用CDH MR節點。
前提條件
-
資料開發(DataStudio)中已建立商務程序。
資料開發(DataStudio)基於商務程序對不同開發引擎進行具體開發操作,所以您建立節點前需要先建立商務程序,操作詳情請參見建立商務程序。
-
已建立CDH叢集,並註冊至DataWorks。
建立CDH相關節點並開發CDH任務前,您需要先將CDH叢集註冊至DataWorks工作空間,操作詳情請參見舊版資料開發:綁定CDH計算資源。
-
(可選,RAM帳號需要)進行任務開發的RAM帳號已被添加至對應工作空間中,並具有開發或空間管理員(許可權較大,謹慎添加)角色許可權,新增成員的操作詳情請參見為工作空間增加空間成員。
-
已購買Serverless資源群組並完成資源群組配置,包括綁定工作空間、網路設定等,詳情請參見使用Serverless資源群組。
使用限制
支援Serverless資源群組(推薦)或舊版獨享調度資源群組運行該類型任務。
步驟一:建立CDH MR節點
進入資料開發頁面。
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的,在下拉框中選擇對應工作空間後單擊進入資料開發。
-
按右鍵某個商務程序,選擇。
-
在新建節點對話窗中,配置節點的引擎執行個體、路徑、名稱等資訊。
-
單擊確認 ,完成節點建立,後續您可在建立的節點中進行對應任務的開發與配置操作。
步驟二:建立並引用CDH JAR資源
DataWorks支援您從本地先上傳資源至DataStudio,再引用資源。具體操作如下:
-
建立CDH JAR資源。
在對應商務程序中,按右鍵,選擇,在新建資源對話方塊中點擊上傳,選擇需要上傳的檔案。
在對話方塊中,儲存路徑預設為
/user/admin/lib(若開啟了Kerberos認證,需先授權目前使用者對此目錄的寫入權限)。上傳的JAR包大小不能超過50 MB,名稱需以.jar為尾碼。 -
引用CDH JAR資源。
-
開啟建立的CDH MR節點,停留在編輯頁面。
-
在 中,找到待引用的資源(樣本為
onaliyun_mr_wordcount-1.0-SNAPSHOT.jar),按右鍵資源名稱,選擇引用資源。引用資源後,若CDH節點的代碼編輯頁面出現
##@resource_reference{""}格式的語句,表明已成功引用代碼資源。此時,需執行下述命令運行作用。命令涉及的資源套件、Bucket名稱、路徑資訊等為本文樣本內容,使用時,需替換為實際使用的資訊。##@resource_reference{"onaliyun_mr_wordcount-1.0-SNAPSHOT.jar"} onaliyun_mr_wordcount-1.0-SNAPSHOT.jar cn.apache.hadoop.onaliyun.examples.EmrWordCount oss://onaliyun-bucket-2/cdh/datas/wordcount02/inputs oss://onaliyun-bucket-2/cdh/datas/wordcount02/outputs說明CDH MR節點編輯代碼時不支援備註陳述式。
-
步驟三:配置任務調度
如果您需要周期性執行建立的節點任務,可以單擊節點編輯頁面右側的調度配置,根據業務需求配置該節點任務的調度資訊:
步驟四:調試代碼任務
-
(可選)選擇運行資源群組、賦值自訂參數取值。
-
在工具列單擊
表徵圖,在參數對話方塊選擇已調試運行需要使用的資源群組。 -
如果您的任務代碼中有使用調度參數變數,可在此處為變數賦值,用於調試。參數賦值邏輯詳情請參見運行,進階運行和開發環境煙霧測試 (Smoke Test)賦值邏輯有什麼區別。
-
-
儲存並運行SQL語句。
在工具列,單擊
表徵圖,儲存編寫的SQL語句,單擊
表徵圖,運行建立的SQL任務。 -
(可選)煙霧測試 (Smoke Test)。
如果您希望在開發環境進行煙霧測試 (Smoke Test),可在執行節點提交,或節點提交後執行,煙霧測試 (Smoke Test),操作詳情請參見執行煙霧測試 (Smoke Test)。