本文為您介紹如何註冊EMR(E-MapReduce)函數。
前提條件
-
EMR引擎類型包括新版資料湖(DataLake)及Hadoop,不同類型引擎建立資源前需執行的準備工作不同。您需要根據實際情況完成EMR側及DataWorks側的準備工作。
-
DataLake:詳情請參見DataLake叢集配置、DataWorks配置。
-
Hadoop:Hadoop叢集開發前準備工作。
-
-
您需要先上傳資源,才可以註冊函數。建立EMR資源詳情可參考文檔:建立和使用EMR資源
操作步驟
-
進入數據開發頁面。
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的,在下拉框中選擇對應工作空間後單擊進入資料開發。
-
建立商務程序,詳情請參見建立周期商務程序。
-
在本地Java環境編輯程式並產生JAR包後,再建立JAR資源,並提交發布。詳情請參見建立和使用EMR資源。
-
建立函數。
-
開啟相應的商務程序,按右鍵EMR,選擇新建函數。
-
在新建函數對話方塊中,輸入名称,並選擇引擎實例和路徑。
-
單擊新建。
-
在註冊函數對話方塊中,配置各項參數。
參數
描述
函數類型
選擇函數類型,包括數學運算函數、彙總函式、字串處理函數、日期函數、視窗函數和其他函數。
EMR引擎執行個體
預設不可以修改。
EMR引擎類型
預設不可以修改。
EMR數據庫
從下拉式清單中選擇相應的資料庫。如果您需要建立資料庫,請單擊建立庫。在建立庫對話方塊中,配置各項參數,單擊確認。
函數名
UDF函數名,即SQL中引用該函數所使用的名稱。需要全域唯一,且註冊函數後不支援修改。
責任人
預設顯示。
類名
實現UDF的主類名,必填。
資源列表
從下拉式清單中選擇本工作空間中已添加的資源,必填。如果您需要建立資源,請單擊新建資源。在新建資源對話方塊中,配置各項參數,單擊確定。
描述
對當前UDF進行簡單描述。
命令格式
該UDF的具體使用方法樣本,例如
test。參數說明
支援輸入的參數類型以及返回參數類型的具體說明。
返回值
傳回值,例如1,非必填項。
實例
函數中的樣本,非必填項。
-
-
單擊工具列中的
表徵圖。 -
提交函數。
-
單擊工具列中的
表徵圖。說明提交時,您需要選擇提交函數所用的調度資源群組,當使用Serverless資源群組提交表時,DataWorks平台將下發對應的註冊函數的任務到引擎側執行,並列印執行過程日誌資訊,如果資源提交過程中出現問題,您也可以通過日誌先進行自助排查。如果您目前無可用的Serverless資源群組,請購買並配置Serverless資源群組便於使用,操作詳情請參見使用Serverless資源群組。
-
在提交新版本對話方塊中,輸入變更描述。
-
單擊確認。
-