Data Studio支援可視化建立並管理CDH Jar和File資源,建立的資源可用於建立自訂函數或在資料開發。本文將介紹如何通過資源管理來建立CDH不同類型的資源和函數。
前提條件
已註冊CDH叢集至DataWorks,建立資源與函數均基於Flink計算資源進行相關操作。
已完成資源檔的開發,檔案可從本地上傳。
進入資源管理
進入DataWorks工作空間列表頁,在頂部切換至目標地區,找到目標工作空間,單擊操作列的,進入Data Studio。
在左側導覽列單擊資源管理按鈕
,進入資源管理頁面。在資源管理頁面,單擊
按鈕進行建立資源或函數。您也可以先建立目錄,規劃資源管理目錄後,再在相應目錄上右鍵,選擇建立,選擇需要建立的資源或函數類型。
建立並使用資源
資源說明
在Data Studio資源與函數管理中,可將本地資源通過DataWorks上傳至CDH叢集,支援建立的資源如下表所示,用於在DataWorks中開發Flink作業,或用來建立自訂函數中。
資源類型 | 描述 | 支援的上傳方式 | |
本地 | OSS | ||
CDH Jar | 編譯好的Java JAR包,用於運行Java程式。尾碼為 |
|
|
CDH File | 支援將任意類型的檔案上傳為File資源,實際使用時請以各引擎支援情況為準。 | ||
使用限制
上傳資源需符合以下限制:
資源大小:最大支援上傳500MB的資源。
資源發布:若您使用的是標準模式的工作空間,則需將資源發布至生產環境。發布後,生產環境的專案才會存在該資源。
說明開發環境和生產環境的資料來源資訊可能存在差異,查詢對應環境的表、資源等操作前,請先確認相應環境的資料來源資訊。
資源管理:DataWorks僅支援查看與管理通過DataWorks上傳的資源。
建立資源
CDH資源支援本地上傳,建立好的該資源可直接在資料開發中引用,也可以建立為函數使用。
在資源管理頁面,建立資源開啟建立資源和函數彈窗時,配置資源的類型、儲存的路徑以及資源名稱。
建立資源後需上傳本地檔案,作為檔案來源,以下為上傳資源時的關鍵參數:
配置項
配置說明
儲存路徑
預設為
/user/admin/lib。說明若開啟了kerberos認證,需先授權當前登入使用者對此目錄的寫入權限。
資料來源
選擇CDH已建立的資料來源。
資源群組
選擇與CDH叢集連通性正常的Serverless資源群組。
在上方工具列對資源儲存並發布,只有發布後的資源才能在資料開發中使用。
使用資源
完成資源建立後,在進行資料開發時,在左側導覽列單擊資源管理,然後找到目標資源或函數後,右鍵選擇引用資源。引用資源成功後,會顯示##@resource_reference{"資源名稱"}格式的代碼。
例如,CDH Hive節點顯示的樣式為##@resource_reference{"example"}。各類型節點顯示格式存在差異,請以實際介面為準。
除了直接使用資源外,還可將資源建立為函數,再在開發節點中使用。
建立並使用函數
函數說明
Data Studio支援將資源註冊為CDH函數,在資料開發或SQL查詢中,您可以使用Hive提供的內建函數和建立的自訂函數。
建立函數
在資源管理頁面,建立函數開啟建立資源和函數彈窗時,配置下拉配置函數的類型、儲存的路徑以及函數名稱。
單擊確認,建立函數資源,並根據函數類型,配置函數的相關資訊。
配置CDH函數前,需確保已將CDH引擎在DataWorks內註冊為了計算資源,並已上傳CDH類型的資源,以下是CDH函數的關鍵配置說明。
參數
描述
函數類型
選擇函數類型,包括MATH(數學運算函數)、AGGREGATE(彙總函式)、STRING(字串處理函數)、DATE(日期函數)、ANALYTIC(視窗函數)和OTHER(其他函數)。
資料來源
從下拉式清單中選擇已建立的CDH資料來源。
類名
UDF函數的類名,格式為
資源名.類名。其中,資源名可以為Java包名稱或檔案資源名稱。DataWorks建立自訂函數時支援使用JAR及File兩種類型的CDH資源,當資源類型為JAR時,配置的類名格式為
Java包名稱.實際類名,您可以在IntelliJ IDEA中通過Copy Reference語句擷取。例如,com.aliyun.cdh.examples.udf為Java包的名稱,UDAFExample為實際類名,則類名參數配置為com.aliyun.cdh.examples.udf.UDAFExample。
說明填寫資源名稱時,無需添加
.jar尾碼。資源需要發布後才可以使用。
資源清單
CDH函數,僅支援可視化模式,下拉選擇CDH Jar或CDH File資源。
命令格式
該UDF的具體使用方法樣本。
在上方工具列對函數儲存並發布,只有發布後的函數才能在資料開發中使用。
使用函數
函數建立完成並發布後,在資料開發或SQL查詢中,可直接引用建立的函數。
在編輯資料開發節點時,在左側導覽列單擊資源管理,然後找到目標資源或函數後,右鍵選擇引用函數。
引用函數成功後,在當前節點編輯頁面快速產生自訂函數名稱,例如:
example_function()。在編輯SQL查詢時,可直接使用已建立的函數。
SELECT example_function(column_name) FROM table;管理資源與函數
通過Data Studio可視化方式上傳的資源或建立函數後,在資源管理頁面,可通過單擊目標資源或函數,對資源或函數進行管理。
查看歷史版本:單擊資源或函數編輯頁面右側的版本按鈕,您可查看、對比已儲存或已提交的函數版本,擷取不同版本的資源變更情況。
說明版本對比時,至少需選擇兩個版本進行比對。
刪除資源或函數:滑鼠右鍵單擊目標資源或函數,選擇刪除按鈕,刪除資源或函數。
若需刪除生產環境下該資源或函數,則需進行任務發布,將資源刪除操作發布至生產環境,發布成功後,生產環境該資源函數才會同步刪除。