Dataphin支援建立離線計算模板。後續在開發工作單位時,可以引用建立的離線計算模板以提高任務的研發效率。本文為您介紹如何建立、配置並提交離線計算模板。
背景資訊
當多個任務的代碼邏輯相似,只有部分配置項或輸入參數不同時,您可以將代碼寫入到離線計算模板中,並將不同的配置項和輸入參數定義為模板變數參數。後續任務引用了該離線計算模板後,可以給離線計算模板中的模板變數參數賦值,以實現代碼公用邏輯的單點維護和快速複用,提升了任務代碼研發的效率。
通常每個任務有獨立的運行資源,大批量任務同時運行時會導致運行資源佔用率高,影響任務啟動並執行並發性。Dataphin支援引用了同一個離線計算模板的多個任務可以共用運行資源,以保障其他任務正常運行。您需要為離線計算模板開啟共用運行資源開關,後續引用了該模板的多個任務可以共用運行在同一個資源上,其他任務就可以使用Dataphin剩餘的資源。
前提條件
如果後續需要為離線計算模板開啟共用運行資源,則在開始執行操作前請您確認已開啟全域共用資源開關。如何開啟全域共用資源開關,請參見回合設定。
使用限制
僅支援超級管理員、專案系統管理員、專案開發人員的使用者建立、配置並提交離線計算模板。
如何擷取專案系統管理員和開發人員角色,請參見添加專案成員。
僅支援超級管理員和系統管理員開啟離線計算模板的共用運行資源開關。
操作步驟
在Dataphin首頁,在頂部功能表列選擇研發 > 資料研發。
在開發頁面的頂部功能表列選擇專案(Dev-Prod 模式需要選擇環境)。
在左側導覽列中選擇資料處理 > 計算模板,在計算模板列表中單擊
表徵圖,選擇離線計算模板。在建立離線計算模板對話方塊中,配置以下參數。
參數
描述
模板名稱
命名規則如下:
支援英文字母等大小寫、數字、底線(_)和短劃線(-)。
全域唯一。
不能超過64個字元。
節點類型
支援Shell、Python、資料庫SQL,且根據不同離線計算引擎,支援建立不同離線計算模板。
當節點類型選擇為Shell或PYTHON時,可選擇配置Python三方包。
在Python三方包中添加某個第三方Module後,需要在任務中聲明引用後,才可以在代碼中匯入(import)該Module。可在計算任務屬性 > Python三方包配置項中設定編輯引用的Module。
當節點類型選擇為資料庫SQL時,還需選擇Database/Schema。資料來源類型為Presto時,配置資料來源後,還需要配置Catalog。
選擇目錄
預設選擇為離線計算模板。同時您也可以在計算模板頁面建立目標檔案夾後,選擇該目標檔案夾為計算模板的目錄。建立檔案夾的操作如下:
在計算模板列表上方單擊
表徵圖,開啟建立檔案夾對話方塊。在建立檔案夾對話方塊中輸入檔案夾名稱、選擇離線類型再根據需要選擇目錄位置。
單擊確定。
描述
填寫對離線計算模板簡單的描述,1000個字元以內。
單擊確定。
在離線計算模板的代碼開發頁面,開發離線計算的模板代碼。
支援定義模板變數參數,格式為
@@{模板變數參數名稱},模板變數參數名稱只能包含字母、數字和底線(_)且只能以字母開頭。例如@@{variable}。
完成離線計算模板的代碼開發後,單擊頁面左上方的調試按鈕,並在參數填寫對話方塊中填寫參數值。
單擊確定。
在離線計算模板的代碼開發頁面,單擊右側屬性。
在屬性面板中,配置參數。
參數
描述
基本資料
描述
填寫離線計算模板的簡單描述。
Python三方包
選擇需要引入的Python三方包。更多資訊,請參見安裝及管理Python三方包。
說明在Python三方包中添加某個第三方Module後,需要在任務中聲明引用後,才可以在代碼中匯入(import)該Module。
回合組態
共用運行資源
開啟共用運行資源後,引用該模板的任務執行個體可以共用運行資源,以節約運行資源。該操作僅限超級管理員執行。
重要模板的共用運行資源配置,須在營運(元倉)租戶中開啟全域共用資源,否則不支援配置。且引用該模板建立的計算任務為獨享資源任務。具體操作,請參見回合設定。
參數配置
參數說明
填寫代碼中的參數說明,便於開發人員理解。
預設值
為代碼中的參數賦值。後續您可以在引用了該模板的任務中修改該參數值,運行任務後即可生效。
參數加密
開啟參數加密後,參數預設值將以密文形式儲存,以保護敏感性資料。後續在引用該模板的任務中也是無法查看明文的參數預設值,任務運行時Dataphin會自動解密參數預設值。
關閉參數加密後,已配置的參數預設值將自動清空。
資源配置
調度資源群組
任務調度運行時需要消耗調度資源。您可指定引用模板的每個任務產生的執行個體可使用的調度資源群組,執行個體調度時會從佔用指定資源群組的資源配額,如果指定的資源群組可用資源不足,則會進入等待調度資源狀態。不同資源群組之間的資源相互隔離互不影響,以保證調度穩定性。
開啟共用運行資源後,不支援指定自訂資源群組。引用模板所建立的任務為共用資源任務。共用資源任務預設配置共用調度資源集區以支援所有共用資源任務的調度下發,如需修改共用資源池可支援的任務並發上限,請聯絡元倉系統管理員進行修改。
關閉共用運行資源後,支援指定自訂資源群組。設定的調度資源群組僅支援選擇使用情境為任務日常調度且與當前任務所屬專案有關聯關係的資源群組。具體操作,請參見資源群組配置。
重要引用模板建立的任務僅支援在模板上配置調度資源群組。
如果選擇了專案預設資源群組,將根據專案預設資源群組的配置修改自動更新。
單擊確定,完成離線計算模板的配置。
在離線計算模板的代碼開發頁面,單擊頁面上方的提交按鈕,並在提交備忘對話方塊中填寫備忘資訊。
單擊確定並提交。
編輯已提交的資料庫SQL計算模板後:
系統將自動檢測模板代碼是否引入了新的輸入表,如果未引入新的輸入表,則正常提交。
模板代碼中若引入了新的輸入表,系統將進而檢測下遊是否存在自動引用最新版本的任務,若存在,則提交失敗;若不存在,則正常提交。
如果SQL代碼解析失敗,您仍然可以正常提交,但系統將提示:由於存在模板變數,系統當前無法解析代碼。修改SQL模板代碼可能會引入新的輸入表,從而導致引用該模板的任務執行個體缺少上遊依賴,請謹慎操作!
後續步驟
基於已建立的離線計算模板建立對應的任務。具體操作,請參見: