DataWorks的Lindorm Spark節點可進行Lindorm Spark任務的開發和周期性調度。本文為您介紹使用Lindorm Spark節點進行任務開發的主要流程。
背景資訊
Lindorm是雲端式原生架構的分散式運算服務,支援社區版計算模型、相容Spark介面,並深度融合Lindorm儲存引擎特性。能夠利用底層資料存放區特徵及索引能力,高效完成分布式作業任務,適用于海量資料處理、互動式分析、機器學習和圖計算等情境。
前提條件
(可選,RAM帳號需要)進行任務開發的RAM帳號已被添加至對應工作空間中,並具有開發或空間管理員(許可權較大,謹慎添加)角色許可權,新增成員的操作詳情請參見為工作空間增加空間成員。
說明如果您使用的是主帳號,則忽略該添加操作。
已建立Lindorm執行個體並綁定至DataWorks工作空間,詳情請參見綁定Lindorm計算資源。
建立Lindorm Spark節點
建立入口參考:建立Lindorm Spark節點。
開發Lindorm Spark節點
您可根據語言類型(如Java/Scala、Python)的不同,在節點中配置引用對應的JAR包檔案或.py檔案。
調試Lindorm Spark節點
配置調試屬性。
您可在節點右側調試配置中配置計算資源、Lindorm資源群組及資源群組資訊,具體參數資訊如下。
參數名稱
描述
計算資源
選擇您所綁定的Lindorm計算資源。
Lindorm資源群組
選擇您在綁定Lindorm計算資源時設定的Lindorm資源群組。
資源群組
選擇您綁定Lindorm Spark計算資源時已通過測試連通性的資源群組。
指令碼參數
在配置節點內容時,通過${參數名}的方式定義變數,需要在指令碼參數處配置參數名、參數值資訊,任務運行時會將它動態替換為真實的取值。詳情請參見調度參數支援格式。
調試運行節點。
執行節點任務,您需單擊儲存並運行節點任務。
後續步驟
節點調度:若專案目錄下的節點需要周期性調度執行,您需要在節點右側的調度配置中設定調度策略,配置相關的調度屬性。
節點發布:若任務需要發布至生產環境執行,請單擊介面
表徵圖喚起發布流程,通過該流程將任務發布至生產環境。專案目錄下的節點只有在發布至生產環境後,才會進行周期性調度。資料地圖(Lindorm表資料):您可以前往資料地圖採集Lindorm的中繼資料資訊。
表徵圖,即可複製您所上傳的Jar資源在LindormDFS的儲存路徑。