DataWorks的Lindorm Spark SQL節點可進行Lindorm Spark SQL任務的開發和周期性調度。本文為您介紹使用Lindorm Spark SQL節點進行任務開發的主要流程。
背景資訊
Lindorm是雲端式原生架構的分散式運算服務,支援社區版計算模型、相容Spark介面,並深度融合Lindorm儲存引擎特性。能夠利用底層資料存放區特徵及索引能力,高效完成分布式作業任務,適用于海量資料處理、互動式分析、機器學習和圖計算等情境。
前提條件
(可選,RAM帳號需要)進行任務開發的RAM帳號已被添加至對應工作空間中,並具有開發或空間管理員(許可權較大,謹慎添加)角色許可權,新增成員的操作詳情請參見為工作空間增加空間成員。
說明如果您使用的是主帳號,則忽略該添加操作。
已建立Lindorm執行個體並綁定至DataWorks工作空間,詳情請參見綁定Lindorm計算資源。
建立Lindorm Spark SQL節點
建立入口參考:建立Lindorm Spark SQL節點。
開發Lindorm Spark SQL節點
在SQL編輯地區編寫任務代碼時,您可以使用 ${變數名} 的方式定義變數,並在節點編輯頁面右側的調試配置或調度配置中為變數賦值。樣本如下。
CREATE TABLE IF NOT EXISTS lindorm_table_job (
id INT,
name STRING,
data STRING
)
USING parquet
PARTITIONED BY (partition_date DATE);
INSERT OVERWRITE TABLE lindorm_table_job PARTITION (partition_date='${var}')
VALUES (1, 'Alice', 'Sample data 1'), (2, 'Bob', 'Sample data 2');樣本中的變數參數${var}可設定為2025-04-25,通過設定該參數可以實現將資料插入到lindorm_table_job表的固定分區。實現調度情境下代碼的動態傳參,調度參數使用詳情,請參考調度參數支援格式。
更多Lindorm Spark SQL操作,請參見SQL參考。
調試Lindorm Spark SQL節點
配置調試屬性。
您可在節點右側調試配置中配置計算資源、Lindorm資源群組及資源群組資訊,具體參數資訊如下。
參數名稱
描述
計算資源
選擇您所綁定的Lindorm計算資源。
Lindorm資源群組
選擇您在綁定Lindorm計算資源時設定的Lindorm資源群組。
資源群組
選擇您綁定Lindorm Spark計算資源時已通過測試連通性的資源群組。
指令碼參數
在配置節點內容時,通過
${參數名}的方式定義變數,需要在指令碼參數處配置參數名、參數值資訊,任務運行時會將它動態替換為真實的取值。詳情請參見調度參數支援格式。Spark參數
Spark程式運行參數,更多Spark屬性參數配置請參見作業配置說明。
調試運行節點。
執行節點任務,您需單擊儲存並運行節點任務。
後續步驟
節點調度:若專案目錄下的節點需要周期性調度執行,您需要在節點右側的調度配置中設定調度策略,配置相關的調度屬性。
節點發布:若任務需要發布至生產環境執行,請單擊介面
表徵圖喚起發布流程,通過該流程將任務發布至生產環境。專案目錄下的節點只有在發布至生產環境後,才會進行周期性調度。資料地圖(Lindorm表資料):您可以前往資料地圖採集Lindorm的中繼資料資訊。