全部產品

DataWorks：CDH Spark SQL節點

更新時間：Apr 21, 2026

Spark SQL可實現分布式SQL查詢引擎處理結構化資料，提高作業的執行效率。DataWorks的CDH Spark SQL節點可進行CDH Spark SQL任務的開發和周期性調度，以及與其他作業的整合操作。本文為您介紹如何配置及使用CDH Spark SQL節點。

前提條件

已建立阿里雲CDH叢集，並綁定至DataWorks工作空間。操作詳情請參見新版資料開發：綁定CDH計算資源。

重要
已在CDH叢集安裝Spark組件，並在綁定叢集時配置Spark相關資訊。
（可選，RAM帳號需要）進行任務開發的RAM帳號已被添加至對應工作空間中，並具有開發或空間管理員（許可權較大，謹慎添加）角色許可權，新增成員的操作詳情請參見為工作空間增加空間成員。

說明
如果您使用的是主帳號，則可忽略該添加操作。
已在DataWorks配置Hive資料來源並通過連通性測試，詳情請參見資料來源管理。

建立節點

建立入口參考：建立節點。

開發節點

在SQL編輯地區開發工作單位代碼，您可在代碼中使用${變數名}的方式定義變數，並在節點編輯頁面右側調度配置的調度參數中為該變數賦值。實現調度情境下代碼的動態傳參，調度參數使用詳情，請參考調度參數來源及其運算式，樣本如下。

CREATE TABLE IF NOT EXISTS test_spark.test_lineage_table_f1 (`id` BIGINT, `name` STRING)
PARTITIONED BY (`ds` STRING);
CREATE TABLE IF NOT EXISTS test_spark.test_lineage_table_t2 AS SELECT * FROM test_spark.test_lineage_table_f1;
INSERT INTO test_spark.test_lineage_table_t2 SELECT id,${var} FROM test_spark.test_lineage_table_f1;

說明

樣本在test_spark資料庫中建立test_lineage_table_f1、test_lineage_table_t2表，並且從test_lineage_table_f1表向test_lineage_table_t2表複製資料，本樣本僅為參考，實際使用時請替換為您自己的資料庫環境。
代碼中的${var}參數賦值為欄位name。

調試節點

在回合組態的計算資源中，選擇配置計算資源和資源組。
1. 計算資源選擇您在DataWorks上註冊的CDH叢集名稱。
2. 資源群組選擇與資料來源測試連通性成功的調度資源群組。詳情請參見網路連通方案。
在節點編輯頁面上方工具列，單擊運行任務。

後續步驟

節點調度配置：若專案目錄下的節點需要周期性調度執行，您需要在節點右側的調度配置中設定調度策略，配置相關的調度屬性。
節點發布：若任務需要發布至生產環境執行，請單擊介面表徵圖喚起發布流程，通過該流程將任務發布至生產環境。專案目錄下的節點只有在發布至生產環境後，才會進行周期性調度。
任務營運：任務發布後，您可以在營運中心查看周期任務的運行情況。詳情請參見營運中心入門。