Spark SQL可實現分布式SQL查詢引擎處理結構化資料,提高作業的執行效率。DataWorks的CDH Spark SQL節點可進行CDH Spark SQL任務的開發和周期性調度,以及與其他作業的整合操作。本文為您介紹如何配置及使用CDH Spark SQL節點。
前提條件
已建立阿里雲CDH叢集,並綁定至DataWorks工作空間。操作詳情請參見新版資料開發:綁定CDH計算資源。
重要已在CDH叢集安裝Spark組件,並在綁定叢集時配置Spark相關資訊。
(可選,RAM帳號需要)進行任務開發的RAM帳號已被添加至對應工作空間中,並具有開發或空間管理員(許可權較大,謹慎添加)角色許可權,新增成員的操作詳情請參見為工作空間增加空間成員。
說明如果您使用的是主帳號,則可忽略該添加操作。
已在DataWorks配置Hive資料來源並通過連通性測試,詳情請參見資料來源管理。
建立節點
建立入口參考:建立節點。
開發節點
在SQL編輯地區開發工作單位代碼,您可在代碼中使用${變數名}的方式定義變數,並在節點編輯頁面右側調度配置的調度參數中為該變數賦值。實現調度情境下代碼的動態傳參,調度參數使用詳情,請參考調度參數支援格式,樣本如下。
CREATE TABLE IF NOT EXISTS test_spark.test_lineage_table_f1 (`id` BIGINT, `name` STRING)
PARTITIONED BY (`ds` STRING);
CREATE TABLE IF NOT EXISTS test_spark.test_lineage_table_t2 AS SELECT * FROM test_spark.test_lineage_table_f1;
INSERT INTO test_spark.test_lineage_table_t2 SELECT id,${var} FROM test_spark.test_lineage_table_f1;樣本在
test_spark資料庫中建立test_lineage_table_f1、test_lineage_table_t2表,並且從test_lineage_table_f1表向test_lineage_table_t2表複製資料,本樣本僅為參考,實際使用時請替換為您自己的資料庫環境。代碼中的
${var}參數賦值為欄位name。
調試節點
在調試配置的計算資源中,選擇配置計算資源和資源群組。
計算資源選擇您在DataWorks上註冊的CDH叢集名稱。
資源群組選擇與資料來源測試連通性成功的調度資源群組。詳情請參見網路連通方案。
在節點編輯頁面上方工具列,單擊運行任務。
表徵圖喚起發布流程,通過該流程將任務發布至生產環境。專案目錄下的節點只有在發布至生產環境後,才會進行周期性調度。