開發調試並調度ADB Spark SQL節點-巨量資料開發治理平台 DataWorks-阿里雲

DataWorks的ADB Spark SQL節點可進行AnalyticDB Spark SQL任務的開發和周期性調度，以及與其他作業的整合操作。本文為您介紹使用ADB Spark SQL節點進行任務開發的主要流程。

背景資訊

AnalyticDB for MySQL Serverless Spark是AnalyticDB for MySQL團隊基於Apache Spark打造的服務化的巨量資料分析與計算服務，AnalyticDB MySQL版Spark支援在AnalyticDB控制台直接提交Spark SQL便於資料開發人員使用Spark進行資料分析。當您在DataWorks將AnalyticDB for MySQL Serverless Spark綁定計算資源後，您便可在DataWorks上通過開發AnalyticDB Spark SQL節點使用AnalyticDB for MySQL版Spark計算服務執行Spark SQL任務，詳情請參見Spark SQL開發介紹。

前提條件

AnalyticDB for MySQL前提條件：

已建立與工作空間同一地區下的AnalyticDB for MySQL基礎版叢集，詳情請參見建立叢集。
已在AnalyticDB for MySQL叢集中建立引擎為Spark類型的Interactive型資源群組，用於在通過DataWorks執行Spark SQL任務，詳情請參見建立Interactive型資源群組。
如需在ADB Spark SQL節點中使用OSS儲存，須確保OSS儲存與AnalyticDB for MySQL叢集處於相同地區。

DataWorks前提條件：

已有勾選使用新版資料開發（Data Studio）的工作空間，並已完成資源群組的綁定，詳情請參見建立工作空間。
資源群組需要綁定與AnalyticDB for MySQL叢集同一個VPC，並在AnalyticDB for MySQL叢集中配置資源群組IP地址白名單，詳情請參見設定白名單。
您需將建立的AnalyticDB for MySQL叢集執行個體添加到DataWorks作為計算資源，計算資源類型為AnalyticDB for Spark，並通過資源群組測試連通性，詳情請參見綁定計算資源。
已建立ADB Spark SQL節點，詳情請參見建立調度工作流程的節點。

步驟一：開發ADB Spark SQL節點

建立外部庫。
在ADB Spark SQL節點編輯頁面開發SQL代碼。以下以在ADB Spark SQL節點中建立外部資料庫為例，如您需要建立內表請參考 Spark SQL建立內表。
```
CREATE DATABASE IF NOT EXISTS `adb_spark_db` location 'oss://dw-1127/db_home';
```
ADB Spark SQL節點開發。
在SQL編輯地區開發工作單位代碼，您可在代碼中使用${變數名}的方式定義變數，並在節點編輯頁面右側調度配置的調度參數中為該變數賦值。實現調度情境下代碼的動態傳參，調度參數使用詳情，請參考調度參數來源及其運算式，樣本如下。
```
CREATE TABLE IF NOT EXISTS adb_spark_db.tb_order_${var}(id int, name string, age int) 
USING parquet 
location 'oss://dw-1127/db_home/tb1' 
tblproperties ('parquet.compress'='SNAPPY');

CREATE TABLE IF NOT EXISTS adb_spark_db.tb_order_result_${var}(id int, name string, age int) 
USING parquet 
location 'oss://dw-1127/db_home/tb2' 
tblproperties ('parquet.compress'='SNAPPY');

INSERT INTO adb_spark_db.tb_order_result_${var} SELECT * FROM adb_spark_db.tb_order_${var};
```
說明
樣本中的變數參數${var}可設定為$[yyyymmdd]，通過設定該參數可以實現對每日新增資料的批量同步處理。

步驟二：調試ADB Spark SQL節點

配置ADB Spark SQL調試屬性。

您可在節點右側回合組態中配置計算資源、ADB計算資源群組、資源群組及計算CU參數資訊，詳情請參見以下資訊。

參數類型	參數名稱	描述
計算資源	計算資源	選擇您所綁定的AnalyticDB for Spark計算資源。
計算資源	ADB計算資源群組	選擇您在AnalyticDB for MySQL叢集中配置建立的Interactive型資源群組。詳情請參見建立和管理資源群組。說明 Interactive型資源群組引擎需要選擇Spark類型。
資源群組	資源群組	選擇您綁定AnalyticDB for Spark計算資源時已通過測試連通性的資源群組。
資源群組	計算CU	當前節點使用預設CU值，無需修改CU。

調試運行ADB Spark SQL節點。
執行節點任務，您需單擊儲存並運行節點任務。

步驟三：調度ADB Spark SQL節點

配置ADB Spark SQL節點調度屬性。

如需定期執行節點任務，請根據業務需求在節點右側調度配置的調度策略配置以下參數資訊，更多參數配置，詳情請參見節點調度配置。

參數名稱	描述
計算資源	選擇您所綁定的AnalyticDB for Spark計算資源。
ADB計算資源群組	選擇您在AnalyticDB for MySQL叢集中配置建立的Interactive型資源群組。詳情請參見建立和管理資源群組。說明 Interactive型資源群組引擎需要選擇Spark類型。
資源群組	選擇您綁定AnalyticDB for Spark計算資源時已通過測試連通性的資源群組。
計算CU	當前節點使用預設CU值，無需修改CU。

發布ADB Spark SQL節點。
節點任務配置完成後，需對節點進行發布。詳情請參見節點/工作流程發布。

後續步驟

任務發布後，您可以在營運中心查看周期任務的運行情況。詳情請參見營運中心入門。