DolphinScheduler調度Spark - AnalyticDB

DolphinScheduler是一個分布式易擴充的可視化DAG工作流程工作調度開源系統，能高效地執行和管理巨量資料流程。您可以在DolphinScheduler Web介面輕鬆建立、編輯和調度AnalyticDB for MySQL的Spark作業。

前提條件

AnalyticDB for MySQL叢集的產品系列為企業版、基礎版或湖倉版。
AnalyticDB for MySQL叢集中已建立Job型資源群組或Spark引擎的Interactive型資源群組。
已安裝JDK，且JDK的版本為1.8及以上版本。
已安裝DolphinScheduler。
已將運行DolphinScheduler的伺服器IP地址添加至AnalyticDB for MySQL叢集的白名單中。

調度Spark SQL作業

AnalyticDB for MySQL支援使用批處理和互動式兩種方法執行Spark SQL。選擇的執行方式不同，調度的操作步驟也有所不同。詳細步驟如下：

批處理

安裝Spark-Submit命令列工具並配置相關參數。
說明
您只需要配置keyId、secretId、regionId、clusterId和rgName這些必填參數。
建立專案。
1. 訪問DolphinScheduler Web介面，在頂部導覽列單擊專案管理。
2. 單擊建立專案。
3. 在彈出的建立專案對話方塊中配置專案名稱、所屬使用者等參數。

建立工作流程。

單擊已建立的專案名稱，進入工作流程定義頁面。
單擊建立工作流程，進入工作流程DAG編輯頁面。
在頁面左側選擇SHELL，並將其拖拽到右側空白畫布中。

在彈出的當前節點設定對話方塊中配置如下參數：

參數

說明

節點名稱

工作流程節點的名稱。

指令碼

Spark-Submit命令列工具的安裝地址及Spark SQL作業的業務代碼。例如：/root/adb-spark-toolkit-submit/bin/spark-submit --class com.aliyun.adb.spark.sql.OfflineSqlTemplate local:///opt/spark/jars/offline-sql.jar "show databases" "select 100"

重要

使用Spark-Submit命令列工具調度Spark作業時，必須要在指令碼中指定Spark-Submit命令列工具的地址，否則調度任務無法找到Spark-Submit命令。

說明

其他參數說明請參見DolphinScheduler任務參數。

單擊確認。
單擊頁面右上方儲存，在彈出的基本資料對話方塊中配置工作流程名稱等參數，單擊確定。

運行工作流程。
1. 單擊工作流程操作列的按鈕，上線工作流程。
2. 單擊工作流程操作列的按鈕。
3. 在彈出的啟動前請先設定參數對話方塊中，配置對應參數。
4. 單擊確定，運行工作流程。
查看工作流程詳細資料。
1. 在左側導覽列單擊任務執行個體。
2. 在操作列，單擊按鈕，查看工作流程執行結果和日誌資訊。

互動式

擷取Spark Interactive型資源群組的串連地址。
1. 登入雲原生資料倉儲AnalyticDB MySQL控制台，在左上方選擇叢集所在地區。在左側導覽列，單擊集群清單，在企業版、基礎版或湖倉版頁簽下，單擊目的地組群ID。
2. 在左側導覽列，單擊集群管理 > 資源管理，單擊資源組管理頁簽。
3. 單擊對應資源群組操作列的詳情，查看內網串連地址和公網串連地址。您可單擊連接埠號碼括弧內的按鈕，複製串連地址。
  以下兩種情況，您需要單擊公網地址後的申請網路，手動申請公網串連地址。
  - 提交Spark SQL作業的用戶端工具部署在本地。
  - 提交Spark SQL作業的用戶端工具部署在ECS上，且ECS與AnalyticDB for MySQL不屬於同一VPC。

建立資料來源。

訪問DolphinScheduler Web介面，在頂部導覽列單擊資料來源中心。
單擊建立資料來源，選擇資料來源類型為Spark。

在彈出的建立資料來源對話方塊中配置如下參數：

參數	說明
資料來源	選擇為Spark。
源名稱	資料來源名稱。
IP主機名稱	請填寫步驟1中擷取的串連地址。串連地址中的`default`需替換為實際的資料庫名，並且需要刪除串連地址中的`resource_group=<資源群組名稱>`尾碼。例如：`jdbc:hive2://amv-t4naxpqk****sparkwho.ads.aliyuncs.com:10000/adb_demo`。
連接埠	Spark Interactive型資源群組的連接埠號碼，固定為10000。
使用者名稱	AnalyticDB for MySQL的資料庫帳號。
資料庫名	AnalyticDB for MySQL叢集的資料庫名稱。

說明

其他參數為選填參數，詳情請參見MySQL資料來源。

單擊測試連接，測試成功後，單擊確定。

建立專案。
1. 訪問DolphinScheduler Web介面，在頂部導覽列單擊專案管理。
2. 單擊建立專案。
3. 在彈出的建立專案對話方塊中配置專案名稱、所屬使用者等參數。

建立工作流程。

單擊已建立的專案名稱，進入工作流程定義頁面。
單擊建立工作流程，進入工作流程DAG編輯頁面。
在頁面左側選擇SQL，並將其拖拽到右側空白畫布中。

在彈出的當前節點設定對話方塊中配置如下參數：

參數	說明
資料來源類型	選擇為Spark。
資料來源執行個體	選擇步驟1建立的資料來源。
SQL類型	SQL作業的類型，例如查詢、非查詢。
SQL語句	業務具體的SQL語句。

單擊確認。
單擊頁面右上方儲存，在彈出的基本資料對話方塊中配置工作流程名稱等參數，單擊確定。

運行工作流程。
1. 單擊工作流程操作列的按鈕，上線工作流程。
2. 單擊工作流程操作列的按鈕。
3. 在彈出的啟動前請先設定參數對話方塊中，配置對應參數。
4. 單擊確定，運行工作流程。
查看工作流程詳細資料。
1. 在左側導覽列單擊任務執行個體。
2. 在操作列，單擊按鈕，查看工作流程執行結果和日誌資訊。

調度Spark Jar作業

安裝Spark-Submit命令列工具並配置相關參數。
說明
您只需要配置keyId、secretId、regionId、clusterId和rgName這些必填參數。如果您的Spark Jar包在本地，還需要配置ossUploadPath等OSS相關參數。
建立專案。
1. 訪問DolphinScheduler Web介面，在頂部導覽列單擊專案管理。
2. 單擊建立專案。
3. 在彈出的建立專案對話方塊中配置專案名稱、所屬使用者等參數。

建立工作流程。

單擊已建立的專案名稱，進入工作流程定義頁面。
單擊建立工作流程，進入工作流程DAG編輯頁面。
在頁面左側選擇SHELL，並將其拖拽到右側空白畫布中。

在彈出的當前節點設定對話方塊中配置如下參數：

參數

說明

節點名稱

工作流程節點的名稱。

指令碼

Spark-Submit命令列工具的安裝地址及Spark作業的業務代碼。例如：

/root/adb-spark-toolkit-submit/bin/spark-submit --class org.apache.spark.examples.SparkPi --name SparkPi --conf spark.driver.resourceSpec=medium --conf spark.executor.instances=2 --conf spark.executor.resourceSpec=medium local:///tmp/spark-examples.jar 1000。

重要

使用Spark-Submit命令列工具調度Spark作業時，必須要在指令碼中指定Spark-Submit命令列工具的地址，否則調度任務無法找到Spark-Submit命令。

說明

其他參數說明請參見DolphinScheduler任務參數。

單擊確認。
單擊頁面右上方儲存，在彈出的基本資料對話方塊中配置工作流程名稱等參數，單擊確定。

運行工作流程。
1. 單擊工作流程操作列的按鈕，上線工作流程。
2. 單擊工作流程操作列的按鈕。
3. 在彈出的啟動前請先設定參數對話方塊中，配置對應參數。
4. 單擊確定，運行工作流程。
查看工作流程詳細資料。
1. 在左側導覽列單擊任務執行個體。
2. 在操作列，單擊按鈕，查看工作流程執行結果和日誌資訊。