DolphinScheduler是一個分布式易擴充的可視化DAG工作流程工作調度開源系統,能高效地執行和管理巨量資料流程。您可以在DolphinScheduler Web介面輕鬆建立、編輯和調度AnalyticDB for MySQL的Spark作業。
前提條件
AnalyticDB for MySQL叢集的產品系列為企業版、基礎版或湖倉版。
AnalyticDB for MySQL叢集中已建立Job型資源群組或Spark引擎的Interactive型資源群組。
已安裝JDK,且JDK的版本為1.8及以上版本。
已將運行DolphinScheduler的伺服器IP地址添加至AnalyticDB for MySQL叢集的白名單中。
調度Spark SQL作業
AnalyticDB for MySQL支援使用批處理和互動式兩種方法執行Spark SQL。選擇的執行方式不同,調度的操作步驟也有所不同。詳細步驟如下:
批處理
- 說明
您只需要配置
keyId、secretId、regionId、clusterId和rgName這些必填參數。 建立專案。
訪問DolphinScheduler Web介面,在頂部導覽列單擊專案管理。
單擊建立專案。
在彈出的建立專案對話方塊中配置專案名稱、所屬使用者等參數。
建立工作流程。
單擊已建立的專案名稱,進入工作流程定義頁面。
單擊建立工作流程,進入工作流程DAG編輯頁面。
在頁面左側選擇SHELL,並將其拖拽到右側空白畫布中。
在彈出的當前節點設定對話方塊中配置如下參數:
參數
說明
節點名稱
工作流程節點的名稱。
指令碼
Spark-Submit命令列工具的安裝地址及Spark SQL作業的業務代碼。例如:
/root/adb-spark-toolkit-submit/bin/spark-submit --class com.aliyun.adb.spark.sql.OfflineSqlTemplate local:///opt/spark/jars/offline-sql.jar "show databases" "select 100"重要使用Spark-Submit命令列工具調度Spark作業時,必須要在指令碼中指定Spark-Submit命令列工具的地址,否則調度任務無法找到Spark-Submit命令。
說明其他參數說明請參見DolphinScheduler任務參數。
單擊確認。
單擊頁面右上方儲存,在彈出的基本資料對話方塊中配置工作流程名稱等參數,單擊確定。
運行工作流程。
單擊工作流程操作列的
按鈕,上線工作流程。單擊工作流程操作列的
按鈕。在彈出的啟動前請先設定參數對話方塊中,配置對應參數。
單擊確定,運行工作流程。
查看工作流程詳細資料。
在左側導覽列單擊任務執行個體。
在操作列,單擊
按鈕,查看工作流程執行結果和日誌資訊。
互動式
擷取Spark Interactive型資源群組的串連地址。
登入雲原生資料倉儲AnalyticDB MySQL控制台,在左上方選擇叢集所在地區。在左側導覽列,單擊集群清單,在企業版、基礎版或湖倉版頁簽下,單擊目的地組群ID。
在左側導覽列,單擊,單擊資源組管理頁簽。
單擊對應資源群組操作列的詳情,查看內網串連地址和公網串連地址。您可單擊連接埠號碼括弧內的
按鈕,複製串連地址。以下兩種情況,您需要單擊公網地址後的申請網路,手動申請公網串連地址。
提交Spark SQL作業的用戶端工具部署在本地。
提交Spark SQL作業的用戶端工具部署在ECS上,且ECS與AnalyticDB for MySQL不屬於同一VPC。
建立資料來源。
訪問DolphinScheduler Web介面,在頂部導覽列單擊資料來源中心。
單擊建立資料來源,選擇資料來源類型為Spark。
在彈出的建立資料來源對話方塊中配置如下參數:
參數
說明
資料來源
選擇為Spark。
源名稱
資料來源名稱。
IP主機名稱
請填寫步驟1中擷取的串連地址。串連地址中的
default需替換為實際的資料庫名,並且需要刪除串連地址中的resource_group=<資源群組名稱>尾碼。例如:
jdbc:hive2://amv-t4naxpqk****sparkwho.ads.aliyuncs.com:10000/adb_demo。連接埠
Spark Interactive型資源群組的連接埠號碼,固定為10000。
使用者名稱
AnalyticDB for MySQL的資料庫帳號。
資料庫名
AnalyticDB for MySQL叢集的資料庫名稱。
說明其他參數為選填參數,詳情請參見MySQL資料來源。
單擊測試連接,測試成功後,單擊確定。
建立專案。
訪問DolphinScheduler Web介面,在頂部導覽列單擊專案管理。
單擊建立專案。
在彈出的建立專案對話方塊中配置專案名稱、所屬使用者等參數。
建立工作流程。
單擊已建立的專案名稱,進入工作流程定義頁面。
單擊建立工作流程,進入工作流程DAG編輯頁面。
在頁面左側選擇SQL,並將其拖拽到右側空白畫布中。
在彈出的當前節點設定對話方塊中配置如下參數:
參數
說明
資料來源類型
選擇為Spark。
資料來源執行個體
選擇步驟1建立的資料來源。
SQL類型
SQL作業的類型,例如查詢、非查詢。
SQL語句
業務具體的SQL語句。
單擊確認。
單擊頁面右上方儲存,在彈出的基本資料對話方塊中配置工作流程名稱等參數,單擊確定。
運行工作流程。
單擊工作流程操作列的
按鈕,上線工作流程。單擊工作流程操作列的
按鈕。在彈出的啟動前請先設定參數對話方塊中,配置對應參數。
單擊確定,運行工作流程。
查看工作流程詳細資料。
在左側導覽列單擊任務執行個體。
在操作列,單擊
按鈕,查看工作流程執行結果和日誌資訊。
調度Spark Jar作業
- 說明
您只需要配置
keyId、secretId、regionId、clusterId和rgName這些必填參數。如果您的Spark Jar包在本地,還需要配置ossUploadPath等OSS相關參數。 建立專案。
訪問DolphinScheduler Web介面,在頂部導覽列單擊專案管理。
單擊建立專案。
在彈出的建立專案對話方塊中配置專案名稱、所屬使用者等參數。
建立工作流程。
單擊已建立的專案名稱,進入工作流程定義頁面。
單擊建立工作流程,進入工作流程DAG編輯頁面。
在頁面左側選擇SHELL,並將其拖拽到右側空白畫布中。
在彈出的當前節點設定對話方塊中配置如下參數:
參數
說明
節點名稱
工作流程節點的名稱。
指令碼
Spark-Submit命令列工具的安裝地址及Spark作業的業務代碼。例如:
/root/adb-spark-toolkit-submit/bin/spark-submit --class org.apache.spark.examples.SparkPi --name SparkPi --conf spark.driver.resourceSpec=medium --conf spark.executor.instances=2 --conf spark.executor.resourceSpec=medium local:///tmp/spark-examples.jar 1000。重要使用Spark-Submit命令列工具調度Spark作業時,必須要在指令碼中指定Spark-Submit命令列工具的地址,否則調度任務無法找到Spark-Submit命令。
說明其他參數說明請參見DolphinScheduler任務參數。
單擊確認。
單擊頁面右上方儲存,在彈出的基本資料對話方塊中配置工作流程名稱等參數,單擊確定。
運行工作流程。
單擊工作流程操作列的
按鈕,上線工作流程。單擊工作流程操作列的
按鈕。在彈出的啟動前請先設定參數對話方塊中,配置對應參數。
單擊確定,運行工作流程。
查看工作流程詳細資料。
在左側導覽列單擊任務執行個體。
在操作列,單擊
按鈕,查看工作流程執行結果和日誌資訊。