開發並調度ADB Spark節點-巨量資料開發治理平台 DataWorks-阿里雲

DataWorks的ADB Spark節點可進行AnalyticDB Spark任務的開發和周期性調度，以及與其他作業的整合操作。本文為您介紹使用ADB Spark節點進行任務開發的主要流程。

背景資訊

ADB Spark是AnalyticDB服務中專為運行Apache Spark大規模資料處理任務設計的計算引擎，支援即時資料分析、複雜查詢和機器學習應用。它通過多語言支援（如Java、Scala、Python）簡化開發流程，並能自動擴充以最佳化效能和成本。使用者可通過上傳相關Jar或.py檔案配置任務，適用於需高效處理海量資料並實現即時洞察的各類行業，助力企業從資料中擷取有價值的資訊並推動業務發展。

前提條件

AnalyticDB for MySQL前提條件：

已建立與工作空間同一地區下的AnalyticDB for MySQL基礎版叢集，詳情請參見建立叢集。
已在AnalyticDB for MySQL叢集中配置Job型資源群組，詳情請參見建立Job型資源群組。
說明
通過DataWorks開發Spark應用時，需建立Job型資源群組。
如需ADB Spark節點中使用OSS儲存，須確保OSS儲存與AnalyticDB for MySQL叢集處於相同地區。

DataWorks前提條件：

已有勾選使用新版資料開發（Data Studio）的工作空間，並已完成資源群組的綁定，詳情請參見建立工作空間。
資源群組需要綁定與AnalyticDB for MySQL叢集同一個VPC，並在AnalyticDB for MySQL叢集中配置資源群組IP地址白名單，詳情請參見設定白名單。
您需將建立的AnalyticDB for MySQL叢集執行個體添加到DataWorks作為計算資源，計算資源類型為AnalyticDB for Spark，並通過資源群組測試連通性，詳情請參見綁定計算資源。
已開發建立專案目錄，詳情請參見專案目錄。
已建立ADB Spark節點，詳情請參見建立調度工作流程的節點。

步驟一：開發ADB Spark節點

在ADB Spark節點裡面，您可根據語言類型的不同，使用範例程式碼準備的樣本Jar包spark-examples_2.12-3.2.0.jar或者spark_oss.py檔案對節點內容進行相應配置。節點內容開發詳情請參見通過Spark-Submit命令列工具開發Spark應用。

ADB Spark節點內容配置說明（Java/Scala語言類型）

準備待執行檔案（Jar）

您需將樣本Jar包上傳至OSS中，以供後續在節點配置中執行該Jar包檔案。

準備樣本Jar包。
您可直接下載spark-examples_2.12-3.2.0.jar該樣本Jar包，用於後續ADB Spark節點使用。
將範例程式碼上傳到OSS。
1. 登入OSS管理主控台，單擊左側導覽列的Bucket列表。
2. 進入Bucket列表頁面，單擊建立Bucket，在建立 Bucket詳情頁面選擇與AnalyticDB for MySQL叢集相同的地區建立Bucket。
  說明
  本文樣本使用的Bucket為dw-1127。
3. 建立外部儲存目錄。
  完成建立後，單擊進入Bucket，在檔案清單頁面單擊建立目錄，建立資料庫外部儲存目錄，配置目錄名為db_home。
4. 請將您所建立的範例程式碼spark-examples_2.12-3.2.0.jar檔案上傳至db_home目錄下，詳情參見控制台上傳檔案。

配置ADB Spark節點

您可參照以下參數配置資訊，配置ADB Spark節點內容。

語言類型	參數名稱	參數描述
Java/Scala	主Jar資源	Jar包資源在OSS上的儲存路徑。樣本值如：`oss://dw-1127/db_home/spark-examples_2.12-3.2.0.jar`。
	Main Class	為您實際編譯的JAR包中的任務主Class。範例程式碼中的主類名稱為`org.apache.spark.examples.SparkPi`。
	參數	填寫您所需傳入代碼的參數資訊。您可將該參數配置為動態參數`${var}`。說明樣本中的動態參數`${var}`可設定為`1000`。
	配置項	您可在此配置spark程式運行參數，詳情請參見Spark應用配置參數說明。樣本如下： `spark.driver.resourceSpec:medium`

ADB Spark節點內容配置說明（Python語言類型）

準備待執行檔案（Python）

您需按照以下操作步驟，完成測試資料檔案、範例程式碼上傳到OSS，以供後續在節點配置中執行該範例程式碼讀取測試資料檔案資訊。

準備測試資料。
建立一個data.txt檔案，在檔案中添加以下內容。
```
Hello,Dataworks
Hello,OSS
```

編寫範例程式碼。

您需建立一個spark_oss.py檔案，在spark_oss.py檔案中添加以下內容。

import sys

from pyspark.sql import SparkSession

# 初始Spark
spark = SparkSession.builder.appName('OSS Example').getOrCreate()
# 讀取指定的檔案，檔案路徑由args傳入的參數值來指定
textFile = spark.sparkContext.textFile(sys.argv[1])
# 計算檔案行數並列印
print("File total lines: " + str(textFile.count()))
# 列印檔案的第一行內容
print("First line is: " + textFile.first())

上傳測試資料及範例程式碼到OSS。
1. 登入OSS管理主控台，單擊左側導覽列的Bucket列表。
2. 進入Bucket列表頁面，單擊建立Bucket，在建立 Bucket詳情頁面選擇與AnalyticDB for MySQL叢集相同的地區建立Bucket。
  說明
  本文樣本使用的Bucket為dw-1127。
3. 建立外部儲存目錄。
  完成建立後，單擊進入Bucket，在檔案清單頁面單擊建立目錄，建立資料庫外部儲存目錄，配置目錄名為db_home。
4. 請將您所建立的測試資料data.txt檔案、範例程式碼spark_oss.py檔案上傳至db_home目錄下，詳情參見控制台上傳檔案。

配置ADB Spark節點

您可參照以下參數配置資訊，配置ADB Spark節點內容。

語言類型	參數名稱	參數描述
Python	主程式包	填寫您所需執行的範例程式碼檔案儲存體位置，樣本值如`oss://dw-1127/db_home/spark_oss.py`。
	參數	填寫您所需傳入的參數資訊。樣本資訊為讀寫的測試資料檔案儲存位置，樣本值如`oss://dw-1127/db_home/data.txt`。
	配置項	您可在此配置spark程式運行參數，詳情請參見Spark應用配置參數說明。樣本如下： `spark.driver.resourceSpec:medium`

步驟二：調試ADB Spark節點

配置ADB Spark調試屬性。

您可在節點右側回合組態中配置計算資源、ADB計算資源群組、資源群組及計算CU資訊，具體參數資訊如下。

參數類型	參數名稱	描述
計算資源	計算資源	選擇您所綁定的AnalyticDB for Spark計算資源。
計算資源	ADB計算資源群組	選擇您在AnalyticDB for MySQL叢集中建立的Job型資源群組。詳情請參見資源群組介紹。
資源群組	資源群組	選擇您綁定AnalyticDB for Spark計算資源時已通過測試連通性的資源群組。
資源群組	計算CU	當前節點使用預設CU值，無需修改CU。

調試運行ADB Spark節點。
執行節點任務，您需單擊儲存並運行節點任務。

步驟三：調度ADB Spark節點

配置ADB Spark節點調度屬性。

如需定期執行節點任務，請根據業務需求在節點右側調度配置的調度策略中配置以下參數資訊，更多參數配置，詳情請參見節點調度配置。

參數名稱	描述
計算資源	選擇您所綁定的AnalyticDB for Spark計算資源。
ADB計算資源群組	選擇您在AnalyticDB for MySQL叢集中建立的Job型資源群組。詳情請參見資源群組介紹。
資源群組	選擇您綁定AnalyticDB for Spark計算資源時已通過測試連通性的資源群組。
計算CU	當前節點使用預設CU值，無需修改CU。

發布ADB Spark節點。
節點任務配置完成後，需對節點進行發布。詳情請參見節點/工作流程發布。

後續步驟

任務發布後，您可以在營運中心查看周期任務的運行情況。詳情請參見營運中心入門。