DataWorks的ADB Spark節點可進行AnalyticDB Spark任務的開發和周期性調度,以及與其他作業的整合操作。本文為您介紹使用ADB Spark節點進行任務開發的主要流程。
背景資訊
ADB Spark是AnalyticDB服務中專為運行Apache Spark大規模資料處理任務設計的計算引擎,支援即時資料分析、複雜查詢和機器學習應用。它通過多語言支援(如Java、Scala、Python)簡化開發流程,並能自動擴充以最佳化效能和成本。使用者可通過上傳相關Jar或.py檔案配置任務,適用於需高效處理海量資料並實現即時洞察的各類行業,助力企業從資料中擷取有價值的資訊並推動業務發展。
前提條件
AnalyticDB for MySQL前提條件:
已建立與工作空間同一地區下的AnalyticDB for MySQL基礎版叢集,詳情請參見建立叢集。
已在AnalyticDB for MySQL叢集中配置Job型資源群組,詳情請參見建立Job型資源群組。
說明通過DataWorks開發Spark應用時,需建立Job型資源群組。
如需ADB Spark節點中使用OSS儲存,須確保OSS儲存與AnalyticDB for MySQL叢集處於相同地區。
DataWorks前提條件:
步驟一:開發ADB Spark節點
在ADB Spark節點裡面,您可根據語言類型的不同,使用範例程式碼準備的樣本Jar包spark-examples_2.12-3.2.0.jar或者spark_oss.py檔案對節點內容進行相應配置。節點內容開發詳情請參見通過Spark-Submit命令列工具開發Spark應用。
ADB Spark節點內容配置說明(Java/Scala語言類型)
準備待執行檔案(Jar)
您需將樣本Jar包上傳至OSS中,以供後續在節點配置中執行該Jar包檔案。
準備樣本Jar包。
您可直接下載spark-examples_2.12-3.2.0.jar該樣本Jar包,用於後續ADB Spark節點使用。
將範例程式碼上傳到OSS。
配置ADB Spark節點
您可參照以下參數配置資訊,配置ADB Spark節點內容。
語言類型 | 參數名稱 | 參數描述 |
Java/Scala | 主Jar資源 | Jar包資源在OSS上的儲存路徑。樣本值如: |
Main Class | 為您實際編譯的JAR包中的任務主Class。範例程式碼中的主類名稱為 | |
參數 | 填寫您所需傳入代碼的參數資訊。您可將該參數配置為動態參數 說明 樣本中的動態參數 | |
配置項 | 您可在此配置spark程式運行參數,詳情請參見Spark應用配置參數說明。樣本如下: |
ADB Spark節點內容配置說明(Python語言類型)
準備待執行檔案(Python)
您需按照以下操作步驟,完成測試資料檔案、範例程式碼上傳到OSS,以供後續在節點配置中執行該範例程式碼讀取測試資料檔案資訊。
準備測試資料。
建立一個
data.txt檔案,在檔案中添加以下內容。Hello,Dataworks Hello,OSS編寫範例程式碼。
您需建立一個
spark_oss.py檔案,在spark_oss.py檔案中添加以下內容。import sys from pyspark.sql import SparkSession # 初始Spark spark = SparkSession.builder.appName('OSS Example').getOrCreate() # 讀取指定的檔案,檔案路徑由args傳入的參數值來指定 textFile = spark.sparkContext.textFile(sys.argv[1]) # 計算檔案行數並列印 print("File total lines: " + str(textFile.count())) # 列印檔案的第一行內容 print("First line is: " + textFile.first())上傳測試資料及範例程式碼到OSS。
配置ADB Spark節點
您可參照以下參數配置資訊,配置ADB Spark節點內容。
語言類型 | 參數名稱 | 參數描述 |
Python | 主程式包 | 填寫您所需執行的範例程式碼檔案儲存體位置,樣本值如 |
參數 | 填寫您所需傳入的參數資訊。樣本資訊為讀寫的測試資料檔案儲存位置,樣本值如 | |
配置項 | 您可在此配置spark程式運行參數,詳情請參見Spark應用配置參數說明。樣本如下: |
步驟二:調試ADB Spark節點
配置ADB Spark調試屬性。
您可在節點右側回合組態中配置計算資源、ADB計算資源群組、資源群組及計算CU資訊,具體參數資訊如下。
參數類型
參數名稱
描述
計算資源
計算資源
選擇您所綁定的AnalyticDB for Spark計算資源。
ADB計算資源群組
選擇您在AnalyticDB for MySQL叢集中建立的Job型資源群組。詳情請參見資源群組介紹。
資源群組
資源群組
選擇您綁定AnalyticDB for Spark計算資源時已通過測試連通性的資源群組。
計算CU
當前節點使用預設CU值,無需修改CU。
調試運行ADB Spark節點。
執行節點任務,您需單擊儲存並運行節點任務。
步驟三:調度ADB Spark節點
配置ADB Spark節點調度屬性。
如需定期執行節點任務,請根據業務需求在節點右側調度配置的調度策略中配置以下參數資訊,更多參數配置,詳情請參見節點調度配置。
參數名稱
描述
計算資源
選擇您所綁定的AnalyticDB for Spark計算資源。
ADB計算資源群組
選擇您在AnalyticDB for MySQL叢集中建立的Job型資源群組。詳情請參見資源群組介紹。
資源群組
選擇您綁定AnalyticDB for Spark計算資源時已通過測試連通性的資源群組。
計算CU
當前節點使用預設CU值,無需修改CU。
發布ADB Spark節點。
節點任務配置完成後,需對節點進行發布。詳情請參見節點/工作流程發布。
後續步驟
任務發布後,您可以在營運中心查看周期任務的運行情況。詳情請參見營運中心入門。