全部產品
Search
文件中心

DataWorks:ADB Spark節點

更新時間:Feb 05, 2026

DataWorks的ADB Spark節點可進行AnalyticDB Spark任務的開發和周期性調度,以及與其他作業的整合操作。本文為您介紹使用ADB Spark節點進行任務開發的主要流程。

背景資訊

ADB Spark是AnalyticDB服務中專為運行Apache Spark大規模資料處理任務設計的計算引擎,支援即時資料分析、複雜查詢和機器學習應用。它通過多語言支援(如Java、Scala、Python)簡化開發流程,並能自動擴充以最佳化效能和成本。使用者可通過上傳相關Jar.py檔案配置任務,適用於需高效處理海量資料並實現即時洞察的各類行業,助力企業從資料中擷取有價值的資訊並推動業務發展。

前提條件

AnalyticDB for MySQL前提條件:

  • 已建立與工作空間同一地區下的AnalyticDB for MySQL基礎版叢集,詳情請參見建立叢集

  • 已在AnalyticDB for MySQL叢集中配置Job型資源群組,詳情請參見建立Job型資源群組

    說明

    通過DataWorks開發Spark應用時,需建立Job型資源群組。

  • 如需ADB Spark節點中使用OSS儲存,須確保OSS儲存與AnalyticDB for MySQL叢集處於相同地區。

DataWorks前提條件:

  • 已有勾選使用新版資料開發(Data Studio)的工作空間,並已完成資源群組的綁定,詳情請參見建立工作空間

  • 資源群組需要綁定與AnalyticDB for MySQL叢集同一個VPC,並在AnalyticDB for MySQL叢集中配置資源群組IP地址白名單,詳情請參見設定白名單

  • 您需將建立的AnalyticDB for MySQL叢集執行個體添加到DataWorks作為計算資源,計算資源類型為AnalyticDB for Spark,並通過資源群組測試連通性,詳情請參見綁定計算資源

  • 已開發建立專案目錄,詳情請參見專案目錄

  • 已建立ADB Spark節點,詳情請參見建立調度工作流程的節點

步驟一:開發ADB Spark節點

在ADB Spark節點裡面,您可根據語言類型的不同,使用範例程式碼準備的樣本Jar包spark-examples_2.12-3.2.0.jar或者spark_oss.py檔案對節點內容進行相應配置。節點內容開發詳情請參見通過Spark-Submit命令列工具開發Spark應用

ADB Spark節點內容配置說明(Java/Scala語言類型)

準備待執行檔案(Jar)

您需將樣本Jar包上傳至OSS中,以供後續在節點配置中執行該Jar包檔案。

  1. 準備樣本Jar包。

    您可直接下載spark-examples_2.12-3.2.0.jar該樣本Jar包,用於後續ADB Spark節點使用。

  2. 將範例程式碼上傳到OSS。

    1. 登入OSS管理主控台單擊左側導覽列的Bucket列表

    2. 進入Bucket列表頁面,單擊建立Bucket,在建立 Bucket詳情頁面選擇與AnalyticDB for MySQL叢集相同的地區建立Bucket。

      說明

      本文樣本使用的Bucket為dw-1127

    3. 建立外部儲存目錄。

      完成建立後,單擊進入Bucket,在檔案清單頁面單擊建立目錄,建立資料庫外部儲存目錄,配置目錄名db_home

    4. 請將您所建立的範例程式碼spark-examples_2.12-3.2.0.jar檔案上傳至db_home目錄下,詳情參見控制台上傳檔案

配置ADB Spark節點

您可參照以下參數配置資訊,配置ADB Spark節點內容。

語言類型

參數名稱

參數描述

Java/Scala

主Jar資源

Jar包資源在OSS上的儲存路徑。樣本值如:oss://dw-1127/db_home/spark-examples_2.12-3.2.0.jar

Main Class

為您實際編譯的JAR包中的任務主Class。範例程式碼中的主類名稱為org.apache.spark.examples.SparkPi

參數

填寫您所需傳入代碼的參數資訊。您可將該參數配置為動態參數${var}

說明

樣本中的動態參數${var}可設定為1000

配置項

您可在此配置spark程式運行參數,詳情請參見Spark應用配置參數說明。樣本如下:

spark.driver.resourceSpec:medium

ADB Spark節點內容配置說明(Python語言類型)

準備待執行檔案(Python)

您需按照以下操作步驟,完成測試資料檔案、範例程式碼上傳到OSS,以供後續在節點配置中執行該範例程式碼讀取測試資料檔案資訊。

  1. 準備測試資料。

    建立一個data.txt檔案,在檔案中添加以下內容。

    Hello,Dataworks
    Hello,OSS
  2. 編寫範例程式碼。

    您需建立一個spark_oss.py檔案,在spark_oss.py檔案中添加以下內容。

    import sys
    
    from pyspark.sql import SparkSession
    
    # 初始Spark
    spark = SparkSession.builder.appName('OSS Example').getOrCreate()
    # 讀取指定的檔案,檔案路徑由args傳入的參數值來指定
    textFile = spark.sparkContext.textFile(sys.argv[1])
    # 計算檔案行數並列印
    print("File total lines: " + str(textFile.count()))
    # 列印檔案的第一行內容
    print("First line is: " + textFile.first())
    
  3. 上傳測試資料及範例程式碼到OSS。

    1. 登入OSS管理主控台單擊左側導覽列的Bucket列表

    2. 進入Bucket列表頁面,單擊建立Bucket,在建立 Bucket詳情頁面選擇與AnalyticDB for MySQL叢集相同的地區建立Bucket。

      說明

      本文樣本使用的Bucket為dw-1127

    3. 建立外部儲存目錄。

      完成建立後,單擊進入Bucket,在檔案清單頁面單擊建立目錄,建立資料庫外部儲存目錄,配置目錄名db_home

    4. 請將您所建立的測試資料data.txt檔案、範例程式碼spark_oss.py檔案上傳至db_home目錄下,詳情參見控制台上傳檔案

配置ADB Spark節點

您可參照以下參數配置資訊,配置ADB Spark節點內容。

語言類型

參數名稱

參數描述

Python

主程式包

填寫您所需執行的範例程式碼檔案儲存體位置,樣本值如oss://dw-1127/db_home/spark_oss.py

參數

填寫您所需傳入的參數資訊。樣本資訊為讀寫的測試資料檔案儲存位置,樣本值如oss://dw-1127/db_home/data.txt

配置項

您可在此配置spark程式運行參數,詳情請參見Spark應用配置參數說明。樣本如下:

spark.driver.resourceSpec:medium

步驟二:調試ADB Spark節點

  1. 配置ADB Spark調試屬性。

    您可在節點右側回合組態中配置計算資源ADB計算資源群組資源群組計算CU資訊,具體參數資訊如下。

    參數類型

    參數名稱

    描述

    計算資源

    計算資源

    選擇您所綁定的AnalyticDB for Spark計算資源。

    ADB計算資源群組

    選擇您在AnalyticDB for MySQL叢集中建立的Job型資源群組。詳情請參見資源群組介紹

    資源群組

    資源群組

    選擇您綁定AnalyticDB for Spark計算資源時已通過測試連通性的資源群組。

    計算CU

    當前節點使用預設CU值,無需修改CU。

  2. 調試運行ADB Spark節點。

    執行節點任務,您需單擊儲存運行節點任務。

步驟三:調度ADB Spark節點

  1. 配置ADB Spark節點調度屬性。

    如需定期執行節點任務,請根據業務需求在節點右側調度配置調度策略中配置以下參數資訊,更多參數配置,詳情請參見節點調度配置

    參數名稱

    描述

    計算資源

    選擇您所綁定的AnalyticDB for Spark計算資源。

    ADB計算資源群組

    選擇您在AnalyticDB for MySQL叢集中建立的Job型資源群組。詳情請參見資源群組介紹

    資源群組

    選擇您綁定AnalyticDB for Spark計算資源時已通過測試連通性的資源群組。

    計算CU

    當前節點使用預設CU值,無需修改CU。

  2. 發布ADB Spark節點。

    節點任務配置完成後,需對節點進行發布。詳情請參見節點/工作流程發布

後續步驟

任務發布後,您可以在營運中心查看周期任務的運行情況。詳情請參見營運中心入門