全部产品
Search
文档中心

DataWorks:Node ADB Spark

更新时间:Nov 11, 2025

DataWorks menyediakan node ADB Spark untuk mengembangkan, menjadwalkan, dan mengintegrasikan tugas AnalyticDB Spark dengan jenis tugas lainnya. Topik ini menjelaskan cara menggunakan node ADB Spark untuk mengembangkan tugas.

Informasi Latar Belakang

ADB Spark adalah mesin komputasi di AnalyticDB untuk menjalankan tugas pemrosesan data Apache Spark skala besar. ADB Spark mendukung analisis data real-time, kueri kompleks, dan aplikasi pembelajaran mesin. Fitur ini menyederhanakan pengembangan dalam bahasa seperti Java, Scala, atau Python serta dapat melakukan penskalaan otomatis untuk mengoptimalkan kinerja dan mengurangi biaya. Anda dapat mengunggah file JAR atau .py untuk mengonfigurasi tugas. Fitur ini ideal untuk industri yang memerlukan pemrosesan efisien terhadap dataset besar dan wawasan real-time, membantu perusahaan mengekstraksi informasi berharga dari data guna mendorong pertumbuhan bisnis.

Prasyarat

Prasyarat berikut untuk AnalyticDB for MySQL telah dipenuhi:

  • Kluster AnalyticDB for MySQL Edisi Dasar telah dibuat di wilayah yang sama dengan ruang kerja DataWorks Anda. Untuk informasi selengkapnya, lihat Buat kluster.

  • Kelompok sumber daya pekerjaan telah dikonfigurasi di kluster AnalyticDB for MySQL. Untuk informasi selengkapnya, lihat Buat kelompok sumber daya pekerjaan.

    Catatan

    Saat Anda menggunakan DataWorks untuk mengembangkan aplikasi Spark, Anda harus membuat kelompok sumber daya pekerjaan.

  • Jika Anda menggunakan OSS untuk penyimpanan di node ADB Spark, pastikan bucket OSS berada di wilayah yang sama dengan kluster AnalyticDB for MySQL.

Prasyarat berikut untuk DataWorks telah dipenuhi:

  • Ruang kerja telah dibuat, opsi Use Data Studio (New Version) dipilih, dan kelompok sumber daya telah disambungkan ke ruang kerja. Untuk informasi selengkapnya, lihat Buat ruang kerja.

  • Kelompok sumber daya disambungkan ke VPC yang sama dengan kluster AnalyticDB for MySQL. Daftar putih alamat IP dikonfigurasi untuk kelompok sumber daya di kluster AnalyticDB for MySQL. Untuk informasi selengkapnya, lihat Konfigurasi daftar putih.

  • Instans kluster AnalyticDB for MySQL telah ditambahkan ke DataWorks sebagai mesin komputasi tipe AnalyticDB for Spark. Konektivitas antara kelompok sumber daya dan mesin komputasi telah diuji. Untuk informasi selengkapnya, lihat Sambungkan mesin komputasi.

  • Folder alur kerja telah dibuat. Untuk informasi selengkapnya, lihat Buat folder alur kerja.

  • Node ADB Spark telah dibuat. Untuk informasi selengkapnya, lihat Buat node untuk alur kerja.

Langkah 1: Kembangkan Node ADB Spark

Pada node ADB Spark, Anda dapat mengonfigurasi konten node berdasarkan Language yang dipilih. Anda dapat menggunakan paket JAR contoh spark-examples_2.12-3.2.0.jar atau file contoh spark_oss.py. Untuk informasi selengkapnya tentang pengembangan konten node, lihat Kembangkan aplikasi Spark menggunakan alat baris perintah spark-submit.

Konfigurasikan konten node ADB Spark (Java/Scala)

Persiapkan file untuk dijalankan (JAR)

Unggah paket JAR contoh ke OSS agar Anda dapat menjalankan file paket JAR dalam konfigurasi node.

  1. Siapkan paket JAR contoh.

    Unduh paket JAR contoh spark-examples_2.12-3.2.0.jar untuk digunakan pada node ADB Spark.

  2. Unggah kode contoh ke OSS.

    1. Masuk ke Konsol OSS. Di panel navigasi sebelah kiri, klik Buckets.

    2. Di halaman Bucket, klik Create Bucket. Di panel Create Bucket, buat bucket di wilayah yang sama dengan kluster AnalyticDB for MySQL.

      Catatan

      Topik ini menggunakan bucket bernama dw-1127 sebagai contoh.

    3. Buat folder penyimpanan eksternal.

      Setelah membuat bucket, klik Go To Bucket. Di halaman Files, klik Create Folder untuk membuat folder penyimpanan eksternal bagi database Anda. Atur Folder Name menjadi db_home.

    4. Unggah file kode contoh spark-examples_2.12-3.2.0.jar ke folder db_home. Untuk informasi selengkapnya, lihat Unggah file menggunakan konsol.

Konfigurasikan Node ADB Spark

Konfigurasikan konten node ADB Spark menggunakan parameter berikut.

Bahasa

Parameter

Deskripsi

Java/Scala

Main JAR Resource

Jalur penyimpanan sumber daya paket JAR di OSS. Contoh: oss://dw-1127/db_home/spark-examples_2.12-3.2.0.jar.

Main Class

Kelas utama tugas dalam paket JAR yang dikompilasi. Nama kelas utama dalam kode contoh adalah org.apache.spark.examples.SparkPi.

Parameters

Masukkan informasi parameter yang ingin Anda teruskan ke kode. Anda dapat mengonfigurasi parameter ini sebagai parameter dinamis dalam format ${var}.

Catatan

Parameter dinamis ${var} dalam contoh dapat diatur menjadi 1000.

Configuration Items

Anda dapat mengonfigurasi parameter waktu proses untuk program Spark di sini. Untuk informasi selengkapnya, lihat Parameter konfigurasi aplikasi Spark. Contoh:

spark.driver.resourceSpec:medium

Konfigurasikan konten node ADB Spark (Python)

Persiapkan file untuk dijalankan (Python)

Unggah file data uji dan kode contoh ke OSS. Hal ini memungkinkan kode contoh dalam konfigurasi node membaca file data uji.

  1. Siapkan data uji.

    Buat file data.txt dan tambahkan konten berikut ke dalam file tersebut.

    Hello,Dataworks
    Hello,OSS
  2. Tulis kode contoh.

    Buat file spark_oss.py dan tambahkan konten berikut ke dalam file spark_oss.py.

    import sys
    
    from pyspark.sql import SparkSession
    
    # Inisialisasi Spark.
    spark = SparkSession.builder.appName('OSS Example').getOrCreate()
    # Baca file yang ditentukan. Jalur file ditentukan oleh nilai yang diteruskan melalui args.
    textFile = spark.sparkContext.textFile(sys.argv[1])
    # Hitung dan cetak jumlah baris dalam file.
    print("File total lines: " + str(textFile.count()))
    # Cetak baris pertama file.
    print("First line is: " + textFile.first())
    
  3. Unggah data uji dan kode contoh ke OSS.

    1. Masuk ke Konsol OSS. Di panel navigasi sebelah kiri, klik Buckets.

    2. Di halaman Bucket, klik Create Bucket. Di panel Create Bucket, buat bucket di wilayah yang sama dengan kluster AnalyticDB for MySQL.

      Catatan

      Topik ini menggunakan bucket bernama dw-1127 sebagai contoh.

    3. Buat folder penyimpanan eksternal.

      Setelah bucket dibuat, klik Go To Bucket. Di halaman Files, klik Create Folder untuk membuat folder penyimpanan eksternal bagi database Anda. Atur Folder Name menjadi db_home.

    4. Unggah file data uji data.txt dan file kode contoh spark_oss.py ke folder db_home. Untuk informasi selengkapnya, lihat Unggah file menggunakan konsol.

Konfigurasikan Node ADB Spark

Konfigurasikan konten node ADB Spark menggunakan parameter berikut.

Bahasa

Parameter

Deskripsi

Python

Main Package

Masukkan lokasi penyimpanan file kode contoh yang ingin Anda jalankan. Contoh: oss://dw-1127/db_home/spark_oss.py.

Parameters

Masukkan informasi parameter yang ingin Anda teruskan. Informasi contoh adalah lokasi penyimpanan file data uji yang akan dibaca. Contoh: oss://dw-1127/db_home/data.txt.

Configuration Items

Anda dapat mengonfigurasi parameter waktu proses untuk program Spark di sini. Untuk informasi selengkapnya, lihat Parameter konfigurasi aplikasi Spark. Contoh:

spark.driver.resourceSpec:medium

Langkah 2: Debug Node ADB Spark

  1. Konfigurasikan properti debug untuk node ADB Spark.

    Di bagian Debug Configurations di sebelah kanan node, konfigurasikan Compute Engine, ADB Compute Resource Group, Scheduling Resource Group, dan Compute CUs sebagai berikut.

    Jenis parameter

    Parameter

    Deskripsi

    Computing Resources

    Compute Engine

    Pilih mesin komputasi AnalyticDB for Spark yang telah Anda sambungkan.

    ADB Compute Resource Group

    Pilih grup sumber daya pekerjaan yang Anda buat di kluster AnalyticDB for MySQL. Untuk informasi lebih lanjut, lihat Ikhtisar grup sumber daya.

    DataWorks Configurations

    Resource Group

    Pilih kelompok sumber daya yang lulus uji konektivitas saat Anda menyambungkan mesin komputasi AnalyticDB for Spark.

    Compute CUs

    Node saat ini menggunakan nilai CU default. Anda tidak perlu mengubah nilai CU.

  2. Debug dan jalankan node ADB Spark.

    Untuk menjalankan tugas node, klik Save lalu Run.

Langkah 3: Jadwalkan Node ADB Spark

  1. Konfigurasikan properti penjadwalan untuk node ADB Spark.

    Untuk menjalankan tugas node secara berkala, konfigurasikan parameter berikut di bagian Scheduling Policy pada tab Scheduling Configurations, yang terletak di sisi kanan node. Untuk informasi selengkapnya tentang konfigurasi parameter, lihat Konfigurasi penjadwalan untuk node.

    Parameter

    Deskripsi

    Compute Resources

    Pilih mesin komputasi AnalyticDB for Spark yang telah Anda sambungkan.

    ADB Compute Resource Group

    Pilih grup sumber daya pekerjaan yang Anda buat di kluster AnalyticDB for MySQL. Untuk informasi lebih lanjut, lihat Ikhtisar grup sumber daya.

    Resource Group

    Pilih kelompok sumber daya yang lulus uji konektivitas saat Anda menyambungkan mesin komputasi AnalyticDB for Spark.

    Compute CUs

    Node saat ini menggunakan nilai CU default. Anda tidak perlu mengubah nilai CU.

  2. Publikasikan node ADB Spark.

    Setelah Anda mengonfigurasi tugas node, Anda harus mempublikasikan node tersebut. Untuk informasi selengkapnya, lihat Publikasikan node atau alur kerja.

Apa yang Harus Dilakukan Selanjutnya

Setelah tugas dipublikasikan, Anda dapat melihat status berjalan tugas yang dipicu otomatis di Pusat Operasi. Untuk informasi selengkapnya, lihat Memulai dengan Pusat Operasi.