全部产品
Search
文档中心

AnalyticDB:Gunakan DolphinScheduler untuk menjadwalkan pekerjaan Spark

更新时间:Jul 02, 2025

DolphinScheduler adalah platform orkestrasi alur kerja open source yang terdistribusi dan dapat diperluas dengan antarmuka visual Directed Acyclic Graph (DAG) yang kuat. DolphinScheduler membantu Anda mengeksekusi dan mengelola alur kerja untuk sejumlah besar data secara efisien. Anda dapat membuat, mengedit, dan menjadwalkan pekerjaan Spark dari AnalyticDB for MySQL melalui antarmuka web DolphinScheduler.

Prasyarat

Jadwalkan pekerjaan Spark SQL

AnalyticDB for MySQL memungkinkan Anda mengeksekusi Spark SQL dalam mode batch atau interaktif. Prosedur penjadwalan bervariasi berdasarkan mode eksekusi.

Mode batch

  1. Instal alat baris perintah spark-submit dan tentukan parameter yang relevan.

    Catatan

    Anda hanya perlu menentukan parameter berikut: keyId, secretId, regionId, clusterId, dan rgName.

  2. Buat proyek.

    1. Akses antarmuka web DolphinScheduler. Di bilah navigasi atas, klik Project.

    2. Klik Create Project.

    3. Di kotak dialog Create Project, konfigurasikan parameter seperti Project Name dan Owned Users.

  3. Buat alur kerja.

    1. Klik nama proyek yang telah dibuat. Di panel navigasi kiri, pilih Alur Kerja > Definisi Alur Kerja untuk masuk ke halaman Workflow Definition.

    2. Klik Create Workflow untuk masuk ke halaman workflow DAG edit.

    3. Di daftar sisi kiri halaman, pilih SHELL lalu seret ke kanvas sisi kanan.

    4. Di kotak dialog Current node settings, konfigurasikan parameter yang dijelaskan dalam tabel berikut.

      Parameter

      Deskripsi

      Node Name

      Nama node alur kerja.

      Script

      Path instalasi alat spark-submit dan kode bisnis pekerjaan Spark. Contoh: /root/adb-spark-toolkit-submit/bin/spark-submit --class com.aliyun.adb.spark.sql.OfflineSqlTemplate local:///opt/spark/jars/offline-sql.jar "show databases" "select 100".

      Penting

      Saat menggunakan alat spark-submit untuk menjadwalkan pekerjaan Spark, Anda harus menentukan path instalasi alat spark-submit dalam skrip. Jika tidak, tugas penjadwalan mungkin gagal menemukan perintah spark-submit.

      Catatan

      Untuk informasi tentang parameter lainnya, lihat Lampiran Parameter Tugas DolphinScheduler.

    5. Klik Confirm.

    6. Di pojok kanan atas halaman, klik Save. Di kotak dialog Basic Information, konfigurasikan parameter seperti Workflow Name. Klik Confirm.

  4. Jalankan alur kerja.

    1. Temukan alur kerja yang telah dibuat dan klik ikon image di kolom Operation untuk mempublikasikan alur kerja.

    2. Klik ikon image di kolom Operation.

    3. Di kotak dialog Please set the parameters before starting, konfigurasikan parameter.

    4. Klik Confirm untuk menjalankan alur kerja.

  5. Lihat detail alur kerja.

    1. Di panel navigasi kiri, pilih Tugas > Task Instance.

    2. Temukan tugas dari alur kerja dan klik ikon image di kolom Operation untuk melihat hasil eksekusi dan log alur kerja.

Mode interaktif

  1. Dapatkan URL koneksi grup sumber daya interaktif Spark.

    1. Masuk ke konsol AnalyticDB for MySQL. Di pojok kiri atas konsol, pilih wilayah. Di panel navigasi kiri, klik Clusters. Temukan kluster yang ingin Anda kelola dan klik ID kluster.

    2. Di panel navigasi kiri, pilih Cluster Management > Resource Management. Pada halaman yang muncul, klik tab Resource Groups.

    3. Temukan grup sumber daya interaktif Spark yang telah Anda buat dan klik Details di kolom Actions untuk melihat URL koneksi internal atau publik dari grup sumber daya. Anda dapat mengklik ikon image di dalam tanda kurung di sebelah nomor port yang sesuai untuk menyalin URL koneksi.

      Klik Apply for Endpoint di sebelah Public Endpoint untuk mengajukan endpoint publik secara manual dalam skenario berikut:

      • Alat klien yang digunakan untuk mengirimkan pekerjaan Spark SQL diterapkan di server lokal atau eksternal.

      • Alat klien yang digunakan untuk mengirimkan pekerjaan Spark SQL diterapkan pada instance Elastic Compute Service (ECS) yang berada di virtual private cloud (VPC) yang berbeda dari kluster AnalyticDB for MySQL Anda.

  2. Buat sumber data.

    1. Akses antarmuka web DolphinScheduler. Di bilah navigasi atas, klik Datasource..

    2. Klik Create DataSource.

    3. Di kotak dialog Buat Sumber Data, konfigurasikan parameter yang dijelaskan dalam tabel berikut.

      Parameter

      Deskripsi

      DataSource

      Jenis sumber data. Pilih SPARK.

      Datasource Name

      Nama sumber data.

      IP

      Endpoint yang diperoleh di Langkah 1. Ganti default di endpoint dengan nama database aktual dan hapus akhiran resource_group=<resource group name> dari endpoint.

      Contoh: jdbc:hive2://amv-t4naxpqk****sparkwho.ads.aliyuncs.com:10000/adb_demo.

      Port

      Nomor port untuk grup sumber daya interaktif Spark. Atur nilainya menjadi 10000.

      User Name

      Nama akun database dari kluster AnalyticDB for MySQL.

      Database Name

      Nama database di kluster AnalyticDB for MySQL.

      Catatan

      Untuk informasi tentang parameter opsional lainnya, lihat MySQL.

    4. Klik Test Connect. Setelah tes berhasil, klik Confirm.

  3. Buat proyek.

    1. Akses antarmuka web DolphinScheduler. Di bilah navigasi atas, klik Project.

    2. Klik Create Project.

    3. Di kotak dialog Create Project, konfigurasikan parameter seperti Project Name dan Owned Users.

  4. Buat alur kerja.

    1. Klik nama proyek yang telah dibuat. Di panel navigasi kiri, pilih Alur Kerja > Definisi Alur Kerja untuk masuk ke halaman Workflow Definition.

    2. Klik Create Workflow untuk masuk ke halaman workflow DAG edit.

    3. Di daftar sisi kiri halaman, pilih SQL, lalu seret ke kanvas sisi kanan.

    4. Dalam kotak dialog Current node settings, konfigurasikan parameter yang dijelaskan pada tabel berikut.

      Parameter

      Deskripsi

      Datasource types

      Jenis sumber data. Pilih SPARK.

      Datasource instances

      Sumber data yang dibuat di Langkah 1.

      SQL Type

      Jenis pekerjaan SQL. Nilai yang valid: Query dan Non Query.

      SQL Statement

      Pernyataan SQL.

    5. Klik Confirm.

    6. Di pojok kanan atas halaman, klik Save. Di kotak dialog Basic Information, konfigurasikan parameter seperti Workflow Name. Klik Confirm.

  5. Jalankan alur kerja.

    1. Temukan alur kerja yang telah dibuat dan klik ikon image di kolom Operation untuk mempublikasikan alur kerja.

    2. Klik ikon image di kolom Operation.

    3. Di kotak dialog Please set the parameters before starting, konfigurasikan parameter.

    4. Klik Confirm untuk menjalankan alur kerja.

  6. Lihat detail alur kerja.

    1. Di panel navigasi kiri, pilih Tugas > Task Instance.

    2. Temukan tugas dari alur kerja dan klik ikon image di kolom Operation untuk melihat hasil eksekusi dan log alur kerja.

Jadwalkan pekerjaan Spark JAR

  1. Instal alat baris perintah spark-submit dan tentukan parameter yang relevan.

    Catatan

    Anda hanya perlu menentukan parameter berikut: keyId, secretId, regionId, clusterId, dan rgName. Jika paket Spark JAR Anda disimpan di perangkat lokal Anda, Anda harus menentukan parameter Object Storage Service (OSS) seperti ossUploadPath.

  2. Buat proyek.

    1. Akses antarmuka web DolphinScheduler. Di bilah navigasi atas, klik Project.

    2. Klik Create Project.

    3. Di kotak dialog Create Project, konfigurasikan parameter seperti Project Name dan Owned Users.

  3. Buat alur kerja.

    1. Klik nama proyek yang telah dibuat. Di panel navigasi kiri, pilih Alur Kerja > Definisi Alur Kerja untuk masuk ke halaman Workflow Definition.

    2. Klik Create Workflow untuk masuk ke halaman workflow DAG edit.

    3. Di daftar sisi kiri halaman, pilih SHELL dan seret ke kanvas di sisi kanan.

    4. Di kotak dialog Current node settings, konfigurasikan parameter berikut sesuai dengan tabel di bawah ini.

      Parameter

      Deskripsi

      Nama Node

      Nama node alur kerja.

      Skrip

      Path instalasi alat spark-submit dan kode bisnis pekerjaan Spark. Contoh:

      /root/adb-spark-toolkit-submit/bin/spark-submit --class org.apache.spark.examples.SparkPi --name SparkPi --conf spark.driver.resourceSpec=medium --conf spark.executor.instances=2 --conf spark.executor.resourceSpec=medium local:///tmp/spark-examples.jar 1000.

      Penting

      Saat menjadwalkan pekerjaan Spark, Anda harus menentukan path instalasi alat spark-submit dalam skrip. Jika tidak, tugas penjadwalan mungkin gagal menemukan perintah spark-submit.

      Catatan

      Untuk informasi tentang parameter lainnya, lihat Lampiran Parameter Tugas DolphinScheduler.

    5. Klik Confirm.

    6. Di pojok kanan atas halaman, klik Save. Di kotak dialog Basic Information, konfigurasikan parameter seperti Workflow Name. Klik Confirm.

  4. Jalankan alur kerja.

    1. Temukan alur kerja yang telah dibuat dan klik ikon image di kolom Operation untuk mempublikasikan alur kerja.

    2. Klik ikon image di kolom Operation.

    3. Di kotak dialog Please set the parameters before starting, konfigurasikan parameter.

    4. Klik Confirm untuk menjalankan alur kerja.

  5. Lihat detail alur kerja.

    1. Di panel navigasi kiri, pilih Tugas > Task Instance.

    2. Temukan tugas dari alur kerja dan klik ikon image di kolom Operation untuk melihat hasil eksekusi dan log alur kerja.