全部产品
Search
文档中心

E-MapReduce:Gunakan DolphinScheduler untuk mengirimkan pekerjaan Spark

更新时间:Jul 02, 2025

DolphinScheduler adalah platform orkestrasi alur kerja open source yang terdistribusi dan dapat diperluas dengan antarmuka visual Directed Acyclic Graph (DAG) yang kuat. DolphinScheduler membantu Anda menjalankan dan mengelola alur kerja untuk sejumlah besar data secara efisien. Topik ini menjelaskan cara membuat, mengedit, dan menjadwalkan pekerjaan Spark di web UI DolphinScheduler dengan mudah.

Informasi latar belakang

Kode DolphinScheduler AliyunServerlessSpark Task Plugin telah berhasil digabungkan ke cabang utama Apache DolphinScheduler dan akan dirilis di versi resmi selanjutnya. Sebelum versi baru dirilis, Anda dapat mengkompilasi kode cabang utama AliyunServerlessSpark Task Plugin atau mengintegrasikan AliyunServerlessSpark Task Plugin ke dalam proyek Anda menggunakan permintaan tarik terkait (PR) dari perintah cherry-pick.

Prasyarat

  • Java Development Kit (JDK) 1.8 atau yang lebih baru telah diinstal.

  • AliyunServerlessSpark Task Plugin telah diinstal menggunakan salah satu metode berikut:

    • Metode 1: Kompilasi kode cabang utama AliyunServerlessSpark Task Plugin. Untuk informasi lebih lanjut, lihat dolphinscheduler.

    • Metode 2: Integrasikan AliyunServerlessSpark Task Plugin ke dalam proyek Anda menggunakan PR terkait dari perintah cherry-pick. Untuk informasi lebih lanjut, lihat [Feature-16127] Dukungan emr serverless spark #16126.

Prosedur

Langkah 1: Buat sumber data

  1. Akses web UI DolphinScheduler. Di bilah navigasi atas, klik Datasource.

  2. Klik Create DataSource. Di kotak dialog Choose DataSource Type, pilih ALIYUN_SERVERLESS_SPARK.

  3. Di kotak dialog CreateDataSource, konfigurasikan parameter. Tabel berikut menjelaskan parameter tersebut.

    Parameter

    Deskripsi

    Datasource Name

    Nama sumber data.

    Access Key Id

    ID AccessKey akun Alibaba Cloud Anda.

    Access Key Secret

    Rahasia AccessKey akun Alibaba Cloud Anda.

    Region Id

    ID wilayah tempat E-MapReduce (EMR) Serverless Spark workspace berada. Contoh: cn-beijing.

    Untuk informasi tentang wilayah yang didukung, lihat Wilayah yang Didukung.

  4. Klik Test Connect. Setelah sumber data lulus uji koneksi, klik Confirm.

Langkah 2: Buat proyek

  1. Di bilah navigasi atas, klik Project.

  2. Klik Create Project.

  3. Di kotak dialog Create Project, konfigurasikan parameter seperti Project Name dan User. Untuk informasi lebih lanjut, lihat Project.

Langkah 3: Buat alur kerja

  1. Klik nama proyek yang telah dibuat. Di panel navigasi sisi kiri, pilih Workflow > Workflow Definition untuk masuk ke halaman Workflow Definition.

  2. Klik Create Workflow. Halaman edit workflow DAG edit muncul.

  3. Di panel navigasi sisi kiri, pilih ALIYUN_SERVERLESS_SPARK dan seret ke kanvas sisi kanan.

  4. Di kotak dialog Current node settings, konfigurasikan parameter dan klik Confirm.

    Konfigurasi parameter bervariasi berdasarkan jenis pekerjaan yang ingin Anda kirimkan.

    Parameter yang diperlukan untuk mengirimkan pekerjaan Java Archive (JAR)

    Parameter

    Deskripsi

    Datasource types

    Pilih ALIYUN_SERVERLESS_SPARK.

    Datasource instances

    Pilih sumber data yang telah dibuat.

    workspace id

    ID EMR Serverless Spark workspace.

    resource queue id

    ID antrian sumber daya di EMR Serverless Spark workspace. Nilai default: root_queue.

    code type

    Jenis pekerjaan. Atur parameter ini menjadi JAR.

    job name

    Nama pekerjaan EMR Serverless Spark. Contoh: ds-emr-spark-jar.

    entry point

    Path file. Contoh: oss://<yourBucketName>/spark-resource/examples/jars/spark-examples_2.12-3.3.1.jar.

    entry point arguments

    Kode pekerjaan Spark. Anda dapat menggunakan tanda pagar (#) sebagai pemisah untuk memisahkan parameter dalam kode.

    spark submit parameters

    Parameter yang diperlukan untuk mengirimkan pekerjaan JAR Spark. Contoh:

    --class org.apache.spark.examples.SparkPi --conf spark.executor.cores=4 --conf spark.executor.memory=20g --conf spark.driver.cores=4 --conf spark.driver.memory=8g --conf spark.executor.instances=1

    is production

    Aktifkan sakelar jika pekerjaan Spark merupakan pekerjaan di lingkungan produksi.

    engine release version

    Versi mesin. Nilai default: esr-2.1-native (Spark 3.3.1, Scala 2.12, Native Runtime).

    Parameter yang diperlukan untuk mengirimkan pekerjaan SQL

    Parameter

    Deskripsi

    Datasource types

    Pilih ALIYUN_SERVERLESS_SPARK.

    Datasource instances

    Pilih sumber data yang telah dibuat.

    workspace id

    ID EMR Serverless Spark workspace.

    resource queue id

    ID antrian sumber daya di EMR Serverless Spark workspace. Nilai default: root_queue.

    code type

    Jenis pekerjaan. Atur parameter ini menjadi SQL.

    job name

    Nama pekerjaan EMR Serverless Spark. Contoh: ds-emr-spark-sql.

    entry point

    Path file. Anda harus memasukkan path file yang valid.

    entry point arguments

    Kode pekerjaan Spark. Anda dapat menggunakan tanda pagar (#) sebagai pemisah untuk memisahkan parameter dalam kode. Contoh:

    • Kirim skrip SQL.

      -e#show tables;show tables;
    • Kirim skrip SQL di OSS.

      -f#oss://<yourBucketName>/spark-resource/examples/sql/show_db.sql

    spark submit parameters

    Parameter yang diperlukan untuk mengirimkan pekerjaan SQL Spark. Contoh:

    --class org.apache.spark.sql.hive.thriftserver.SparkSQLCLIDriver --conf spark.executor.cores=4 --conf spark.executor.memory=20g --conf spark.driver.cores=4 --conf spark.driver.memory=8g --conf spark.executor.instances=1

    is production

    Aktifkan sakelar jika pekerjaan Spark merupakan pekerjaan di lingkungan produksi.

    engine release version

    Versi mesin. Nilai default: esr-2.1-native (Spark 3.3.1, Scala 2.12, Native Runtime).

    Parameter yang diperlukan untuk mengirimkan pekerjaan PySpark

    Parameter

    Deskripsi

    Datasource types

    Pilih ALIYUN_SERVERLESS_SPARK.

    Datasource instances

    Pilih sumber data yang telah dibuat.

    workspace id

    ID EMR Serverless Spark workspace.

    resource queue id

    ID antrian sumber daya di EMR Serverless Spark workspace. Nilai default: root_queue.

    code type

    Jenis pekerjaan. Atur parameter ini menjadi PYTHON.

    job name

    Nama pekerjaan EMR Serverless Spark. Contoh: ds-emr-spark-jar.

    entry point

    Path file. Contoh: oss://<yourBucketName>/spark-resource/examples/src/main/python/pi.py.

    entry point arguments

    Kode pekerjaan Spark. Anda dapat menggunakan tanda pagar (#) sebagai pemisah untuk memisahkan parameter dalam kode. Contoh: 1.

    spark submit parameters

    Parameter yang diperlukan untuk mengirimkan pekerjaan PySpark. Contoh:

    --conf spark.executor.cores=4 --conf spark.executor.memory=20g --conf spark.driver.cores=4 --conf spark.driver.memory=8g --conf spark.executor.instances=1

    is production

    Aktifkan sakelar jika pekerjaan Spark merupakan pekerjaan di lingkungan produksi.

    engine release version

    Versi mesin. Nilai default: esr-2.1-native (Spark 3.3.1, Scala 2.12, Native Runtime).

Referensi

Untuk informasi lebih lanjut tentang DolphinScheduler, lihat Apache DolphinScheduler.