All Products
Search
Document Center

E-MapReduce:Mengelola alur kerja

Last Updated:Mar 27, 2026

Jika Anda perlu menjalankan beberapa job Spark secara berurutan—misalnya, job ingestion data diikuti oleh job transformasi lalu job pelaporan—gunakan alur kerja untuk menentukan rantai dependensi dan mengotomatiskan eksekusi. Topik ini menjelaskan cara membuat, menjalankan, dan memantau alur kerja di EMR Serverless Spark.

Konsep utama:

  • Workflow: Pipeline job yang dihubungkan melalui hubungan dependensi dan dijalankan sesuai jadwal atau berdasarkan permintaan.

  • Node: Satu job dalam alur kerja. Node dihubungkan melalui hubungan hulu/hilir (upstream/downstream) untuk menentukan urutan eksekusi.

  • Workflow run: Satu kali eksekusi alur kerja. Setiap eksekusi dicatat dan dapat dilihat di tab Workflow Runs.

Prasyarat

Sebelum memulai, pastikan Anda telah memiliki:

Buat alur kerja

  1. Buka halaman Workflows.

    1. Login ke Konsol E-MapReduce (EMR).

    2. Pada panel navigasi kiri, pilih EMR Serverless > Spark.

    3. Pada halaman Spark, klik nama ruang kerja yang ingin Anda gunakan.

    4. Pada panel navigasi kiri halaman EMR Serverless Spark, pilih Operation Center > Workflows.

  2. Pada tab Workflows, klik Create Workflow.

  3. Pada panel Create Workflow, konfigurasikan parameter dan klik Next. Jika Scheduling Type diatur sebagai Scheduler, konfigurasikan:

    • Scheduling Type: Frekuensi eksekusi. Days dijalankan sekali per hari pada waktu tetap. Hours dijalankan setiap N jam dalam rentang harian. Minutes dijalankan setiap N menit dalam rentang harian.

    • Scheduling Started At: Tanggal dan waktu mulai eksekusi terjadwal. Nilai default adalah waktu saat ini.

    Penting

    Setelah alur kerja dibuat, aktifkan sakelar Scheduling Status untuk alur kerja tersebut pada tab Workflows. Tanpa pengaktifan ini, alur kerja tidak akan dijalankan sesuai jadwal.

    ParameterDeskripsi
    NameNama alur kerja. Harus unik dalam satu ruang kerja.
    Resource QueueAntrian sumber daya default untuk alur kerja. Antrian sumber daya tingkat node akan mengganti pengaturan ini.
    Other Settings > Scheduling TypeCara alur kerja dijalankan di lingkungan produksi. Nilai yang valid: None (Manual) (dipicu secara manual, default) dan Scheduler (otomatis, per menit, jam, atau hari). Lihat tabel jenis penjadwalan di bawah.
    Retries After FailureJumlah percobaan ulang untuk node yang gagal. Default: tanpa percobaan ulang. Pengaturan percobaan ulang tingkat node akan mengganti nilai ini.
    Failure NotificationAlamat email yang akan diberi tahu jika alur kerja gagal.
    TagsPasangan kunci-nilai untuk mengidentifikasi alur kerja.
    Jenis PenjadwalanPerilakuParameter tambahan yang diperlukan
    None (Manual) (default)Memicu eksekusi secara manual.
    SchedulerBerjalan secara otomatis per menit, jam, atau hari.Scheduling Time dan Scheduling Started At
  4. Tambahkan node ke alur kerja. Node merepresentasikan job dalam pipeline. Hubungkan node tersebut melalui hubungan hulu/hilir (upstream/downstream) untuk menentukan urutan eksekusi.

    1. Pada kanvas, klik Add Node di bagian bawah kanvas.

    2. Pada panel Add Node, konfigurasikan parameter.

      Parameter

      Deskripsi

      Source File Path

      Path job yang akan dijalankan pada node ini. Job tersebut harus sudah dipublikasikan.

      Node Type

      Ditetapkan secara otomatis dari job pada path yang ditentukan.

      Node Name

      Otomatis diisi dari Source File Path. Sesuaikan jika diperlukan.

      Upstream Node

      Node yang harus selesai sebelum node ini dijalankan. Harus merupakan node dalam alur kerja saat ini. Biarkan kosong untuk node pertama.

      Number of Retries

      Nilai default mengikuti jumlah percobaan ulang tingkat alur kerja. Secara default tidak ada percobaan ulang.

      Timeout (Seconds)

      Waktu eksekusi maksimum untuk satu kali eksekusi node. Default: tanpa batas.

      Subscription

      Alamat email yang akan diberi tahu saat node mencapai status tertentu.

      Tags

      Tag node. Setiap node secara default menyertakan tag workflow_name dan task_name.

      Resource Queue

      Antrian sumber daya untuk node ini. Nilai default mengikuti antrian sumber daya alur kerja. Setelah diatur pada tingkat node, pengaturan ini tetap berlaku meskipun Anda kemudian mengubah antrian sumber daya tingkat alur kerja.

      Catatan

      Untuk job SQL, konfigurasikan parameter tambahan pada bagian Task Configuration. Nilai default mengikuti konfigurasi tingkat job. Lihat Mengelola konfigurasi default.

    3. Klik Save. Ulangi langkah ini untuk menambahkan lebih banyak node.

  5. Publikasikan alur kerja.

    1. Di pojok kanan atas, klik Publish Workflow.

    2. Pada kotak dialog Publish, masukkan catatan dan klik OK.

Jalankan alur kerja

Setiap eksekusi alur kerja menghasilkan catatan eksekusi. Lihat riwayat eksekusi pada tab Workflow Runs di halaman detail alur kerja.

Debug alur kerja

Lakukan debug terhadap versi terbaru alur kerja sebelum menjalankannya di lingkungan produksi.

  1. Pada kolom Actions, klik Edit untuk alur kerja tersebut. Pada halaman yang muncul, klik Debug di samping nama alur kerja.

    image

  2. Pada kotak dialog Debug, pilih antrian sumber daya lingkungan pengembangan dan klik Run.

Jalankan sesuai jadwal

Jika Scheduling Type diatur sebagai Scheduler dan sakelar Scheduling Status diaktifkan, alur kerja akan dijalankan secara otomatis pada waktu yang telah dikonfigurasi.

image.png

Jalankan secara manual

  1. Pada tab Workflows, klik nama alur kerja.

  2. Di pojok kanan atas, klik Run.

  3. Pada kotak dialog Run, atur Scheduling Method dan klik OK.

Nilai Scheduling Method:

NilaiKapan digunakanPerilaku
Manually Run (default)Jalankan alur kerja sekarang, terlepas dari jadwal.Dimulai segera.
BackfillMemproses ulang data untuk rentang waktu historis—misalnya, ketika eksekusi terjadwal terlewat atau job telah diperbaiki dan perlu dijalankan ulang untuk data masa lalu.Menghasilkan eksekusi untuk setiap interval penjadwalan dalam rentang yang ditentukan.

Jika Anda memilih Backfill, konfigurasikan parameter berikut:

ParameterDeskripsi
CycleRentang waktu historis. Eksekusi dihasilkan untuk setiap interval penjadwalan yang termasuk dalam rentang ini. Rentang ini dapat lebih awal dari waktu saat ini. Variabel waktu seperti ${ds} secara otomatis diganti dengan waktu siklus yang sesuai.
Resource QueueNilai default mengikuti antrian sumber daya alur kerja. Pilih antrian produksi lain jika diperlukan.
RemarksDeskripsi untuk membantu Anda mengelola dan melakukan troubleshooting eksekusi.
More > Failure NotificationAlamat email yang akan diberi tahu jika proses backfill gagal.

Periksa status eksekusi alur kerja

Kolom Workflow run status menampilkan status setiap eksekusi alur kerja. Kolom Workflow node status menampilkan status node individual dalam suatu eksekusi. Untuk detail tentang catatan eksekusi dan log eksekusi tingkat node, lihat Mengelola eksekusi alur kerja dan eksekusi node alur kerja.

image.png

Workflow run status

WarnaStatus
BiruRunning
HijauSucceeded
MerahFailed
UnguPending

Workflow node status

WarnaStatus
BiruRunning
HijauSucceeded
MerahFailed
KuningRetrying
UnguPending

Langkah selanjutnya

Referensi