All Products
Search
Document Center

E-MapReduce:Mengelola alur kerja

Last Updated:Mar 26, 2026

EMR Workflow memungkinkan Anda membangun pipeline pemrosesan data dengan menghubungkan node tugas menjadi grafik asiklik terarah (DAG). Setiap pipeline dijalankan sebagai alur kerja, dan setiap eksekusi menghasilkan instans alur kerja yang dapat Anda pantau dan jalankan ulang secara independen.

Prasyarat

Sebelum memulai, pastikan Anda telah:

  • Membuat proyek di EMR Studio. Untuk informasi selengkapnya, lihat Buat proyek.

Buat alur kerja

  1. Masuk ke Konsol E-MapReduce (EMR).

  2. Di panel navigasi kiri, pilih EMR Studio > Workflow.

  3. Klik tab Project, lalu klik nama proyek.

  4. Di halaman detail proyek, pada panel navigasi kiri, pilih Workflow > Workflow Definition.

  5. Di halaman Workflow Definition, klik Create Workflow.

  6. Di halaman Create Workflow, seret jenis node ke kanvas. Pada contoh ini, seret HIVECLI ke kanvas.

    Pada kotak dialog Current node settings, konfigurasikan parameter dan klik Confirm. Untuk informasi lebih lanjut tentang HIVECLI, lihat HIVECLI. Untuk jenis node lainnya, lihat Jenis node.

  7. (Opsional) Konfigurasikan dependensi antar node.

    EMR Workflow memungkinkan Anda mengonfigurasi dependensi node kustom antar alur kerja.

    • Untuk menghubungkan dua node: arahkan kursor ke ikon image..png di sisi kanan node, lalu seret garis koneksi ke node lain.

    • Untuk menghapus dependensi atau node: klik garis koneksi atau node tersebut, lalu klik ikon image..png di pojok kanan atas kanvas.

  8. Simpan alur kerja.

    1. Klik Save di pojok kanan atas kanvas.

    2. Pada kotak dialog Basic Information, konfigurasikan parameter berikut dan klik Confirm.

      ParameterDeskripsi

      Workflow Name

      Nama alur kerja.

      Description

      Deskripsi alur kerja.

      Timeout Alert

      Nonaktif secara default. Jika diaktifkan, tentukan periode timeout. Notifikasi dipicu ketika waktu eksekusi node melebihi periode timeout tersebut.

      Process execute type

      Cara beberapa instans dari alur kerja yang sama dijalankan secara bersamaan. parallel: instans dijalankan secara bersamaan. Serial wait: instans dijalankan satu per satu.

      Global Variables

      Variabel yang berlaku untuk semua node dalam alur kerja.

Status alur kerja dan operasi yang tersedia

Alur kerja berada dalam status Online atau Offline. Status tersebut menentukan operasi mana yang tersedia. Tabel berikut memetakan setiap operasi ke status tempat operasi tersebut dapat dilakukan.

OperasiOnlineOfflineDeskripsi
EditYaEdit definisi alur kerja.
StartYaJalankan alur kerja secara manual. Lihat Jalankan alur kerja.
TimingYaKonfigurasikan jadwal berbasis Cron. Setelah disimpan, alur kerja terjadwal kembali ke status Offline dan harus diaktifkan kembali pada halaman Cron manage. Lihat Jadwalkan alur kerja.
OnlineYaUbah status alur kerja dari Offline menjadi Online.
OfflineYaUbah status alur kerja dari Online menjadi Offline.
Copy WorkflowYaYaBuat alur kerja baru dengan menyalin alur kerja ini.
Cron manageYaYaLihat, edit, atau ubah status entri alur kerja terjadwal.
DeleteYaHapus alur kerja. Hanya pembuat yang dapat menghapus alur kerja.
Tree ViewYaYaLihat jenis dan status node dalam struktur pohon.
ExportYaYaEkspor alur kerja sebagai file JSON.
Version InfoYaYaLihat informasi versi alur kerja.

Jalankan alur kerja

Setiap eksekusi menghasilkan instans alur kerja, yang muncul pada halaman Workflow Instance.

  1. Di halaman Workflow Definition, temukan alur kerja dan klik ikon image..png (Online) di kolom Operation untuk mengaktifkan alur kerja.

  2. Klik ikon image..png (Start) di kolom Operation.

  3. Pada kotak dialog yang muncul, konfigurasikan parameter berikut dan klik Confirm.

    ParameterDeskripsi
    Failure StrategyApa yang terjadi pada node konkuren saat salah satu node gagal. Continue: node lain tetap berjalan. End: node downstream dari node yang gagal dihentikan.
    Notification StrategyKapan notifikasi dikirim setelah alur kerja selesai. Nilai yang valid: None, Success, Failure, All.
    Workflow PriorityPrioritas eksekusi alur kerja. Default: MEDIUM. Nilai yang valid: HIGHEST, HIGH, MEDIUM, LOW, LOWEST.
    Execution ClusterKluster tempat alur kerja dijalankan. Pilih kluster yang terkait pada halaman Cluster Manage di tab Security.
    Alarm GroupKelompok alarm untuk notifikasi. Pilih kelompok yang dikonfigurasi pada halaman Alarm Group Manage di tab Security.
    Complement DataApakah akan menghasilkan data backfill untuk rentang waktu lampau. Lihat bagian Parameter Complement Data di bawah.
    Startup ParameterParameter startup dan nilainya. Menentukan atau menimpa variabel global saat instans alur kerja ini dimulai.
    Whether Dry-RunJika diaktifkan, alur kerja melakukan dry run dan mencatat log sukses tanpa menjalankan tugas aktual.
  4. Di panel navigasi kiri halaman detail proyek, pilih Workflow > Workflow Instance untuk melihat status instans alur kerja.

Parameter Complement Data

Complement Data menghasilkan data backfill untuk eksekusi alur kerja dalam rentang waktu lampau tertentu. Pilih Whether it is a complement process? untuk mengaktifkannya, lalu konfigurasikan parameter berikut.

ParameterDeskripsi
Mode of dependentApakah akan menghasilkan data backfill untuk alur kerja yang bergantung pada alur kerja saat ini. Close (default): alur kerja dependen tidak di-backfill. Open: alur kerja dependen juga di-backfill, asalkan alur kerja saat ini berstatus Online dan memiliki konfigurasi penjadwalan.
Mode of executionCara data backfill dihasilkan dalam rentang tanggal yang ditentukan. Serial execution: instans alur kerja dihasilkan satu per hari secara berurutan. Parallel execution: instans alur kerja dihasilkan untuk semua hari secara simultan. Dalam mode paralel, atur Custom Parallelism untuk membatasi jumlah maksimum instans konkuren.
Scheduling DateRentang waktu lampau untuk menghasilkan data backfill.
Sesuaikan Mode of execution dengan Process execute type alur kerja: gunakan Parallel execution jika alur kerja diatur ke parallel, dan Serial execution jika diatur ke Serial wait.

Impor alur kerja

Impor alur kerja dari file JSON yang sebelumnya diekspor dari EMR Workflow.

  1. Di halaman Workflow Definition, klik Import Workflow.

  2. Pada kotak dialog Upload, klik Upload dan pilih file JSON yang diekspor.

  3. Klik Confirm.

Jadwalkan alur kerja

Konfigurasikan jadwal berbasis Cron agar alur kerja dijalankan secara otomatis pada interval tertentu.

  1. Di halaman Workflow Definition, temukan alur kerja dan klik ikon image..png (Timing) di kolom Operation.

    Operasi Timing hanya tersedia untuk alur kerja berstatus Online.
  2. Konfigurasikan parameter berikut dan klik Confirm.

    ParameterDeskripsi
    Start and stop timeRentang waktu selama alur kerja dijadwalkan untuk dijalankan. Tidak ada instans terjadwal yang dihasilkan di luar rentang ini.
    TimingInterval penjadwalan (ekspresi Cron) saat alur kerja dijalankan.
    Execution ClusterKluster yang digunakan untuk eksekusi terjadwal.
  3. Aktifkan alur kerja terjadwal.

    Setelah menyimpan pengaturan penjadwalan, entri alur kerja terjadwal berada dalam status Offline. Untuk mengaktifkannya:

    1. Di halaman Workflow Definition, klik ikon image..png (Cron manage) di kolom Operation.

    2. Di halaman Cron manage, temukan entri alur kerja terjadwal dan klik ikon image..png (Online) di kolom Operation.

    Alur kerja terjadwal kini aktif dan akan dijalankan sesuai interval yang dikonfigurasi.

Langkah selanjutnya

Referensi