EMR Workflow memungkinkan Anda membangun pipeline pemrosesan data dengan menghubungkan node tugas menjadi grafik asiklik terarah (DAG). Setiap pipeline dijalankan sebagai alur kerja, dan setiap eksekusi menghasilkan instans alur kerja yang dapat Anda pantau dan jalankan ulang secara independen.
Prasyarat
Sebelum memulai, pastikan Anda telah:
Membuat proyek di EMR Studio. Untuk informasi selengkapnya, lihat Buat proyek.
Buat alur kerja
Masuk ke Konsol E-MapReduce (EMR).
Di panel navigasi kiri, pilih EMR Studio > Workflow.
Klik tab Project, lalu klik nama proyek.
Di halaman detail proyek, pada panel navigasi kiri, pilih Workflow > Workflow Definition.
Di halaman Workflow Definition, klik Create Workflow.
Di halaman Create Workflow, seret jenis node ke kanvas. Pada contoh ini, seret HIVECLI ke kanvas.
Pada kotak dialog Current node settings, konfigurasikan parameter dan klik Confirm. Untuk informasi lebih lanjut tentang HIVECLI, lihat HIVECLI. Untuk jenis node lainnya, lihat Jenis node.
(Opsional) Konfigurasikan dependensi antar node.
EMR Workflow memungkinkan Anda mengonfigurasi dependensi node kustom antar alur kerja.
Untuk menghubungkan dua node: arahkan kursor ke ikon
di sisi kanan node, lalu seret garis koneksi ke node lain.Untuk menghapus dependensi atau node: klik garis koneksi atau node tersebut, lalu klik ikon
di pojok kanan atas kanvas.
Simpan alur kerja.
Klik Save di pojok kanan atas kanvas.
Pada kotak dialog Basic Information, konfigurasikan parameter berikut dan klik Confirm.
Parameter Deskripsi Workflow Name
Nama alur kerja.
Description
Deskripsi alur kerja.
Timeout Alert
Nonaktif secara default. Jika diaktifkan, tentukan periode timeout. Notifikasi dipicu ketika waktu eksekusi node melebihi periode timeout tersebut.
Process execute type
Cara beberapa instans dari alur kerja yang sama dijalankan secara bersamaan. parallel: instans dijalankan secara bersamaan. Serial wait: instans dijalankan satu per satu.
Global Variables
Variabel yang berlaku untuk semua node dalam alur kerja.
Status alur kerja dan operasi yang tersedia
Alur kerja berada dalam status Online atau Offline. Status tersebut menentukan operasi mana yang tersedia. Tabel berikut memetakan setiap operasi ke status tempat operasi tersebut dapat dilakukan.
| Operasi | Online | Offline | Deskripsi |
|---|---|---|---|
| Edit | Ya | Edit definisi alur kerja. | |
| Start | Ya | Jalankan alur kerja secara manual. Lihat Jalankan alur kerja. | |
| Timing | Ya | Konfigurasikan jadwal berbasis Cron. Setelah disimpan, alur kerja terjadwal kembali ke status Offline dan harus diaktifkan kembali pada halaman Cron manage. Lihat Jadwalkan alur kerja. | |
| Online | Ya | Ubah status alur kerja dari Offline menjadi Online. | |
| Offline | Ya | Ubah status alur kerja dari Online menjadi Offline. | |
| Copy Workflow | Ya | Ya | Buat alur kerja baru dengan menyalin alur kerja ini. |
| Cron manage | Ya | Ya | Lihat, edit, atau ubah status entri alur kerja terjadwal. |
| Delete | Ya | Hapus alur kerja. Hanya pembuat yang dapat menghapus alur kerja. | |
| Tree View | Ya | Ya | Lihat jenis dan status node dalam struktur pohon. |
| Export | Ya | Ya | Ekspor alur kerja sebagai file JSON. |
| Version Info | Ya | Ya | Lihat informasi versi alur kerja. |
Jalankan alur kerja
Setiap eksekusi menghasilkan instans alur kerja, yang muncul pada halaman Workflow Instance.
Di halaman Workflow Definition, temukan alur kerja dan klik ikon
(Online) di kolom Operation untuk mengaktifkan alur kerja.Klik ikon
(Start) di kolom Operation.Pada kotak dialog yang muncul, konfigurasikan parameter berikut dan klik Confirm.
Parameter Deskripsi Failure Strategy Apa yang terjadi pada node konkuren saat salah satu node gagal. Continue: node lain tetap berjalan. End: node downstream dari node yang gagal dihentikan. Notification Strategy Kapan notifikasi dikirim setelah alur kerja selesai. Nilai yang valid: None, Success, Failure, All. Workflow Priority Prioritas eksekusi alur kerja. Default: MEDIUM. Nilai yang valid: HIGHEST, HIGH, MEDIUM, LOW, LOWEST. Execution Cluster Kluster tempat alur kerja dijalankan. Pilih kluster yang terkait pada halaman Cluster Manage di tab Security. Alarm Group Kelompok alarm untuk notifikasi. Pilih kelompok yang dikonfigurasi pada halaman Alarm Group Manage di tab Security. Complement Data Apakah akan menghasilkan data backfill untuk rentang waktu lampau. Lihat bagian Parameter Complement Data di bawah. Startup Parameter Parameter startup dan nilainya. Menentukan atau menimpa variabel global saat instans alur kerja ini dimulai. Whether Dry-Run Jika diaktifkan, alur kerja melakukan dry run dan mencatat log sukses tanpa menjalankan tugas aktual. Di panel navigasi kiri halaman detail proyek, pilih Workflow > Workflow Instance untuk melihat status instans alur kerja.
Parameter Complement Data
Complement Data menghasilkan data backfill untuk eksekusi alur kerja dalam rentang waktu lampau tertentu. Pilih Whether it is a complement process? untuk mengaktifkannya, lalu konfigurasikan parameter berikut.
| Parameter | Deskripsi |
|---|---|
| Mode of dependent | Apakah akan menghasilkan data backfill untuk alur kerja yang bergantung pada alur kerja saat ini. Close (default): alur kerja dependen tidak di-backfill. Open: alur kerja dependen juga di-backfill, asalkan alur kerja saat ini berstatus Online dan memiliki konfigurasi penjadwalan. |
| Mode of execution | Cara data backfill dihasilkan dalam rentang tanggal yang ditentukan. Serial execution: instans alur kerja dihasilkan satu per hari secara berurutan. Parallel execution: instans alur kerja dihasilkan untuk semua hari secara simultan. Dalam mode paralel, atur Custom Parallelism untuk membatasi jumlah maksimum instans konkuren. |
| Scheduling Date | Rentang waktu lampau untuk menghasilkan data backfill. |
Sesuaikan Mode of execution dengan Process execute type alur kerja: gunakan Parallel execution jika alur kerja diatur ke parallel, dan Serial execution jika diatur ke Serial wait.
Impor alur kerja
Impor alur kerja dari file JSON yang sebelumnya diekspor dari EMR Workflow.
Di halaman Workflow Definition, klik Import Workflow.
Pada kotak dialog Upload, klik Upload dan pilih file JSON yang diekspor.
Klik Confirm.
Jadwalkan alur kerja
Konfigurasikan jadwal berbasis Cron agar alur kerja dijalankan secara otomatis pada interval tertentu.
Di halaman Workflow Definition, temukan alur kerja dan klik ikon
(Timing) di kolom Operation.Operasi Timing hanya tersedia untuk alur kerja berstatus Online.
Konfigurasikan parameter berikut dan klik Confirm.
Parameter Deskripsi Start and stop time Rentang waktu selama alur kerja dijadwalkan untuk dijalankan. Tidak ada instans terjadwal yang dihasilkan di luar rentang ini. Timing Interval penjadwalan (ekspresi Cron) saat alur kerja dijalankan. Execution Cluster Kluster yang digunakan untuk eksekusi terjadwal. Aktifkan alur kerja terjadwal.
Setelah menyimpan pengaturan penjadwalan, entri alur kerja terjadwal berada dalam status Offline. Untuk mengaktifkannya:
Di halaman Workflow Definition, klik ikon
(Cron manage) di kolom Operation.Di halaman Cron manage, temukan entri alur kerja terjadwal dan klik ikon
(Online) di kolom Operation.
Alur kerja terjadwal kini aktif dan akan dijalankan sesuai interval yang dikonfigurasi.