All Products
Search
Document Center

E-MapReduce:Menggunakan Alur Kerja EMR

Last Updated:Mar 26, 2026

Panduan ini memandu Anda menjalankan pekerjaan E-MapReduce (EMR) Workflow pertama dari awal hingga akhir, menggunakan node HIVECLI sebagai contoh.

Pada akhir panduan, Anda akan telah menyambungkan kluster, membuat proyek, mendefinisikan alur kerja dengan node HIVECLI, menjalankan pekerjaan tersebut, dan memverifikasi log-nya.

Prasyarat

Sebelum memulai, pastikan Anda telah:

  • Menyelesaikan otorisasi untuk EMR Workflow. Lihat Tetapkan peran RAM ke EMR Workflow.

  • Membuat kluster di halaman EMR on ECS. Lihat Buat kluster. Kluster tersebut harus berupa kluster data lake EMR, kluster Hadoop, atau kluster kustom.

Cara kerja

EMR Workflow mengatur pekerjaan dalam bentuk alur kerja yang terdiri atas node. Setiap node menjalankan tugas tertentu—dalam contoh ini, node HIVECLI menjalankan skrip Hive SQL. Sebelum Anda dapat menjalankan alur kerja, Anda harus menyambungkan kluster untuk menyediakan sumber daya komputasi dan membuat proyek untuk mengelompokkan alur kerja Anda.

Langkah-langkah berikut mengikuti urutan: sambungkan kluster → buat proyek → definisikan alur kerja → jalankan alur kerja → tinjau log.

Langkah 1: Sambungkan kluster

  1. Masuk ke Konsol EMR.

  2. Di panel navigasi sebelah kiri, pilih EMR Studio > Workflow.

  3. Klik tab Security.

  4. Di halaman Cluster Manage, klik Bind Cluster.

  5. Di kotak dialog Bind Cluster, atur Cluster Type, Cluster ID, dan vSwitch ID, lalu klik Confirm. Proses pengikatan memerlukan waktu 5–10 menit. Muat ulang halaman Cluster Manage dan tunggu hingga kolom State menampilkan Associated.

Langkah 2: Buat proyek

  1. Klik tab Project.

  2. Klik Create Project.

  3. Di kotak dialog Create Project, masukkan nama proyek dan klik Confirm. Contoh ini menggunakan project_test sebagai nama proyek.

Langkah 3: Definisikan alur kerja

  1. Di tab Project, klik project_test.

  2. Di panel navigasi sebelah kiri, pilih Workflow > Workflow Definition.

  3. Di halaman Workflow Definition, klik Create Workflow.

  4. Di halaman Create Workflow, seret node HIVECLI ke kanvas. Untuk daftar lengkap jenis node yang tersedia, lihat Jenis node.

  5. Di kotak dialog Current node settings, konfigurasikan parameter yang diperlukan dan klik Confirm. Biarkan semua parameter lain pada nilai default-nya. Untuk detail parameter, lihat HIVECLI. Gunakan skrip berikut sebagai nilai Script:

    ParameterWajibContoh nilai
    Node NameYahivecli
    ScriptYaLihat skrip di bawah
    create table if not exists mytable(a string, b int);
    insert into mytable values ('abc', 1), ('def', 2);
    select a, sum(b) from mytable group by a;
  6. Simpan alur kerja.

    1. Klik Save di pojok kanan atas kanvas.

    2. Di kotak dialog Basic Information, masukkan nama alur kerja dan klik Confirm. Contoh ini menggunakan workflow_test sebagai nama alur kerja.

Langkah 4: Jalankan alur kerja

  1. Di halaman Workflow Definition, temukan workflow_test dan klik ikon run (image..png) di kolom Operation.

  2. Klik ikon start (image..png).

  3. Di kotak dialog Please set the parameters before starting, pilih kluster yang telah Anda sambungkan di Langkah 1 dari daftar drop-down Execution Cluster, lalu klik Confirm.

Langkah 5: Lihat log task

  1. Di panel navigasi sebelah kiri, pilih Workflow > Workflow Instance untuk memastikan eksekusi alur kerja telah dimulai.

  2. Pilih Task > Task Instance.

  3. Di halaman Task Instance, temukan instans task dan klik ikon log (image..png) di kolom Operation untuk melihat log eksekusi.

Langkah 6: (Opsional) Nonaktifkan alur kerja

Di halaman Workflow Definition, temukan alur kerja tersebut dan klik ikon offline (image..png) di kolom Operation.

Langkah selanjutnya

  • Jenis node — jelajahi jenis node lain selain HIVECLI.

  • Kelola alur kerja — pelajari cara mengedit, mengkloning, dan mengelola alur kerja.