All Products
Search
Document Center

E-MapReduce:Panduan cepat pengembangan PySpark

Last Updated:Jun 22, 2026

Anda dapat menulis skrip Python dengan logika bisnis kustom dan mengunggahnya ke EMR Serverless Spark. Topik ini memandu Anda melalui proses pengembangan PySpark menggunakan contoh.

Prasyarat

Prosedur

Langkah 1: Siapkan file contoh

Di EMR Serverless Spark, Anda dapat mengembangkan file Python di platform lokal atau independen dan mengirimkannya sebagai pekerjaan. Untuk membantu Anda memulai dengan cepat, panduan ini menyediakan file contoh yang dapat Anda unduh dan gunakan.

Klik DataFrame.py dan employee.csv untuk mengunduh file contoh.

Catatan
  • DataFrame.py adalah potongan kode yang menggunakan framework Apache Spark untuk memproses data di OSS.

  • employee.csv adalah file data yang berisi nama karyawan, departemen, dan gaji.

Langkah 2: Unggah file contoh

  1. Unggah file Python ke EMR Serverless Spark.

    1. Buka halaman unggah resource.

      1. Login ke Konsol EMR.

      2. Di panel navigasi sebelah kiri, pilih EMR Serverless > Spark.

      3. Di halaman Spark, klik nama ruang kerja target Anda.

      4. Di halaman EMR Serverless Spark, klik Artifacts di panel navigasi sebelah kiri.

    2. Di halaman Artifacts, klik Upload File.

    3. Di kotak dialog Upload File, klik area unggah untuk memilih file Python, atau seret file ke area unggah tersebut.

      Dalam contoh ini, unggah DataFrame.py.

  2. Unggah file data (employee.csv) ke OSS. Untuk informasi selengkapnya, lihat Unggah file.

Langkah 3: Kembangkan dan jalankan pekerjaan

  1. Di halaman EMR Serverless Spark, klik Development di panel navigasi sebelah kiri.

  2. Di tab Development, klik ikon image.

  3. Di kotak dialog, masukkan nama, pilih Application > PySpark sebagai tipe, lalu klik OK.

  4. Di pojok kanan atas, pilih antrian.

    Untuk informasi selengkapnya tentang cara menambahkan antrian, lihat Kelola antrian sumber daya.

  5. Di tab pengembangan baru, konfigurasikan parameter berikut, biarkan sisanya pada nilai default, lalu klik Run.

    Parameter

    Deskripsi

    Main Python Resources

    Pilih file Python yang telah Anda unggah di halaman Artifacts pada langkah sebelumnya. Dalam contoh ini, pilih DataFrame.py.

    Execution Parameters

    Masukkan path OSS ke file data employee.csv. Contoh: oss://<yourBucketName>/employee.csv.

  6. Setelah pekerjaan selesai dijalankan, di bagian Execution Records di bawah, klik Log Exploration di kolom Actions pekerjaan tersebut.

  7. Di tab Log Exploration, Anda dapat melihat informasi log.

    Tab ini mencakup sub-tab driver log, executor log, dan startup log. Setiap sub-tab mendukung tiga jenis output: Stdout, Stderr, dan Log4j. Dalam contoh ini, output Stdout dari driver log menampilkan hasil kueri Spark DataFrame, termasuk detail gaji karyawan (employee_name, department, salary) dan data gaji yang diagregasi berdasarkan departemen.

Langkah 4: Publikasikan pekerjaan

Penting

Pekerjaan yang dipublikasikan dapat digunakan sebagai task dalam node alur kerja.

  1. Setelah pekerjaan selesai, klik Publish di sisi kanan halaman Development.

  2. Di kotak dialog penerbitan pekerjaan, masukkan informasi penerbitan dan klik OK.

Langkah 5: Lihat Spark UI

Setelah pekerjaan berhasil dijalankan, Anda dapat melihat detail eksekusinya di Spark UI.

  1. Di panel navigasi sebelah kiri, klik Job History.

  2. Di halaman Application, klik Spark UI di kolom Actions pekerjaan target.

  3. Di halaman Spark Jobs, Anda dapat melihat detail pekerjaan.

    Halaman ini menampilkan informasi dasar aplikasi (seperti User: root, Total Uptime, dan Scheduling Mode: FIFO) serta daftar Completed Jobs. Tabel mencakup kolom seperti Job Id, Description, Submitted, Duration, Stages: Succeeded/Total, dan Tasks. Untuk setiap pekerjaan, Anda dapat melihat deskripsi, durasi, serta detail penyelesaian stage dan task-nya.

Topik terkait