全部产品
Search
文档中心

E-MapReduce:Panduan cepat pengembangan PySpark

更新时间:Nov 10, 2025

Anda dapat mengembangkan pekerjaan PySpark dengan menulis skrip Python yang berisi logika bisnis Anda dan mengunggahnya ke EMR Serverless Spark. Topik ini menyediakan contoh untuk memandu Anda melalui proses pengembangan.

Prasyarat

Prosedur

Langkah 1: Siapkan file uji

Di EMR Serverless Spark, Anda dapat mengembangkan file Python di platform pengembangan lokal atau mandiri, lalu mengirimkannya ke EMR Serverless Spark untuk dieksekusi. Panduan Cepat ini menyediakan file uji untuk membantu Anda memahami pekerjaan PySpark dengan cepat. Unduh file uji berikut untuk digunakan dalam langkah-langkah selanjutnya.

Klik DataFrame.py dan employee.csv untuk mengunduh file uji.

Catatan
  • File DataFrame.py berisi kode yang menggunakan kerangka kerja Apache Spark untuk memproses data di OSS.

  • File employee.csv berisi daftar data, termasuk nama karyawan, departemen, dan gaji.

Langkah 2: Unggah file tes

  1. Unggah file Python ke EMR Serverless Spark.

    1. Buka halaman unggah sumber daya.

      1. Masuk ke Konsol EMR.

      2. Di panel navigasi sebelah kiri, pilih EMR Serverless > Spark.

      3. Di halaman Spark, klik nama ruang kerja yang dituju.

      4. Di halaman EMR Serverless Spark, pada panel navigasi kiri, klik Files.

    2. Di halaman Files, klik Upload File.

    3. Di kotak dialog Upload File, klik area unggah untuk memilih file Python, atau seret file ke area tersebut.

      Dalam contoh ini, unggah file DataFrame.py.

  2. Unggah file data (employee.csv) ke Konsol Object Storage Service (OSS). Untuk informasi selengkapnya, lihat Unggah file.

Langkah 3: Kembangkan dan jalankan pekerjaan

  1. Di halaman EMR Serverless Spark, klik Data Development di panel navigasi sebelah kiri.

  2. Di tab Development, klik ikon image.

  3. Di kotak dialog yang muncul, masukkan nama, pilih Batch Job > PySpark sebagai Jenis, lalu klik OK.

  4. Di pojok kanan atas, pilih antrian.

    Untuk informasi selengkapnya tentang cara menambahkan antrian, lihat Kelola antrian sumber daya.

  5. Di tab pekerjaan baru, konfigurasikan parameter berikut. Biarkan pengaturan default untuk parameter lainnya, lalu klik Run.

    Parameter

    Deskripsi

    Main Python Resource

    Pilih file Python yang telah Anda unggah di halaman Files pada langkah sebelumnya. Dalam contoh ini, pilih DataFrame.py.

    Execution Parameters

    Masukkan path file data (employee.csv) yang diunggah ke OSS. Contoh: oss://<yourBucketName>/employee.csv.

  6. Setelah pekerjaan dijalankan, di bagian Execution Records di bawah, klik Log Probe di kolom Tindakan untuk pekerjaan tersebut.

  7. Di tab Log Probe, Anda dapat melihat informasi log.

    image

Langkah 4: Publikasikan pekerjaan

Penting

Pekerjaan yang dipublikasikan dapat digunakan sebagai node dalam alur kerja.

  1. Setelah pekerjaan dijalankan, klik Publish di sebelah kanan.

  2. Di kotak dialog Publish Job, masukkan informasi rilis dan klik OK.

Langkah 5: Lihat Spark UI

Setelah pekerjaan berhasil dijalankan, Anda dapat melihat statusnya di Spark UI.

  1. Di panel navigasi sebelah kiri, klik Job History.

  2. Di halaman Application, di kolom Tindakan untuk pekerjaan yang dituju, klik Spark UI.

  3. Di halaman Spark Jobs, Anda dapat melihat detail pekerjaan.

    image

Referensi