Mulai pengembangan pekerjaan batch PySpark - E-MapReduce

Anda dapat menulis skrip Python dengan logika bisnis kustom dan mengunggahnya ke EMR Serverless Spark. Topik ini memandu Anda melalui proses pengembangan PySpark menggunakan contoh.

Prasyarat

Anda memiliki Akun Alibaba Cloud. Untuk informasi selengkapnya, lihat Pendaftaran akun.
Pastikan Anda memiliki role yang diperlukan. Untuk informasi selengkapnya, lihat Otorisasi role untuk Akun Alibaba Cloud.
Anda telah membuat ruang kerja. Untuk informasi selengkapnya, lihat Buat ruang kerja.

Prosedur

Langkah 1: Siapkan file contoh

Di EMR Serverless Spark, Anda dapat mengembangkan file Python di platform lokal atau independen dan mengirimkannya sebagai pekerjaan. Untuk membantu Anda memulai dengan cepat, panduan ini menyediakan file contoh yang dapat Anda unduh dan gunakan.

Klik DataFrame.py dan employee.csv untuk mengunduh file contoh.

Catatan

DataFrame.py adalah potongan kode yang menggunakan framework Apache Spark untuk memproses data di OSS.
employee.csv adalah file data yang berisi nama karyawan, departemen, dan gaji.

Langkah 2: Unggah file contoh

Unggah file Python ke EMR Serverless Spark.
1. Buka halaman unggah resource.
  1. Login ke Konsol EMR.
  2. Di panel navigasi sebelah kiri, pilih EMR Serverless > Spark.
  3. Di halaman Spark, klik nama ruang kerja target Anda.
  4. Di halaman EMR Serverless Spark, klik Artifacts di panel navigasi sebelah kiri.
2. Di halaman Artifacts, klik Upload File.
3. Di kotak dialog Upload File, klik area unggah untuk memilih file Python, atau seret file ke area unggah tersebut.
  
  Dalam contoh ini, unggah DataFrame.py.
Unggah file data (employee.csv) ke OSS. Untuk informasi selengkapnya, lihat Unggah file.

Langkah 3: Kembangkan dan jalankan pekerjaan

Di halaman EMR Serverless Spark, klik Development di panel navigasi sebelah kiri.
Di tab Development, klik ikon .
Di kotak dialog, masukkan nama, pilih Application > PySpark sebagai tipe, lalu klik OK.
Di pojok kanan atas, pilih antrian.

Untuk informasi selengkapnya tentang cara menambahkan antrian, lihat Kelola antrian sumber daya.

Di tab pengembangan baru, konfigurasikan parameter berikut, biarkan sisanya pada nilai default, lalu klik Run.

Parameter	Deskripsi
Main Python Resources	Pilih file Python yang telah Anda unggah di halaman Artifacts pada langkah sebelumnya. Dalam contoh ini, pilih DataFrame.py.
Execution Parameters	Masukkan path OSS ke file data employee.csv. Contoh: oss://<yourBucketName>/employee.csv.

Setelah pekerjaan selesai dijalankan, di bagian Execution Records di bawah, klik Log Exploration di kolom Actions pekerjaan tersebut.
Di tab Log Exploration, Anda dapat melihat informasi log.

Tab ini mencakup sub-tab driver log, executor log, dan startup log. Setiap sub-tab mendukung tiga jenis output: Stdout, Stderr, dan Log4j. Dalam contoh ini, output Stdout dari driver log menampilkan hasil kueri Spark DataFrame, termasuk detail gaji karyawan (employee_name, department, salary) dan data gaji yang diagregasi berdasarkan departemen.

Langkah 4: Publikasikan pekerjaan

Penting

Pekerjaan yang dipublikasikan dapat digunakan sebagai task dalam node alur kerja.

Setelah pekerjaan selesai, klik Publish di sisi kanan halaman Development.
Di kotak dialog penerbitan pekerjaan, masukkan informasi penerbitan dan klik OK.

Langkah 5: Lihat Spark UI

Setelah pekerjaan berhasil dijalankan, Anda dapat melihat detail eksekusinya di Spark UI.

Di panel navigasi sebelah kiri, klik Job History.
Di halaman Application, klik Spark UI di kolom Actions pekerjaan target.
Di halaman Spark Jobs, Anda dapat melihat detail pekerjaan.

Halaman ini menampilkan informasi dasar aplikasi (seperti User: root, Total Uptime, dan Scheduling Mode: FIFO) serta daftar Completed Jobs. Tabel mencakup kolom seperti Job Id, Description, Submitted, Duration, Stages: Succeeded/Total, dan Tasks. Untuk setiap pekerjaan, Anda dapat melihat deskripsi, durasi, serta detail penyelesaian stage dan task-nya.

Topik terkait

Setelah pekerjaan dipublikasikan, Anda dapat menjadwalkannya dalam alur kerja. Untuk informasi selengkapnya, lihat Kelola alur kerja. Untuk contoh lengkap proses pengembangan orkestrasi pekerjaan, lihat Mulai pengembangan Spark SQL.
Untuk contoh pengembangan pekerjaan streaming PySpark, lihat Kirim pekerjaan streaming PySpark menggunakan Serverless Spark.