Memulai pengembangan pekerjaan batch PySpark - E-MapReduce

Anda dapat mengembangkan pekerjaan PySpark dengan menulis skrip Python yang berisi logika bisnis Anda dan mengunggahnya ke EMR Serverless Spark. Topik ini menyediakan contoh untuk memandu Anda melalui proses pengembangan.

Prasyarat

Anda memiliki Akun Alibaba Cloud. Untuk informasi selengkapnya, lihat Pendaftaran akun.
Anda telah diberikan peran yang diperlukan. Untuk informasi selengkapnya, lihat Otorisasi peran untuk Akun Alibaba Cloud.
Ruang kerja telah dibuat. Untuk informasi selengkapnya, lihat Buat ruang kerja.

Prosedur

Langkah 1: Siapkan file uji

Di EMR Serverless Spark, Anda dapat mengembangkan file Python di platform pengembangan lokal atau mandiri, lalu mengirimkannya ke EMR Serverless Spark untuk dieksekusi. Panduan Cepat ini menyediakan file uji untuk membantu Anda memahami pekerjaan PySpark dengan cepat. Unduh file uji berikut untuk digunakan dalam langkah-langkah selanjutnya.

Klik DataFrame.py dan employee.csv untuk mengunduh file uji.

Catatan

File DataFrame.py berisi kode yang menggunakan kerangka kerja Apache Spark untuk memproses data di OSS.
File employee.csv berisi daftar data, termasuk nama karyawan, departemen, dan gaji.

Langkah 2: Unggah file tes

Unggah file Python ke EMR Serverless Spark.
1. Buka halaman unggah sumber daya.
  1. Masuk ke Konsol EMR.
  2. Di panel navigasi sebelah kiri, pilih EMR Serverless > Spark.
  3. Di halaman Spark, klik nama ruang kerja yang dituju.
  4. Di halaman EMR Serverless Spark, pada panel navigasi kiri, klik Files.
2. Di halaman Files, klik Upload File.
3. Di kotak dialog Upload File, klik area unggah untuk memilih file Python, atau seret file ke area tersebut.
  Dalam contoh ini, unggah file DataFrame.py.
Unggah file data (employee.csv) ke Konsol Object Storage Service (OSS). Untuk informasi selengkapnya, lihat Unggah file.

Langkah 3: Kembangkan dan jalankan pekerjaan

Di halaman EMR Serverless Spark, klik Data Development di panel navigasi sebelah kiri.
Di tab Development, klik ikon .
Di kotak dialog yang muncul, masukkan nama, pilih Batch Job > PySpark sebagai Jenis, lalu klik OK.
Di pojok kanan atas, pilih antrian.
Untuk informasi selengkapnya tentang cara menambahkan antrian, lihat Kelola antrian sumber daya.

Di tab pekerjaan baru, konfigurasikan parameter berikut. Biarkan pengaturan default untuk parameter lainnya, lalu klik Run.

Parameter	Deskripsi
Main Python Resource	Pilih file Python yang telah Anda unggah di halaman Files pada langkah sebelumnya. Dalam contoh ini, pilih DataFrame.py.
Execution Parameters	Masukkan path file data (employee.csv) yang diunggah ke OSS. Contoh: oss://<yourBucketName>/employee.csv.

Setelah pekerjaan dijalankan, di bagian Execution Records di bawah, klik Log Probe di kolom Tindakan untuk pekerjaan tersebut.
Di tab Log Probe, Anda dapat melihat informasi log.

Langkah 4: Publikasikan pekerjaan

Penting

Pekerjaan yang dipublikasikan dapat digunakan sebagai node dalam alur kerja.

Setelah pekerjaan dijalankan, klik Publish di sebelah kanan.
Di kotak dialog Publish Job, masukkan informasi rilis dan klik OK.

Langkah 5: Lihat Spark UI

Setelah pekerjaan berhasil dijalankan, Anda dapat melihat statusnya di Spark UI.

Di panel navigasi sebelah kiri, klik Job History.
Di halaman Application, di kolom Tindakan untuk pekerjaan yang dituju, klik Spark UI.
Di halaman Spark Jobs, Anda dapat melihat detail pekerjaan.

Referensi

Setelah pekerjaan dipublikasikan, Anda dapat menggunakannya dalam alur kerja untuk penjadwalan. Untuk informasi selengkapnya, lihat Kelola alur kerja. Untuk contoh lengkap proses pengembangan dan orkestrasi pekerjaan, lihat Panduan Cepat untuk pengembangan SparkSQL.
Untuk contoh cara mengembangkan pekerjaan streaming PySpark, lihat Kirim pekerjaan streaming PySpark menggunakan Serverless Spark.