All Products
Search
Document Center

E-MapReduce:Pengiriman Pekerjaan

Last Updated:Oct 18, 2025

Kluster EMR Alibaba Cloud menyediakan berbagai metode pengiriman pekerjaan, mencakup skenario dari pengembangan dan debugging (node master) hingga manajemen produksi (node Gateway) dan penjadwalan otomatis (DataWorks), untuk memenuhi kebutuhan peran yang berbeda. Topik ini menjelaskan kelebihan, kekurangan, dan skenario yang sesuai dari tiga metode tersebut.

Metode Pengiriman

Metode Pengiriman

Kelebihan dan Kekurangan

Skenario

Kirim pekerjaan melalui node Gateway kluster (direkomendasikan)

Kelebihan:

  • Isolasi jaringan: Akses kluster melalui server lompat tanpa mengekspos node master.

  • Skalabilitas elastis: Sesuaikan sumber daya instance Gateway secara dinamis berdasarkan beban kluster.

  • Operasi yang nyaman: Tidak diperlukan konfigurasi lingkungan klien tambahan. Anda dapat langsung menggunakan antarmuka baris perintah pra-instal (seperti spark-submit) untuk mengirimkan pekerjaan.

Kekurangan:

  • Biaya tambahan: Biaya tambahan untuk instance ECS node Gateway.

  • Pengiriman pekerjaan di lingkungan produksi perusahaan.

  • Arsitektur lintas-VPC dan cloud hibrida.

Kirim pekerjaan melalui DataWorks Alibaba Cloud (direkomendasikan)

Kelebihan:

  • O&M Otomatis: Visualisasi orkestrasi tugas dan peringatan pemantauan.

  • Fitur tingkat perusahaan: Dukungan untuk analisis hubungan tugas dan optimasi biaya.

  • Kompatibilitas baik: Dukungan untuk integrasi terpadu dengan produk Alibaba Cloud lainnya.

Kekurangan:

  • Kurva pembelajaran: Memerlukan pemahaman tentang standar pengembangan DataWorks.

  • Biaya tambahan: Biaya tambahan untuk menggunakan DataWorks.

  • Manajemen tugas ETL periodik.

  • Alur kerja DAG yang memerlukan manajemen dependensi kompleks.

Kirim pekerjaan melalui node master kluster

Kelebihan:

  • Operasi yang nyaman: Tidak diperlukan konfigurasi lingkungan klien tambahan. Anda dapat langsung menggunakan antarmuka baris perintah pra-instal (seperti spark-submit) untuk mengirimkan pekerjaan.

  • Biaya terendah: Tidak ada biaya sumber daya tambahan.

Kekurangan:

  • Risiko keamanan: Node master biasanya memiliki izin tinggi. Setiap operasi yang salah dapat menyebabkan crash kluster, seperti metadata HDFS yang terhapus secara tidak sengaja.

  • Ekstensibilitas terbatas: Bottleneck pengiriman titik tunggal tanpa kemampuan skalabilitas horizontal.

  • Perebutan sumber daya: Pengiriman pekerjaan besar secara sering dapat mengonsumsi sumber daya komputasi (seperti CPU dan memori) node master, mempengaruhi operasi normal layanan manajemen kluster (seperti ZooKeeper dan HMaster).

  • Validasi cepat di lingkungan pengembangan dan pengujian.

  • Debugging cepat tugas sementara.