Platform big data - E-MapReduce

E-MapReduce (EMR) adalah solusi pemrosesan data besar yang disediakan oleh Alibaba Cloud. EMR dikembangkan berdasarkan sumber terbuka Apache Hadoop dan Apache Spark. EMR memungkinkan Anda menggunakan sistem periferal dalam ekosistem Hadoop dan Spark untuk menganalisis dan memproses data dengan mudah. EMR juga dapat membaca data dari atau menulis data ke sistem penyimpanan dan basis data Alibaba Cloud lainnya, seperti Object Storage Service (OSS) dan ApsaraDB RDS.

Pengenalan produk

Alibaba Cloud menyediakan EMR on ECS, EMR on ACK, dan EMR Serverless StarRocks untuk memenuhi kebutuhan bisnis pengguna yang berbeda.

Item	Deskripsi
EMR on ECS	Saat Anda membuat kluster EMR, sistem EMR menyebarkan komponen dari ekosistem Hadoop sumber terbuka pada instance Elastic Compute Service (ECS) berdasarkan konfigurasi Anda dan memulai komponen sebagai layanan di dalam kluster. Anda dapat melakukan operasi O&M pada layanan dan instance ECS dari kluster EMR di konsol EMR. Untuk informasi lebih lanjut tentang EMR on ECS, lihat Apa itu EMR on ECS?
EMR on ACK	Sebelum Anda menggunakan EMR on ACK, pastikan bahwa kluster ACK telah diterapkan. Setelah kluster ACK diterapkan, Anda dapat membuat kluster EMR untuk menyebarkan komponen data besar berdasarkan sumber daya ACK dan menjalankan komponen dalam kontainer terkait. Untuk informasi lebih lanjut tentang EMR on ACK, lihat Apa itu EMR on ACK?
EMR Serverless Spark	E-MapReduce (EMR) Serverless Spark adalah layanan lakehouse berperforma tinggi untuk skenario data dan AI. Layanan ini menyediakan layanan platform data end-to-end bagi perusahaan, seperti pengembangan tugas, debugging, penjadwalan, dan O&M. Ini secara signifikan menyederhanakan alur kerja pemrosesan data dan pelatihan model. EMR Serverless Spark juga sepenuhnya kompatibel dengan ekosistem Spark sumber terbuka dan dapat diintegrasikan dengan mulus dengan platform data sisi pelanggan yang ada. EMR Serverless Spark membantu perusahaan meningkatkan efisiensi dengan fokus pada pemrosesan dan analisis data serta optimasi pelatihan model. Untuk informasi lebih lanjut tentang EMR Serverless Spark, lihat Apa itu EMR Serverless Spark?.

Manfaat

EMR on ECS

EMR memungkinkan Anda dengan mudah menyebarkan layanan data besar sumber terbuka tingkat perusahaan, seperti Hadoop, Spark, Flink, Kafka, dan HBase.

Semua komponen di EMR bersumber terbuka. EMR menyesuaikan dan mengoptimalkan komponen sumber terbuka tersebut, memberikan performa lebih tinggi dibandingkan versi aslinya.
Instance preemptible membantu mengurangi biaya melalui kemampuan penskalaan otomatis berbasis waktu.
Komputasi dan penyimpanan dipisahkan untuk mendukung penggunaan sumber daya secara elastis.
Anda dapat membuat atau menambah kluster dalam hitungan menit tanpa perlu menyebarkan atau memulai layanan secara manual.

EMR on ACK

Biaya efektif: Tidak diperlukan pembelian kluster ACK.
Operasi dan pemeliharaan (O&M) disederhanakan: Sistem O&M dan manajemen kluster disediakan untuk bisnis data besar dan online.
Pengalaman pengguna dioptimalkan: Konsol EMR menyediakan model-model Infrastructure as a Service (IaaS), yaitu EMR on ECS dan EMR on ACK, dengan transisi mulus antara keduanya.
Integrasi mendalam: EMR on ACK mengadopsi arsitektur danau data cloud-native yang mengintegrasikan ACK untuk menskalakan sumber daya komputasi tanpa batas.

EMR Serverless Spark

Mesin komputasi cloud-native yang menghitung data dengan kecepatan ultra-tinggi
- Fusion Engine (sebelumnya Spark Native Engine) terintegrasi, memberikan performa hingga 300% lebih tinggi dibandingkan Spark sumber terbuka.
- Celeborn (sebelumnya Remote Shuffle Service) terintegrasi, mendukung petabyte data shuffle dan mengurangi total biaya sumber daya komputasi hingga 30%.
Arsitektur danau data terbuka
- Pemisahan komputasi-penyimpanan, sumber daya komputasi yang dapat diskalakan, dan penyimpanan bayar sesuai pemakaian didukung.
- Layanan ini terintegrasi dengan OSS-HDFS dan sepenuhnya kompatibel dengan penyimpanan awan HDFS, memungkinkan migrasi bisnis ke cloud dengan mulus.
- Layanan metadata DLF terpusat disediakan untuk mengintegrasikan metadata di danau data dan gudang data.
Pengembangan ujung ke ujung
- Pengembangan data ujung ke ujung didukung, mencakup pengembangan, debugging, publikasi, dan penjadwalan tugas.
- Manajemen versi terintegrasi dan isolasi antara lingkungan pengembangan dan produksi didukung untuk memenuhi standar perusahaan.
Platform sumber daya serverless
- Layanan siap pakai membebaskan Anda dari kebutuhan untuk mengelola dan memelihara infrastruktur cloud secara manual.
- Sumber daya secara otomatis diskalakan dan disediakan dalam hitungan detik.
- Sumber daya komputasi dibayar berdasarkan metode bayar sesuai pemakaian, mengurangi total biaya sumber daya.