Pilih Mode Deployment EMR yang Tepat untuk Workload Anda - E-MapReduce

Platform data besar terbuka Alibaba Cloud, E-MapReduce (EMR), menawarkan berbagai bentuk produk untuk memenuhi kebutuhan bisnis yang beragam. Bentuk-bentuk tersebut dikategorikan berdasarkan mode penyebaran dan mencakup EMR Serverless Spark, EMR Serverless StarRocks, EMR on ECS, serta EMR on ACK. Topik ini menjelaskan fitur utama, kasus penggunaan, dan rekomendasi pemilihan untuk setiap bentuk produk guna membantu Anda memilih opsi yang paling sesuai.

EMR Serverless Spark

EMR Serverless Spark adalah produk danau data terpadu berkinerja tinggi untuk aplikasi Data+AI. Produk ini memanfaatkan Fusion Engine, mesin native Spark, dan fondasi arsitektur tanpa server Alibaba Cloud untuk menyediakan layanan terpadu dalam pengembangan pekerjaan, debugging, publikasi, penjadwalan, serta operasi dan pemeliharaan (O&M).

Fitur utama

Platform data terkelola penuh tingkat perusahaan: Anda dapat langsung memulai pengembangan pekerjaan tanpa perlu membangun infrastruktur sendiri. Platform ini menyediakan rangkaian fitur lengkap, mulai dari pengembangan dan debugging hingga O&M.
Mesin komputasi berkinerja tinggi: Fusion Engine bawaan memberikan kinerja hingga empat kali lebih tinggi dibandingkan Spark open source. Mesin ini mendukung Remote Shuffle Service Celeborn, yang menyediakan kemampuan shuffle tingkat petabyte dan mengurangi biaya komputasi.
Skalabilitas dan elastisitas tinggi: Dibangun di atas fondasi arsitektur tanpa server Alibaba Cloud, platform ini menyediakan penskalaan otomatis sumber daya dalam hitungan detik. Anda hanya dikenai biaya berdasarkan sumber daya komputasi yang digunakan, sehingga mengurangi biaya.
Observabilitas dan keamanan sumber daya: Menyediakan pemantauan dan peringatan pada tingkat pekerjaan maupun sumber daya. Platform ini diterapkan berbasis VPC dan mendukung kontrol akses detail halus.
Arsitektur terbuka dan integrasi ekosistem: Terintegrasi secara mulus dengan OSS-HDFS, Data Lake Formation (DLF), dan DataWorks. Platform ini mendukung pemisahan komputasi dan penyimpanan serta memungkinkan berbagi metadata terpusat.
Pengalaman pengembangan terpadu: Menyediakan manajemen versi bawaan dan isolasi antara lingkungan pengembangan dan produksi. Platform ini mendukung pengembangan, debugging, publikasi, dan penjadwalan pekerjaan.

Skema penggunaan

Menjalankan pekerjaan Spark menggunakan layanan terkelola penuh tanpa perlu mengelola sumber daya kluster.
Skema yang memerlukan elastisitas tinggi dan penagihan sesuai pemakaian untuk segera mendapatkan sumber daya komputasi saat terjadi lonjakan pekerjaan mendadak.
Skema yang memerlukan Spark berkinerja tinggi dan platform danau data terpadu untuk mendukung beban kerja danau data terpadu atau AI.

EMR Serverless StarRocks

EMR Serverless StarRocks adalah layanan analitik danau data terpadu berbasis cloud-native yang sepenuhnya dikelola. Layanan ini 100% kompatibel dengan StarRocks open source dan menyediakan fitur inti tingkat perusahaan. Layanan ini cocok untuk berbagai skenario, seperti OLAP, gudang data real-time, analitik danau data terpadu, dan pembangunan gudang data ringan. Layanan ini membantu perusahaan menerapkan layanan analitik data real-time dalam arsitektur danau data terpadu.

Fitur utama

Terkelola penuh dan bebas O&M: Siap digunakan langsung. Menyediakan manajemen instans visual, pemantauan cerdas, dan diagnostik kesehatan untuk secara signifikan mengurangi biaya O&M.
Kernel cloud-native tingkat perusahaan (Stella): Berbasis arsitektur penyimpanan dan komputasi yang dipisahkan, kernel ini dioptimalkan secara mendalam untuk kinerja dan stabilitas dalam arsitektur tersebut serta untuk analitik danau data terpadu. Kernel ini mendukung isolasi untuk beberapa kelompok komputasi guna memastikan isolasi sumber daya bagi layanan penting.
Platform manajemen data terpadu: Mengintegrasikan fitur-fitur seperti editor SQL, kontrol izin, tampilan yang di-materialisasi, tugas impor, dan diagnostik SQL untuk meningkatkan efisiensi pengembangan dan manajemen.
Kinerja kueri berkecepatan tinggi: Arsitektur terdistribusi Pemrosesan Paralel Masif (MPP) dan mesin eksekusi yang sepenuhnya divectorisasi meningkatkan kinerja kueri sebesar 3 hingga 10 kali lipat.
Optimalisasi kueri cerdas: Optimalisasi berbasis biaya (CBO) secara otomatis memilih rencana eksekusi optimal untuk meningkatkan efisiensi kueri kompleks.
Pembaruan data real-time: Penyimpanan kolom mendukung impor data dalam hitungan detik, transaksi atomicity, consistency, isolation, and durability (ACID), serta upsert efisien untuk memenuhi kebutuhan analitik real-time.
Analistik danau data terpadu: Tampilan yang di-materialisasi cerdas disinkronkan secara otomatis untuk menyederhanakan proses ekstrak, transformasi, dan muat (ETL). Layanan ini secara native mendukung kueri efisien pada format danau data seperti Paimon, Iceberg, Hudi, Delta Lake, dan Hive.

Skema penggunaan

Analistik OLAP multidimensi: Mendukung analisis multidimensi fleksibel dan kueri ad hoc. Layanan ini banyak digunakan dalam skenario seperti laporan operasi, persona pengguna, platform metrik, dan analitik BI untuk membantu Anda membuat keputusan berbasis data.
Gudang data real-time: Menyediakan ingesti dan pembaruan data dalam hitungan detik. Cocok untuk skenario bisnis yang memerlukan latensi rendah, seperti pemantauan inventaris real-time, pelacakan pesanan, analisis perilaku pengguna, dan pengendalian risiko real-time.
Pemrosesan dan analitik danau data terpadu: Terhubung secara mulus ke penyimpanan danau data seperti OSS dan HDFS. Memungkinkan Anda melakukan kueri langsung pada format seperti Paimon dan Iceberg, menghilangkan silodata, serta memungkinkan analitik terpadu yang efisien.

EMR on ECS

EMR on ECS adalah mode penyebaran di mana E-MapReduce berjalan pada instans Elastic Compute Service (ECS) Alibaba Cloud. Dalam mode ini, EMR menggunakan instans ECS elastis untuk menginstal dan menerapkan ekosistem Hadoop open source pada server cloud. EMR juga menyediakan fitur manajemen seperti pembuatan kluster, penskalaan, konfigurasi layanan, dan pemantauan.

Fitur utama

Komponen lengkap: Mengintegrasikan komponen open source seperti Hadoop, Spark, Hive, Flink, dan Presto, serta komponen proprietary seperti OSS-HDFS, JindoCache, dan DLF-Auth. Cocok untuk berbagai skenario, termasuk pemrosesan batch, pemrosesan aliran, dan danau data.
Fleksibel dan terkendali: Anda dapat masuk ke instans ECS untuk melakukan operasi kustom. Menyediakan kemampuan pembuatan kluster cepat, penskalaan otomatis, manajemen konfigurasi, dan O&M visual.
Stabil dan mudah digunakan: Menggunakan komponen open source komunitas 100% yang telah dioptimalkan untuk lingkungan cloud guna meningkatkan kinerja dan menghindari masalah kompatibilitas versi. Anda dapat menyiapkan lingkungan komputasi data besar dalam hitungan menit dan menyesuaikan skala sumber daya dengan satu klik.
Hemat biaya: Memungkinkan Anda menggunakan sumber daya komputasi sesuai kebutuhan dan mendukung metode penagihan langganan atau bayar sesuai pemakaian. Menyediakan penyimpanan bertingkat otomatis untuk data panas dan dingin serta rangkaian alat O&M yang lengkap untuk mengurangi total biaya.
Penskalaan otomatis: Anda dapat menyesuaikan ukuran kluster secara dinamis berdasarkan waktu atau beban kerja. Mendukung berbagai jenis sumber daya elastis.
Integrasi mendalam: Terintegrasi secara mendalam dengan layanan Alibaba Cloud seperti OSS, DataWorks, dan DLF. Anda dapat menggunakan EMR sebagai mesin komputasi untuk pekerjaan di DataWorks.

Skenario

Platform data besar tingkat perusahaan yang memerlukan kontrol penuh atas sumber daya komputasi dan penyimpanan.
Kebutuhan kustomisasi lingkungan dan konfigurasi penyebaran, seperti menginstal komponen open source tertentu atau menyesuaikan parameter kernel.
Skema yang memerlukan keseimbangan antara biaya dan kinerja, serta mendukung pekerjaan batch jangka panjang atau beban kerja campuran.

EMR on ACK

EMR on ACK adalah arsitektur penyebaran di mana layanan data besar open source diterapkan pada Container Service for Kubernetes (ACK) Alibaba Cloud. Anda harus memiliki kluster ACK terlebih dahulu. Kemudian, Anda dapat menggunakan EMR untuk menginstal dan menjalankan layanan data besar pada sumber daya ACK.

Fitur utama

Sumber daya kluster Kubernetes bersama: Anda dapat menjalankan pekerjaan seperti Spark dan Presto pada kluster ACK yang sudah ada. Anda dapat berbagi sumber daya kontainer dengan layanan online dan berbagi sumber daya komputasi lintas zona.
Hemat biaya: Anda tidak perlu membeli kluster ACK terpisah. Anda dapat menggunakan kembali sumber daya idle kluster ACK untuk menjalankan pekerjaan EMR dengan satu klik. Cocok untuk penerapan hibrida layanan online dan offline.
O&M disederhanakan: Anda dapat mengelola aplikasi online dan tugas data besar melalui sistem O&M terpadu. Anda dapat memanfaatkan kemampuan ACK dan Elastic Container Instance (ECI) untuk mendapatkan sumber daya komputasi elastis lebih cepat.
Pengalaman yang dioptimalkan: Mendukung penyesuaian versi Spark tingkat pekerjaan untuk bereksperimen cepat dengan fitur baru. Mendukung peralihan mulus antara model sumber daya ECS dan ACK.
Integrasi mendalam dengan arsitektur danau data: Mengadopsi arsitektur danau data cloud-native. Menggunakan ACK untuk komputasi dan OSS untuk penyimpanan guna mencapai pemisahan penyimpanan dan komputasi. Metadata dikelola oleh DLF.

Skenario

Anda sudah memiliki kluster ACK dan ingin menjalankan tugas data besar serta aplikasi online pada kluster yang sama untuk mencapai penggabungan sumber daya dan penjadwalan elastis.
Skema dengan permintaan tinggi terhadap manajemen berbasis kontainer, yang memerlukan kombinasi elastisitas Kubernetes dan ekosistem cloud-native (seperti CI/CD, service mesh, dan layanan mikro).
Skema di mana Anda ingin membangun arsitektur danau data dengan cepat dan menggunakan DLF untuk mengelola metadata.

Rekomendasi pemilihan

Kebutuhan bisnis	Bentuk produk yang direkomendasikan	Alasan	Cakupan O&M produk
Pekerjaan Spark skala besar, pelatihan AI, dan inferensi Memerlukan elastisitas dalam hitungan detik, penagihan bayar sesuai pemakaian, dan kemampuan danau data terpadu.	EMR Serverless Spark	Fusion Engine memberikan kinerja hingga empat kali lebih tinggi dibandingkan Spark open source, sehingga cocok untuk tugas danau data terpadu dan AI yang kompleks. Fondasi arsitektur tanpa server menyediakan penskalaan otomatis dalam hitungan detik dan menagih berdasarkan penggunaan aktual. Tidak diperlukan O&M kluster. Menyediakan pengalaman terpadu untuk pengembangan, debugging, publikasi, dan penjadwalan pekerjaan. Terintegrasi secara mendalam dengan OSS-HDFS, DLF, dan DataWorks.	Alibaba Cloud bertanggung jawab atas ketersediaan dan keandalan sumber daya komputasi dan penyimpanan dasar, serta layanan penjadwalan pekerjaan. Anda hanya perlu fokus pada logika pekerjaan dan pengembangan data.
OLAP, pemrosesan dan analitik danau data terpadu Memerlukan kueri konkurensi tinggi, analisis multidimensi, dan kompatibilitas dengan protokol MySQL.	EMR Serverless StarRocks	Menyediakan layanan analitik data optimal menggunakan teknologi seperti vektorisasi, arsitektur MPP, dan CBO baru. Kueri federasi lintas mesin, kompatibilitas dengan berbagai format danau data, dan tampilan yang di-materialisasi cerdas menyediakan mesin terpadu untuk pemrosesan dan analitik danau data terpadu. Bentuk layanan cloud-native dan terkelola penuh meningkatkan kegunaan dan efisiensi O&M.	Stabilitas dan jaminan layanan untuk konsol StarRocks dan OpenAPI. Stabilitas dan jaminan layanan untuk node yang berjalan dalam instans StarRocks. Stabilitas dan jaminan layanan untuk layanan dalam tumpukan perangkat lunak StarRocks.
Lingkungan kustom dan pekerjaan offline jangka panjang Memerlukan kontrol penuh atas sumber daya dan konfigurasi kluster.	EMR on ECS	Menyediakan kemampuan manajemen dan kontrol komprehensif untuk kluster dan layanan komponen, termasuk namun tidak terbatas pada kompensasi kesalahan ECS, penskalaan otomatis, dan diagnostik cerdas. Mengintegrasikan komponen lengkap seperti Hadoop, Spark, Flink, dan Presto untuk mendukung skenario seperti pemrosesan batch, pemrosesan aliran, dan danau data. Biaya fleksibel. Mendukung metode penagihan langganan atau bayar sesuai pemakaian. Stabilitas tinggi. Anda dapat menyiapkan lingkungan data besar dalam hitungan menit.	Layanan EMR menyediakan fitur manajemen kluster dan komponen serta manajemen versi komponen data besar, tetapi Anda bertanggung jawab atas O&M komponen data besar. Cocok untuk perusahaan yang memiliki pengetahuan dan kemampuan dalam O&M komponen data besar.
Gunakan kembali sumber daya kontainer, penerapan hibrida layanan online dan offline Anda sudah memiliki kluster Kubernetes (ACK).	EMR on ACK	Memanfaatkan kembali sumber daya ACK yang sudah ada, sehingga Anda tidak perlu membeli kluster tambahan. Mendukung operasi hibrida layanan online dan tugas data besar untuk mengurangi biaya. Menggunakan elastisitas ACK dan ECI untuk penskalaan lebih cepat. Cocok untuk perusahaan yang telah menerapkan arsitektur berbasis kontainer, tetapi tidak direkomendasikan sebagai pilihan utama.	Stabilitas komponen data besar (seperti Spark dan Presto) lebih bergantung pada manajemen Anda sendiri. Cocok untuk perusahaan yang memiliki pengetahuan dan kemampuan dalam O&M komponen data besar.