All Products
Search
Document Center

E-MapReduce:Pilih skenario bisnis

Last Updated:Mar 27, 2026

E-MapReduce (EMR) menyediakan empat tipe kluster yang telah ditentukan sebelumnya—Data Lake, Data Analytics, Real-time Data Streaming, dan Data Service—masing-masing telah dikonfigurasi untuk beban kerja tertentu. Jika tidak ada yang sesuai dengan kebutuhan Anda, gunakan Custom Cluster untuk menerapkan kombinasi layanan apa pun.

Pilih tipe kluster

Cocokkan beban kerja Anda dengan tipe kluster menggunakan tabel berikut.

Tipe kluster Layanan yang disertakan Kemampuan inti Beban kerja khas
Data Lake (kluster DataLake)

Komputasi: Spark, Hive, Tez, Trino, Kyuubi, Presto

Penyimpanan: Hadoop Distributed File System (HDFS), OSS-HDFS, Celeborn, JindoCache

Integrasi data: Flume, Sqoop

Format data lake: Hudi, Iceberg, Paimon

Manajemen resource: YARN

Koordinasi: ZooKeeper

Keamanan: OpenLDAP, Ranger, DLF-Auth, Knox

Penyimpanan terpadu, beberapa engine komputasi yang kompatibel, serta dukungan untuk format Hudi/Iceberg/Paimon Ekstraksi, transformasi, dan pemuatan (ETL) offline—ETL gudang data, analisis ad hoc
Data Analytics (kluster OLAP)

Online Analytical Processing (OLAP): StarRocks, ClickHouse, Doris

Koordinasi: ZooKeeper

Respons kueri subdetik, optimasi penyimpanan berorientasi kolom, dan kueri federasi Analisis agregasi kompleks—analisis profil pengguna, identifikasi kelompok pengguna, Intelijen bisnis (BI)
Real-time Data Streaming (kluster Dataflow)

Komputasi aliran: Flink

Penyimpanan: HDFS, OSS-HDFS

Format data lake: Paimon

Manajemen resource: YARN

Koordinasi: ZooKeeper

Keamanan: OpenLDAP, Knox

Pemrosesan batch dan stream terpadu, latensi rendah, serta jaminan konsistensi state ETL real-time—ETL gudang streaming
Data Service (kluster DataServing)

Komputasi: Phoenix

Penyimpanan berorientasi kolom: HBase

Penyimpanan: HDFS, OSS-HDFS, JindoCache

Koordinasi: ZooKeeper

Keamanan: OpenLDAP, Ranger, Knox

Kueri titik tingkat milidetik, optimasi antarmuka SQL, serta pemisahan baca/tulis Kueri high-concurrency—analisis perilaku, pemasaran presisi
Custom Cluster

Komputasi: Spark, Hive, Tez, Trino, Kyuubi, Presto, Flink, Phoenix

OLAP: StarRocks

Penyimpanan berorientasi kolom: HBase

Penyimpanan: HDFS, OSS-HDFS, Celeborn, JindoCache

Integrasi data: Flume, Sqoop

Format data lake: Hudi, Iceberg, Paimon

Manajemen resource: YARN

Koordinasi: ZooKeeper

Keamanan: OpenLDAP, Ranger, DLF-Auth, Knox

Penerapan layanan fleksibel serta beban kerja campuran (real-time, offline, dan analitik) ETL offline, ETL real-time, analisis agregasi kompleks, dan kueri high-concurrency
Catatan

Versi layanan yang tersedia dalam suatu kluster bergantung pada versi EMR. Gunakan versi EMR terbaru untuk mengakses lebih banyak fitur, performa yang lebih baik, dan peningkatan keamanan. Untuk daftar lengkap versi yang tersedia, lihat Versi rilis.

Kapan menggunakan Custom Cluster

Custom Cluster memberikan Anda kendali penuh atas layanan yang akan diterapkan. Gunakan opsi ini ketika beban kerja Anda mencakup beberapa tipe kluster—misalnya, menjalankan Spark, Flink, dan HBase bersama dalam satu kluster.

Gunakan Custom Cluster jika:

  • Beban kerja Anda menggabungkan ETL offline, pemrosesan real-time, dan kueri analitik

  • Tidak ada tipe kluster yang telah ditentukan sebelumnya mencakup semua layanan yang Anda butuhkan

Gunakan kluster khusus terpisah jika:

  • Beban kerja offline dan real-time Anda memiliki persyaratan latensi atau sumber daya yang berbeda—menggabungkannya dalam satu kluster dapat menyebabkan interferensi

Jika Custom Cluster masih belum sepenuhnya memenuhi kebutuhan Anda, terapkan layanan tambahan secara manual setelah mengevaluasi kompatibilitas dan keamanannya.

Langkah selanjutnya

Setelah memilih tipe kluster, rencanakan konfigurasi kluster lainnya:

Referensi