Ringkasan tipe kluster EMR: arsitektur & kecocokan workload - E-MapReduce

E-MapReduce (EMR) menyediakan empat tipe kluster yang telah ditentukan sebelumnya—Data Lake, Data Analytics, Real-time Data Streaming, dan Data Service—masing-masing telah dikonfigurasi untuk beban kerja tertentu. Jika tidak ada yang sesuai dengan kebutuhan Anda, gunakan Custom Cluster untuk menerapkan kombinasi layanan apa pun.

Pilih tipe kluster

Cocokkan beban kerja Anda dengan tipe kluster menggunakan tabel berikut.

Tipe kluster	Layanan yang disertakan	Kemampuan inti	Beban kerja khas
Data Lake (kluster DataLake)	Komputasi: Spark, Hive, Tez, Trino, Kyuubi, Presto Penyimpanan: Hadoop Distributed File System (HDFS), OSS-HDFS, Celeborn, JindoCache Integrasi data: Flume, Sqoop Format data lake: Hudi, Iceberg, Paimon Manajemen resource: YARN Koordinasi: ZooKeeper Keamanan: OpenLDAP, Ranger, DLF-Auth, Knox	Penyimpanan terpadu, beberapa engine komputasi yang kompatibel, serta dukungan untuk format Hudi/Iceberg/Paimon	Ekstraksi, transformasi, dan pemuatan (ETL) offline—ETL gudang data, analisis ad hoc
Data Analytics (kluster OLAP)	Online Analytical Processing (OLAP): StarRocks, ClickHouse, Doris Koordinasi: ZooKeeper	Respons kueri subdetik, optimasi penyimpanan berorientasi kolom, dan kueri federasi	Analisis agregasi kompleks—analisis profil pengguna, identifikasi kelompok pengguna, Intelijen bisnis (BI)
Real-time Data Streaming (kluster Dataflow)	Komputasi aliran: Flink Penyimpanan: HDFS, OSS-HDFS Format data lake: Paimon Manajemen resource: YARN Koordinasi: ZooKeeper Keamanan: OpenLDAP, Knox	Pemrosesan batch dan stream terpadu, latensi rendah, serta jaminan konsistensi state	ETL real-time—ETL gudang streaming
Data Service (kluster DataServing)	Komputasi: Phoenix Penyimpanan berorientasi kolom: HBase Penyimpanan: HDFS, OSS-HDFS, JindoCache Koordinasi: ZooKeeper Keamanan: OpenLDAP, Ranger, Knox	Kueri titik tingkat milidetik, optimasi antarmuka SQL, serta pemisahan baca/tulis	Kueri high-concurrency—analisis perilaku, pemasaran presisi
Custom Cluster	Komputasi: Spark, Hive, Tez, Trino, Kyuubi, Presto, Flink, Phoenix OLAP: StarRocks Penyimpanan berorientasi kolom: HBase Penyimpanan: HDFS, OSS-HDFS, Celeborn, JindoCache Integrasi data: Flume, Sqoop Format data lake: Hudi, Iceberg, Paimon Manajemen resource: YARN Koordinasi: ZooKeeper Keamanan: OpenLDAP, Ranger, DLF-Auth, Knox	Penerapan layanan fleksibel serta beban kerja campuran (real-time, offline, dan analitik)	ETL offline, ETL real-time, analisis agregasi kompleks, dan kueri high-concurrency

Catatan

Versi layanan yang tersedia dalam suatu kluster bergantung pada versi EMR. Gunakan versi EMR terbaru untuk mengakses lebih banyak fitur, performa yang lebih baik, dan peningkatan keamanan. Untuk daftar lengkap versi yang tersedia, lihat Versi rilis.

Kapan menggunakan Custom Cluster

Custom Cluster memberikan Anda kendali penuh atas layanan yang akan diterapkan. Gunakan opsi ini ketika beban kerja Anda mencakup beberapa tipe kluster—misalnya, menjalankan Spark, Flink, dan HBase bersama dalam satu kluster.

Gunakan Custom Cluster jika:

Beban kerja Anda menggabungkan ETL offline, pemrosesan real-time, dan kueri analitik
Tidak ada tipe kluster yang telah ditentukan sebelumnya mencakup semua layanan yang Anda butuhkan

Gunakan kluster khusus terpisah jika:

Beban kerja offline dan real-time Anda memiliki persyaratan latensi atau sumber daya yang berbeda—menggabungkannya dalam satu kluster dapat menyebabkan interferensi

Jika Custom Cluster masih belum sepenuhnya memenuhi kebutuhan Anda, terapkan layanan tambahan secara manual setelah mengevaluasi kompatibilitas dan keamanannya.

Langkah selanjutnya

Setelah memilih tipe kluster, rencanakan konfigurasi kluster lainnya:

E-MapReduce:Pilih skenario bisnis

Pilih tipe kluster

Kapan menggunakan Custom Cluster

Langkah selanjutnya

Referensi