E-MapReduce (EMR) menyediakan empat tipe kluster yang telah ditentukan sebelumnya—Data Lake, Data Analytics, Real-time Data Streaming, dan Data Service—masing-masing telah dikonfigurasi untuk beban kerja tertentu. Jika tidak ada yang sesuai dengan kebutuhan Anda, gunakan Custom Cluster untuk menerapkan kombinasi layanan apa pun.
Pilih tipe kluster
Cocokkan beban kerja Anda dengan tipe kluster menggunakan tabel berikut.
| Tipe kluster | Layanan yang disertakan | Kemampuan inti | Beban kerja khas |
|---|---|---|---|
| Data Lake (kluster DataLake) |
Komputasi: Spark, Hive, Tez, Trino, Kyuubi, Presto Penyimpanan: Hadoop Distributed File System (HDFS), OSS-HDFS, Celeborn, JindoCache Integrasi data: Flume, Sqoop Format data lake: Hudi, Iceberg, Paimon Manajemen resource: YARN Koordinasi: ZooKeeper Keamanan: OpenLDAP, Ranger, DLF-Auth, Knox |
Penyimpanan terpadu, beberapa engine komputasi yang kompatibel, serta dukungan untuk format Hudi/Iceberg/Paimon | Ekstraksi, transformasi, dan pemuatan (ETL) offline—ETL gudang data, analisis ad hoc |
| Data Analytics (kluster OLAP) |
Online Analytical Processing (OLAP): StarRocks, ClickHouse, Doris Koordinasi: ZooKeeper |
Respons kueri subdetik, optimasi penyimpanan berorientasi kolom, dan kueri federasi | Analisis agregasi kompleks—analisis profil pengguna, identifikasi kelompok pengguna, Intelijen bisnis (BI) |
| Real-time Data Streaming (kluster Dataflow) |
Komputasi aliran: Flink Penyimpanan: HDFS, OSS-HDFS Format data lake: Paimon Manajemen resource: YARN Koordinasi: ZooKeeper Keamanan: OpenLDAP, Knox |
Pemrosesan batch dan stream terpadu, latensi rendah, serta jaminan konsistensi state | ETL real-time—ETL gudang streaming |
| Data Service (kluster DataServing) |
Komputasi: Phoenix Penyimpanan berorientasi kolom: HBase Penyimpanan: HDFS, OSS-HDFS, JindoCache Koordinasi: ZooKeeper Keamanan: OpenLDAP, Ranger, Knox |
Kueri titik tingkat milidetik, optimasi antarmuka SQL, serta pemisahan baca/tulis | Kueri high-concurrency—analisis perilaku, pemasaran presisi |
| Custom Cluster |
Komputasi: Spark, Hive, Tez, Trino, Kyuubi, Presto, Flink, Phoenix OLAP: StarRocks Penyimpanan berorientasi kolom: HBase Penyimpanan: HDFS, OSS-HDFS, Celeborn, JindoCache Integrasi data: Flume, Sqoop Format data lake: Hudi, Iceberg, Paimon Manajemen resource: YARN Koordinasi: ZooKeeper Keamanan: OpenLDAP, Ranger, DLF-Auth, Knox |
Penerapan layanan fleksibel serta beban kerja campuran (real-time, offline, dan analitik) | ETL offline, ETL real-time, analisis agregasi kompleks, dan kueri high-concurrency |
Versi layanan yang tersedia dalam suatu kluster bergantung pada versi EMR. Gunakan versi EMR terbaru untuk mengakses lebih banyak fitur, performa yang lebih baik, dan peningkatan keamanan. Untuk daftar lengkap versi yang tersedia, lihat Versi rilis.
Kapan menggunakan Custom Cluster
Custom Cluster memberikan Anda kendali penuh atas layanan yang akan diterapkan. Gunakan opsi ini ketika beban kerja Anda mencakup beberapa tipe kluster—misalnya, menjalankan Spark, Flink, dan HBase bersama dalam satu kluster.
Gunakan Custom Cluster jika:
-
Beban kerja Anda menggabungkan ETL offline, pemrosesan real-time, dan kueri analitik
-
Tidak ada tipe kluster yang telah ditentukan sebelumnya mencakup semua layanan yang Anda butuhkan
Gunakan kluster khusus terpisah jika:
-
Beban kerja offline dan real-time Anda memiliki persyaratan latensi atau sumber daya yang berbeda—menggabungkannya dalam satu kluster dapat menyebabkan interferensi
Jika Custom Cluster masih belum sepenuhnya memenuhi kebutuhan Anda, terapkan layanan tambahan secara manual setelah mengevaluasi kompatibilitas dan keamanannya.
Langkah selanjutnya
Setelah memilih tipe kluster, rencanakan konfigurasi kluster lainnya: