Alibaba Cloud E-MapReduce (EMR) menyediakan skenario bisnis berikut yang telah ditentukan sebelumnya untuk kluster: Data Lake, Data Analytics, Real-time Data Streaming, dan Data Service. Jika Anda ingin menerapkan layanan secara fleksibel dalam kluster EMR sesuai dengan kebutuhan bisnis Anda, Anda dapat membuat kluster kustom untuk membangun platform data besar yang sesuai dengan karakteristik bisnis Anda. Topik ini menjelaskan perbedaan antara skenario bisnis tersebut. Anda dapat memilih skenario bisnis berdasarkan kebutuhan Anda.
Pemilihan skenario bisnis
Skenario Bisnis (Tipe Kluster) | Layanan yang Didukung | Kemampuan Inti | ||
Data Lake (Kluster DataLake) | Komputasi: Spark, Hive, Tez, Trino, Kyuubi, dan Presto Penyimpanan Data: Hadoop Distributed File System (HDFS), OSS-HDFS, Celeborn, dan JindoCache Integrasi Data: Flume dan Sqoop Format Data Lake: Hudi, Iceberg, dan Paimon Manajemen Sumber Daya: YARN Koordinasi Terdistribusi: ZooKeeper Keamanan dan Izin: OpenLDAP, Ranger, DLF-Auth, dan Knox |
| Extract, transform, dan load (ETL) offline seperti ETL gudang data, serta kueri interaktif seperti analisis ad hoc | |
Data Analytics (Kluster OLAP) | Analisis Pemrosesan Analitik Online (OLAP): StarRocks, ClickHouse, Doris Koordinasi Terdistribusi: ZooKeeper |
| Analisis agregasi kompleks, seperti analisis profil pengguna, identifikasi kelompok pengguna, dan business intelligence (BI) | |
Real-time Data Streaming (Kluster Dataflow) | Komputasi Aliran: Flink Penyimpanan Data: HDFS dan OSS-HDFS Format Data Lake: Paimon Manajemen Sumber Daya: YARN Koordinasi Terdistribusi: ZooKeeper Keamanan dan Izin: OpenLDAP dan Knox |
| ETL real-time, seperti ETL gudang aliran | |
Data Service (Kluster DataServing) | Komputasi: Phoenix Penyimpanan Berorientasi Kolom: HBase Penyimpanan Data: HDFS, OSS-HDFS, dan JindoCache Koordinasi Terdistribusi: ZooKeeper Keamanan dan Izin: OpenLDAP, Ranger, dan Knox |
| Kueri konkurensi tinggi, seperti analisis perilaku dan pemasaran presisi | |
Kluster Kustom | Komputasi: Spark, Hive, Tez, Trino, Kyuubi, Presto, Flink, dan Phoenix Analisis OLAP: StarRocks Penyimpanan Berorientasi Kolom: HBase Penyimpanan Data: HDFS, OSS-HDFS, Celeborn, dan JindoCache Integrasi Data: Flume dan Sqoop Format Data Lake: Hudi, Iceberg, dan Paimon Manajemen Sumber Daya: YARN Koordinasi Terdistribusi: ZooKeeper Keamanan dan Izin: OpenLDAP, Ranger, DLF-Auth, dan Knox |
Catatan Dalam skenario beban kerja campuran, bisnis offline dan real-time dapat saling memengaruhi. Dalam hal ini, kami menyarankan Anda membuat berbagai jenis kluster berdasarkan kebutuhan bisnis Anda. | ETL offline, ETL real-time, analisis agregasi kompleks, dan kueri konkurensi tinggi | |
Versi layanan yang dapat diterapkan dalam kluster EMR bervariasi berdasarkan versi EMR. Untuk informasi lebih lanjut, lihat Versi Rilis. Kami menyarankan Anda menggunakan versi EMR terbaru untuk mengalami lebih banyak fitur, meningkatkan performa, dan memastikan keamanan.
Jika kluster kustom tidak sepenuhnya memenuhi kebutuhan bisnis Anda, Anda dapat menerapkan layanan yang diperlukan sendiri setelah mengevaluasi kompatibilitas dan keamanan layanan tersebut.
Perencanaan kluster selanjutnya
Setelah Anda memilih skenario bisnis untuk kluster Anda, Anda dapat melanjutkan untuk merencanakan arsitektur penyimpanan, layanan metadata, spesifikasi perangkat keras, dan spesifikasi jaringan. Untuk informasi lebih lanjut, lihat Pilih Wilayah dan Rencanakan Konfigurasi Penyimpanan, Pilih Layanan Metadata, dan Rencanakan Konfigurasi Perangkat Keras dan Jaringan.