全部产品
Search
文档中心

E-MapReduce:Pilih skenario bisnis

更新时间:Jul 02, 2025

Alibaba Cloud E-MapReduce (EMR) menyediakan skenario bisnis berikut yang telah ditentukan sebelumnya untuk kluster: Data Lake, Data Analytics, Real-time Data Streaming, dan Data Service. Jika Anda ingin menerapkan layanan secara fleksibel dalam kluster EMR sesuai dengan kebutuhan bisnis Anda, Anda dapat membuat kluster kustom untuk membangun platform data besar yang sesuai dengan karakteristik bisnis Anda. Topik ini menjelaskan perbedaan antara skenario bisnis tersebut. Anda dapat memilih skenario bisnis berdasarkan kebutuhan Anda.

Pemilihan skenario bisnis

Skenario Bisnis (Tipe Kluster)

Layanan yang Didukung

Kemampuan Inti

Skenario

Data Lake (Kluster DataLake)

Komputasi: Spark, Hive, Tez, Trino, Kyuubi, dan Presto

Penyimpanan Data: Hadoop Distributed File System (HDFS), OSS-HDFS, Celeborn, dan JindoCache

Integrasi Data: Flume dan Sqoop

Format Data Lake: Hudi, Iceberg, dan Paimon

Manajemen Sumber Daya: YARN

Koordinasi Terdistribusi: ZooKeeper

Keamanan dan Izin: OpenLDAP, Ranger, DLF-Auth, dan Knox

  • Penyimpanan terpadu

  • Kompatibilitas dengan berbagai mesin komputasi

  • Dukungan untuk berbagai format data lake

Extract, transform, dan load (ETL) offline seperti ETL gudang data, serta kueri interaktif seperti analisis ad hoc

Data Analytics (Kluster OLAP)

Analisis Pemrosesan Analitik Online (OLAP): StarRocks, ClickHouse, Doris

Koordinasi Terdistribusi: ZooKeeper

  • Tanggapan kueri tingkat subdetik

  • Optimasi penyimpanan berorientasi kolom

  • Kueri federasi

Analisis agregasi kompleks, seperti analisis profil pengguna, identifikasi kelompok pengguna, dan business intelligence (BI)

Real-time Data Streaming (Kluster Dataflow)

Komputasi Aliran: Flink

Penyimpanan Data: HDFS dan OSS-HDFS

Format Data Lake: Paimon

Manajemen Sumber Daya: YARN

Koordinasi Terdistribusi: ZooKeeper

Keamanan dan Izin: OpenLDAP dan Knox

  • Pemrosesan batch dan aliran terpadu

  • Latensi rendah

  • Jaminan konsistensi status

ETL real-time, seperti ETL gudang aliran

Data Service (Kluster DataServing)

Komputasi: Phoenix

Penyimpanan Berorientasi Kolom: HBase

Penyimpanan Data: HDFS, OSS-HDFS, dan JindoCache

Koordinasi Terdistribusi: ZooKeeper

Keamanan dan Izin: OpenLDAP, Ranger, dan Knox

  • Kueri titik tingkat milidetik

  • Optimasi antarmuka SQL

  • Pemisahan baca/tulis

Kueri konkurensi tinggi, seperti analisis perilaku dan pemasaran presisi

Kluster Kustom

Komputasi: Spark, Hive, Tez, Trino, Kyuubi, Presto, Flink, dan Phoenix

Analisis OLAP: StarRocks

Penyimpanan Berorientasi Kolom: HBase

Penyimpanan Data: HDFS, OSS-HDFS, Celeborn, dan JindoCache

Integrasi Data: Flume dan Sqoop

Format Data Lake: Hudi, Iceberg, dan Paimon

Manajemen Sumber Daya: YARN

Koordinasi Terdistribusi: ZooKeeper

Keamanan dan Izin: OpenLDAP, Ranger, DLF-Auth, dan Knox

  • Penerapan layanan yang fleksibel, seperti Spark, Flink, dan HBase

  • Dukungan untuk beban kerja campuran, seperti beban kerja pemrosesan real-time, pemrosesan offline, dan analisis data

Catatan

Dalam skenario beban kerja campuran, bisnis offline dan real-time dapat saling memengaruhi. Dalam hal ini, kami menyarankan Anda membuat berbagai jenis kluster berdasarkan kebutuhan bisnis Anda.

ETL offline, ETL real-time, analisis agregasi kompleks, dan kueri konkurensi tinggi

Catatan
  • Versi layanan yang dapat diterapkan dalam kluster EMR bervariasi berdasarkan versi EMR. Untuk informasi lebih lanjut, lihat Versi Rilis. Kami menyarankan Anda menggunakan versi EMR terbaru untuk mengalami lebih banyak fitur, meningkatkan performa, dan memastikan keamanan.

  • Jika kluster kustom tidak sepenuhnya memenuhi kebutuhan bisnis Anda, Anda dapat menerapkan layanan yang diperlukan sendiri setelah mengevaluasi kompatibilitas dan keamanan layanan tersebut.

Perencanaan kluster selanjutnya

Setelah Anda memilih skenario bisnis untuk kluster Anda, Anda dapat melanjutkan untuk merencanakan arsitektur penyimpanan, layanan metadata, spesifikasi perangkat keras, dan spesifikasi jaringan. Untuk informasi lebih lanjut, lihat Pilih Wilayah dan Rencanakan Konfigurasi Penyimpanan, Pilih Layanan Metadata, dan Rencanakan Konfigurasi Perangkat Keras dan Jaringan.