全部产品
Search
文档中心

E-MapReduce:Ikhtisar Komponen

更新时间:Jul 06, 2025

E-MapReduce (EMR) menyediakan komponen sumber terbuka dan komponen yang dikembangkan sendiri di lapisan pengembangan data, mesin komputasi, layanan data, manajemen sumber daya, penyimpanan data, serta integrasi data. Anda dapat memilih dan mengonfigurasi komponen sesuai kebutuhan bisnis Anda.

Catatan

Jika komponen yang ingin digunakan tidak tersedia saat pembuatan kluster atau hanya tersedia untuk pengguna yang sudah ada, Anda dapat menginstal dan mengelola komponen secara manual sesuai kebutuhan bisnis Anda.

EMR mengintegrasikan layanan Alibaba Cloud dan komponen sumber terbuka, serta menyediakan komponen yang dikembangkan sendiri dan fitur manajemen kluster. Anda dapat melihat skenario penggunaan EMR dan komponen big data yang disediakan berdasarkan arsitektur EMR, seperti yang ditunjukkan pada gambar berikut.

Pengembangan Data

Layanan dan komponen di lapisan pengembangan data menyediakan alat visualisasi untuk mengelola kode, mengumpulkan data, membersihkan data, membangun model data, menganalisis data, serta menjadwalkan tugas. Hal ini membantu perusahaan meningkatkan efisiensi dalam mengelola dan memanfaatkan aset data.

Kami merekomendasikan penggunaan Alibaba Cloud DataWorks untuk pengembangan data di EMR. Tabel berikut menjelaskan layanan tersebut.

Nama Layanan

Deskripsi

Referensi

DataWorks

DataWorks menyediakan fitur integrasi data, pengembangan data, tata kelola data, manajemen kualitas data, operasi & pemeliharaan data, dan kontrol keamanan. Anda dapat menggunakan DataWorks dalam skenario yang memerlukan integrasi data yang kompleks dan tata kelola data.

Anda juga dapat menggunakan komponen sumber terbuka seperti Hue atau Superset di lapisan pengembangan data. Tabel berikut menjelaskan komponen sumber terbuka tersebut.

Tipe

Nama Komponen

Deskripsi

Referensi

Sumber terbuka

Hue

Hue hanya tersedia untuk pengguna yang sudah ada.

Hue menyediakan antarmuka web yang memungkinkan Anda berinteraksi dengan ekosistem Apache Hadoop.

Hue

Superset

Superset hanya tersedia untuk pengguna yang sudah ada.

Superset adalah platform visualisasi data yang menyediakan fitur untuk Anda memvisualisasikan data dan mengonfigurasi dasbor.

Superset

Mesin Komputasi

EMR mendukung berbagai mesin komputasi utama, termasuk pemrosesan batch, analisis interaktif, komputasi aliran, dan pembelajaran mesin. Anda dapat menggunakan mesin komputasi ini untuk mentransformasi struktur dan logika data guna memenuhi kebutuhan skenario big data yang berbeda.

Tipe

Nama Komponen

Deskripsi

Referensi

Sumber terbuka

Spark

Spark adalah mesin pemrosesan big data yang cepat dan serbaguna yang menyediakan kemampuan pemrosesan data dalam memori dan mendukung berbagai mode pemrosesan data, seperti pemrosesan batch, pemrosesan real-time, pembelajaran mesin, dan komputasi grafik.

Hive

Hive adalah alat gudang data berbasis Hadoop yang memungkinkan Anda menggunakan bahasa mirip SQL, seperti HiveQL, untuk menyimpan, menanyakan, dan menganalisis data skala besar di Hadoop.

StarRocks

StarRocks adalah mesin analitik data generasi berikutnya yang dibangun berdasarkan kerangka kerja Massively Parallel Processing (MPP). StarRocks cocok untuk berbagai skenario, seperti analisis OLAP, kueri konkurensi tinggi, dan analisis data real-time.

Doris

Apache Doris adalah database analitik real-time berperforma tinggi yang dapat Anda gunakan dalam skenario seperti analisis laporan, kueri ad hoc, dan akselerasi kueri federasi lintas danau data.

ClickHouse

ClickHouse adalah sistem manajemen basis data kolom berbasis open source (DBMS) yang digunakan untuk mengimplementasikan analisis OLAP yang efisien dan kueri cepat pada sejumlah besar data.

Trino

Trino, sebelumnya disebut PrestoSQL, adalah mesin kueri SQL terdistribusi sumber terbuka yang cocok untuk kueri analitik interaktif.

Flink

Flink adalah mesin eksekusi aliran yang digunakan untuk memproses aliran data real-time berskala besar.

Presto

Presto, sebelumnya disebut PrestoDB, adalah mesin kueri SQL terdistribusi yang fleksibel dan skalabel. Anda dapat menggunakan Presto untuk melakukan kueri analitik interaktif.

Tez

Apache Tez adalah kerangka kerja pemrosesan big data terdistribusi yang mendukung grafik acyclic terarah (DAG). Anda dapat mengganti MapReduce dengan Tez untuk meningkatkan kinerja dan efisiensi kueri dan tugas batch.

Tez

Phoenix

Phoenix adalah lapisan perantara SQL yang dibangun di atas HBase. Phoenix memungkinkan Anda mengeksekusi pernyataan SQL standar untuk menanyakan dan mengelola data HBase.

Phoenix

Impala

Impala hanya tersedia untuk pengguna yang sudah ada.

Impala menyediakan kueri SQL berperforma tinggi dan latensi rendah untuk data yang disimpan di Apache Hadoop.

Kudu

Kudu hanya tersedia untuk pengguna yang sudah ada.

Kudu adalah sistem penyimpanan data terdistribusi, skalabel, dan berorientasi kolom yang mendukung pembacaan dan penulisan data acak latensi rendah serta memberikan analitik yang efisien pada data.

Druid

Druid hanya tersedia untuk pengguna yang sudah ada.

Druidadalah sistem analitik in-memory terdistribusi dan real-time yang memberikan kueri serta analisis cepat dan interaktif pada dataset berskala besar.

Druid

Layanan Data

Komponen di lapisan layanan data menyediakan berbagai fitur seperti enkripsi data, kontrol akses, kueri data, akses data, dan operasi API untuk meningkatkan keamanan data serta efisiensi operasi dan analisis data dalam lingkungan big data.

Tipe

Nama Komponen

Deskripsi

Referensi

Sumber terbuka

Ranger

Ranger adalah kerangka kerja manajemen keamanan terpusat yang terutama digunakan untuk manajemen izin dan audit dalam ekosistem Hadoop.

Kerberos

Kerberos adalah protokol otentikasi identitas berbasis kriptografi kunci simetris. Kerberos menyediakan fitur otentikasi identitas untuk layanan lain dan mendukung Single Sign-On (SSO).

OpenLDAP

OpenLDAP adalah implementasi open source dari Lightweight Directory Access Protocol (LDAP). OpenLDAP digunakan untuk mengelola dan menyimpan informasi tentang pengguna dan sumber daya serta mengotentikasi identitas.

OpenLDAP

Kyuubi

Kyuubi adalah gateway terdistribusi dan multi-pengguna yang menyederhanakan analisis dan kueri data serta menyediakan layanan kueri, seperti kueri SQL, untuk mesin kueri danau data.

ZooKeeper

ZooKeeper adalah layanan koordinasi terdistribusi yang efisien. ZooKeeper menyediakan berbagai fitur untuk aplikasi terdistribusi, seperti konfigurasi terdistribusi, sinkronisasi, dan penamaan. ZooKeeper juga menyediakan solusi manajemen kluster yang konsisten, berperforma tinggi, dan andal.

Knox

Knox adalah gateway API REST yang menyederhanakan prosedur mengakses layanan secara aman dalam ekosistem Hadoop dan menyediakan otentikasi identitas terpusat dan kontrol akses.

Knox

Livy

Livy adalah layanan yang berinteraksi dengan Spark menggunakan API RESTful atau pustaka klien remote procedure call (RPC).

Livy

Kafka Manager

Kafka Manager hanya tersedia untuk pengguna yang sudah ada.

Kafka Manager adalah alat manajemen kluster yang dirancang untuk Kafka. Kafka Manager menyediakan antarmuka web yang memungkinkan Anda mengelola dan memantau kluster Kafka.

Kafka Manager

Dikembangkan sendiri

DLF-Auth

DLF-Auth disediakan oleh Data Lake Formation (DLF). Anda dapat menggunakan DLF-Auth untuk mengimplementasikan manajemen izin granular pada database, tabel, kolom, dan fungsi. Dengan cara ini, Anda dapat mengimplementasikan manajemen izin terpusat pada danau data.

DLF-Auth

Manajemen Sumber Daya

Komponen di lapisan manajemen sumber daya menyediakan kemampuan penjadwalan dan manajemen sumber daya yang efisien. Anda dapat menggunakannya untuk mengimplementasikan penjadwalan tugas otomatis, alokasi sumber daya cerdas, serta penskalaan kluster elastis, sehingga meningkatkan efisiensi dan keandalan pemrosesan big data.

Tipe

Nama Komponen

Deskripsi

Referensi

Sumber terbuka

YARN

YARN adalah sistem manajemen sumber daya Hadoop. Anda dapat menggunakan YARN untuk menjadwalkan dan mengelola sumber daya kluster agar berbagai jenis tugas komputasi terdistribusi dapat berjalan secara efisien di kluster.

Penyimpanan Data

Komponen di lapisan penyimpanan data mendukung penyimpanan terdistribusi untuk data terstruktur dan tidak terstruktur. Anda dapat memilih metode penyimpanan yang sesuai untuk memenuhi kebutuhan mesin komputasi tertentu.

Tipe

Nama Komponen

Deskripsi

Referensi

Dikembangkan sendiri

OSS-HDFS

OSS-HDFS adalah solusi penyimpanan objek yang kompatibel dengan API Hadoop Distributed File System (HDFS). OSS-HDFS memungkinkan tugas komputasi big data untuk langsung mengakses data yang disimpan di Alibaba Cloud Object Storage Service (OSS) berdasarkan protokol HDFS standar.

JindoCache

JindoCache adalah solusi cache terdistribusi yang digunakan untuk mempercepat akses data skala besar. JindoCache menyimpan blok data di memori untuk meningkatkan kinerja pembacaan data dan mengurangi tekanan pada sistem penyimpanan bawah.

ESS

Remote Shuffle Service (ESS) hanya tersedia untuk pengguna yang sudah ada. Saat pertama kali menggunakan EMR, kami merekomendasikan Anda menggunakan Celeborn.

ESS digunakan untuk mengoptimalkan kinerja operasi shuffle baca dan tulis.

ESS

JindoData

JindoData hanya tersedia untuk pengguna yang sudah ada. Saat pertama kali menggunakan EMR, kami merekomendasikan Anda menggunakan JindoCache.

JindoData adalah suite percepatan penyimpanan yang dikembangkan sendiri untuk sistem danau data. JindoData menyediakan solusi end-to-end untuk sistem danau data Alibaba Cloud dan vendor lainnya di industri big data dan AI.

JindoData

SmartData

SmartData hanya tersedia untuk pengguna yang sudah ada. Saat pertama kali menggunakan EMR, kami merekomendasikan Anda menggunakan OSS-HDFS.

SmartData adalah komponen yang dikembangkan sendiri oleh EMR. SmartData mengoptimalkan penyimpanan, caching, dan komputasi untuk berbagai mesin komputasi di EMR secara terpusat dan memperluas beberapa fitur penyimpanan di mesin komputasi. SmartData digunakan dalam skenario akses data, tata kelola data, dan keamanan data.

Ikhtisar SmartData

Sumber terbuka

Paimon

Paimon adalah platform danau data yang memungkinkan Anda memproses data dalam mode streaming dan batch. Paimon mendukung penulisan data berkapasitas tinggi dan kueri data latensi rendah.

Hudi

Hudi adalah kerangka kerja danau data yang memungkinkan Anda memperbarui dan menghapus data dalam sistem file yang kompatibel dengan Hadoop. Hudi juga memungkinkan Anda mengonsumsi data yang telah berubah.

Iceberg

Iceberg adalah format tabel danau data terbuka yang memberikan pembacaan dan penulisan berperforma tinggi serta menyediakan fitur manajemen metadata.

Delta Lake

Delta Lake berfungsi sebagai lapisan penyimpanan data sumber terbuka yang mendukung transaksi atomicity, consistency, isolation, durability (ACID), pemrosesan metadata yangskalabel, dan pemrosesan streaming serta batch terpusat.

HDFS

HDFS adalah sistem file terdistribusi yang digunakan untuk menyimpan dataset besar. HDFS memiliki toleransi kesalahan tinggi dan throughput tinggi. HDFS dapat menyimpan data secara redundan di beberapa node dalam kluster.

HBase

HBase adalah database kolom terdistribusi, berbasis kolom, open-source yang dibangun berdasarkan sistem file Hadoop. HBase memberikan pembacaan dan penulisan acak latensi rendah dan mendukung penyimpanan andal untuk dataset besar.

Celeborn

Celeborn adalah layanan yang memproses data perantara. Celeborn dapat meningkatkan stabilitas, fleksibilitas, dan kinerja mesin komputasi big data.

Celeborn

HBase-HDFS

HBase-HDFS dibangun di atas HDFS dan digunakan untuk menyimpan file WAL HBase dalam skenario di mana penyimpanan dan komputasi dipisahkan.

HBASE-HDFS

Alluxio

Alluxio hanya tersedia untuk pengguna yang sudah ada.

Alluxio adalah teknologi orkestrasi data sumber terbuka berbasis cloud untuk analitik data dan AI. Alluxio mendukung akses data dari antarmuka terpadu dan penyimpanan lapisan bawah lintas lapisan.

Alluxio

Integrasi Data

Komponen di lapisan integrasi data menyediakan kemampuan untuk mentransmisikan data dalam batch, memproses pesan dalam mode streaming, serta mengumpulkan log terdistribusi. Hal ini membantu meningkatkan efisiensi transmisi data dan keandalan pengumpulan data.

Tipe

Nama Komponen

Deskripsi

Referensi

Sumber terbuka

Flume

Flume adalah sistem terdistribusi, andal, dan tersedia tinggi. Anda dapat menggunakan Flume untuk mengumpulkan, menggabungkan, dan memindahkan sejumlah besar data log dan menyimpan data tersebut secara terpusat.

Sqoop

Sqoop adalah alat yang digunakan untuk mentransmisikan data secara efisien antara Hadoop dan database relasional. Anda dapat menggunakan Sqoop untuk mengimpor dan mengekspor sejumlah besar data.

Kafka

Kafka hanya tersedia untuk pengguna yang sudah ada.

Kafka adalah platform streaming event terdistribusi sumber terbuka yang memiliki throughput tinggi, latensi rendah, dan persistensi. Kafka banyak digunakan untuk memproses aliran data real-time dan membangun pipeline data.

Referensi