Ikhtisar Komponen - E-MapReduce

E-MapReduce (EMR) menyediakan komponen sumber terbuka dan komponen yang dikembangkan sendiri di lapisan pengembangan data, mesin komputasi, layanan data, manajemen sumber daya, penyimpanan data, serta integrasi data. Anda dapat memilih dan mengonfigurasi komponen sesuai kebutuhan bisnis Anda.

Catatan

Jika komponen yang ingin digunakan tidak tersedia saat pembuatan kluster atau hanya tersedia untuk pengguna yang sudah ada, Anda dapat menginstal dan mengelola komponen secara manual sesuai kebutuhan bisnis Anda.

EMR mengintegrasikan layanan Alibaba Cloud dan komponen sumber terbuka, serta menyediakan komponen yang dikembangkan sendiri dan fitur manajemen kluster. Anda dapat melihat skenario penggunaan EMR dan komponen big data yang disediakan berdasarkan arsitektur EMR, seperti yang ditunjukkan pada gambar berikut.

Pengembangan Data

Layanan dan komponen di lapisan pengembangan data menyediakan alat visualisasi untuk mengelola kode, mengumpulkan data, membersihkan data, membangun model data, menganalisis data, serta menjadwalkan tugas. Hal ini membantu perusahaan meningkatkan efisiensi dalam mengelola dan memanfaatkan aset data.

Kami merekomendasikan penggunaan Alibaba Cloud DataWorks untuk pengembangan data di EMR. Tabel berikut menjelaskan layanan tersebut.

Nama Layanan	Deskripsi	Referensi
DataWorks	DataWorks menyediakan fitur integrasi data, pengembangan data, tata kelola data, manajemen kualitas data, operasi & pemeliharaan data, dan kontrol keamanan. Anda dapat menggunakan DataWorks dalam skenario yang memerlukan integrasi data yang kompleks dan tata kelola data.	Memulai dengan DataWorks di EMR Catatan penggunaan untuk pengembangan tugas EMR di DataWorks

Anda juga dapat menggunakan komponen sumber terbuka seperti Hue atau Superset di lapisan pengembangan data. Tabel berikut menjelaskan komponen sumber terbuka tersebut.

Tipe

Nama Komponen

Deskripsi

Referensi

Sumber terbuka

Hue

Hue hanya tersedia untuk pengguna yang sudah ada.

Hue menyediakan antarmuka web yang memungkinkan Anda berinteraksi dengan ekosistem Apache Hadoop.

Hue

Superset

Superset hanya tersedia untuk pengguna yang sudah ada.

Superset adalah platform visualisasi data yang menyediakan fitur untuk Anda memvisualisasikan data dan mengonfigurasi dasbor.

Superset

Mesin Komputasi

EMR mendukung berbagai mesin komputasi utama, termasuk pemrosesan batch, analisis interaktif, komputasi aliran, dan pembelajaran mesin. Anda dapat menggunakan mesin komputasi ini untuk mentransformasi struktur dan logika data guna memenuhi kebutuhan skenario big data yang berbeda.

Tipe	Nama Komponen	Deskripsi	Referensi
Sumber terbuka	Spark	Spark adalah mesin pemrosesan big data yang cepat dan serbaguna yang menyediakan kemampuan pemrosesan data dalam memori dan mendukung berbagai mode pemrosesan data, seperti pemrosesan batch, pemrosesan real-time, pembelajaran mesin, dan komputasi grafik.	Operasi dasar pada Spark shell dan RDD Gunakan Spark untuk mengakses OS FAQ dan pemecahan masalah
	Hive	Hive adalah alat gudang data berbasis Hadoop yang memungkinkan Anda menggunakan bahasa mirip SQL, seperti HiveQL, untuk menyimpan, menanyakan, dan menganalisis data skala besar di Hadoop.	Hubungkan ke Hive UDF FAQ dan pemecahan masalah
	StarRocks	StarRocks adalah mesin analitik data generasi berikutnya yang dibangun berdasarkan kerangka kerja Massively Parallel Processing (MPP). StarRocks cocok untuk berbagai skenario, seperti analisis OLAP, kueri konkurensi tinggi, dan analisis data real-time.	Ikhtisar StarRocks Buat kluster StarRocks FAQ
	Doris	Apache Doris adalah database analitik real-time berperforma tinggi yang dapat Anda gunakan dalam skenario seperti analisis laporan, kueri ad hoc, dan akselerasi kueri federasi lintas danau data.	Apache Doris Buat kluster Doris Memulai
	ClickHouse	ClickHouse adalah sistem manajemen basis data kolom berbasis open source (DBMS) yang digunakan untuk mengimplementasikan analisis OLAP yang efisien dan kueri cepat pada sejumlah besar data.	Gunakan ClickHouse Impor dan ekspor data antara OSS dan ClickHouse FAQ
	Trino	Trino, sebelumnya disebut PrestoSQL, adalah mesin kueri SQL terdistribusi sumber terbuka yang cocok untuk kueri analitik interaktif.	Ikhtisar Trino Gunakan CLI untuk terhubung ke Trino FAQ
	Flink	Flink adalah mesin eksekusi aliran yang digunakan untuk memproses aliran data real-time berskala besar.	Penggunaan dasar Gunakan Flink untuk menulis data Kafka ke Alibaba Cloud OSS dalam mode streaming FAQ
	Presto	Presto, sebelumnya disebut PrestoDB, adalah mesin kueri SQL terdistribusi yang fleksibel dan skalabel. Anda dapat menggunakan Presto untuk melakukan kueri analitik interaktif.	Ikhtisar Presto Gunakan CLI untuk terhubung ke Presto Gunakan JDBC untuk mengakses Presto
	Tez	Apache Tez adalah kerangka kerja pemrosesan big data terdistribusi yang mendukung grafik acyclic terarah (DAG). Anda dapat mengganti MapReduce dengan Tez untuk meningkatkan kinerja dan efisiensi kueri dan tugas batch.	Tez
	Phoenix	Phoenix adalah lapisan perantara SQL yang dibangun di atas HBase. Phoenix memungkinkan Anda mengeksekusi pernyataan SQL standar untuk menanyakan dan mengelola data HBase.	Phoenix
	Impala	Impala hanya tersedia untuk pengguna yang sudah ada. Impala menyediakan kueri SQL berperforma tinggi dan latensi rendah untuk data yang disimpan di Apache Hadoop.	Ikhtisar Impala Hubungkan ke Impala FAQ
	Kudu	Kudu hanya tersedia untuk pengguna yang sudah ada. Kudu adalah sistem penyimpanan data terdistribusi, skalabel, dan berorientasi kolom yang mendukung pembacaan dan penulisan data acak latensi rendah serta memberikan analitik yang efisien pada data.	Ikhtisar Kudu Integrasi Impala dengan Kudu FAQ
	Druid	Druid hanya tersedia untuk pengguna yang sudah ada. Druidadalah sistem analitik in-memory terdistribusi dan real-time yang memberikan kueri serta analisis cepat dan interaktif pada dataset berskala besar.	Druid

Layanan Data

Komponen di lapisan layanan data menyediakan berbagai fitur seperti enkripsi data, kontrol akses, kueri data, akses data, dan operasi API untuk meningkatkan keamanan data serta efisiensi operasi dan analisis data dalam lingkungan big data.

Tipe	Nama Komponen	Deskripsi	Referensi
Sumber terbuka	Ranger	Ranger adalah kerangka kerja manajemen keamanan terpusat yang terutama digunakan untuk manajemen izin dan audit dalam ekosistem Hadoop.	Ikhtisar Ranger Aktifkan Hive di Ranger dan konfigurasikan izin terkait FAQ
	Kerberos	Kerberos adalah protokol otentikasi identitas berbasis kriptografi kunci simetris. Kerberos menyediakan fitur otentikasi identitas untuk layanan lain dan mendukung Single Sign-On (SSO).	Ikhtisar Kerberos Operasi dasar pada Kerberos Kepercayaan timbal balik lintas realm
	OpenLDAP	OpenLDAP adalah implementasi open source dari Lightweight Directory Access Protocol (LDAP). OpenLDAP digunakan untuk mengelola dan menyimpan informasi tentang pengguna dan sumber daya serta mengotentikasi identitas.	OpenLDAP
	Kyuubi	Kyuubi adalah gateway terdistribusi dan multi-pengguna yang menyederhanakan analisis dan kueri data serta menyediakan layanan kueri, seperti kueri SQL, untuk mesin kueri danau data.	Ikhtisar Kyuubi Hubungkan ke Kyuubi Kelola mesin Kyuubi
	ZooKeeper	ZooKeeper adalah layanan koordinasi terdistribusi yang efisien. ZooKeeper menyediakan berbagai fitur untuk aplikasi terdistribusi, seperti konfigurasi terdistribusi, sinkronisasi, dan penamaan. ZooKeeper juga menyediakan solusi manajemen kluster yang konsisten, berperforma tinggi, dan andal.	Ikhtisar ZooKeeper Gunakan ZooKeeper FAQ
	Knox	Knox adalah gateway API REST yang menyederhanakan prosedur mengakses layanan secara aman dalam ekosistem Hadoop dan menyediakan otentikasi identitas terpusat dan kontrol akses.	Knox
	Livy	Livy adalah layanan yang berinteraksi dengan Spark menggunakan API RESTful atau pustaka klien remote procedure call (RPC).	Livy
	Kafka Manager	Kafka Manager hanya tersedia untuk pengguna yang sudah ada. Kafka Manager adalah alat manajemen kluster yang dirancang untuk Kafka. Kafka Manager menyediakan antarmuka web yang memungkinkan Anda mengelola dan memantau kluster Kafka.	Kafka Manager
Dikembangkan sendiri	DLF-Auth	DLF-Auth disediakan oleh Data Lake Formation (DLF). Anda dapat menggunakan DLF-Auth untuk mengimplementasikan manajemen izin granular pada database, tabel, kolom, dan fungsi. Dengan cara ini, Anda dapat mengimplementasikan manajemen izin terpusat pada danau data.	DLF-Auth

Manajemen Sumber Daya

Komponen di lapisan manajemen sumber daya menyediakan kemampuan penjadwalan dan manajemen sumber daya yang efisien. Anda dapat menggunakannya untuk mengimplementasikan penjadwalan tugas otomatis, alokasi sumber daya cerdas, serta penskalaan kluster elastis, sehingga meningkatkan efisiensi dan keandalan pemrosesan big data.

Tipe	Nama Komponen	Deskripsi	Referensi
Sumber terbuka	YARN	YARN adalah sistem manajemen sumber daya Hadoop. Anda dapat menggunakan YARN untuk menjadwalkan dan mengelola sumber daya kluster agar berbagai jenis tugas komputasi terdistribusi dapat berjalan secara efisien di kluster.	Konfigurasi sumber daya YARN Penjadwal YARN FAQ

Penyimpanan Data

Komponen di lapisan penyimpanan data mendukung penyimpanan terdistribusi untuk data terstruktur dan tidak terstruktur. Anda dapat memilih metode penyimpanan yang sesuai untuk memenuhi kebutuhan mesin komputasi tertentu.

Tipe	Nama Komponen	Deskripsi	Referensi
Dikembangkan sendiri	OSS-HDFS	OSS-HDFS adalah solusi penyimpanan objek yang kompatibel dengan API Hadoop Distributed File System (HDFS). OSS-HDFS memungkinkan tugas komputasi big data untuk langsung mengakses data yang disimpan di Alibaba Cloud Object Storage Service (OSS) berdasarkan protokol HDFS standar.	Ikhtisar OSS/OSS-HDFS Memulai Apa yang harus saya lakukan jika kesalahan AccessDenied terjadi saat saya mengakses OSS?
	JindoCache	JindoCache adalah solusi cache terdistribusi yang digunakan untuk mempercepat akses data skala besar. JindoCache menyimpan blok data di memori untuk meningkatkan kinerja pembacaan data dan mengurangi tekanan pada sistem penyimpanan bawah.	Ikhtisar JindoCache Gunakan fitur caching transparan JindoCache untuk mempercepat akses ke OSS-HDFS Gunakan fitur caching transparan JindoCache untuk mempercepat akses ke OSS
	ESS	Remote Shuffle Service (ESS) hanya tersedia untuk pengguna yang sudah ada. Saat pertama kali menggunakan EMR, kami merekomendasikan Anda menggunakan Celeborn. ESS digunakan untuk mengoptimalkan kinerja operasi shuffle baca dan tulis.	ESS
	JindoData	JindoData hanya tersedia untuk pengguna yang sudah ada. Saat pertama kali menggunakan EMR, kami merekomendasikan Anda menggunakan JindoCache. JindoData adalah suite percepatan penyimpanan yang dikembangkan sendiri untuk sistem danau data. JindoData menyediakan solusi end-to-end untuk sistem danau data Alibaba Cloud dan vendor lainnya di industri big data dan AI.	JindoData
	SmartData	SmartData hanya tersedia untuk pengguna yang sudah ada. Saat pertama kali menggunakan EMR, kami merekomendasikan Anda menggunakan OSS-HDFS. SmartData adalah komponen yang dikembangkan sendiri oleh EMR. SmartData mengoptimalkan penyimpanan, caching, dan komputasi untuk berbagai mesin komputasi di EMR secara terpusat dan memperluas beberapa fitur penyimpanan di mesin komputasi. SmartData digunakan dalam skenario akses data, tata kelola data, dan keamanan data.	Ikhtisar SmartData
Sumber terbuka	Paimon	Paimon adalah platform danau data yang memungkinkan Anda memproses data dalam mode streaming dan batch. Paimon mendukung penulisan data berkapasitas tinggi dan kueri data latensi rendah.	Ikhtisar Paimon Integrasi Paimon dengan Spark Integrasi Paimon dengan Flink
	Hudi	Hudi adalah kerangka kerja danau data yang memungkinkan Anda memperbarui dan menghapus data dalam sistem file yang kompatibel dengan Hadoop. Hudi juga memungkinkan Anda mengonsumsi data yang telah berubah.	Ikhtisar Hudi Integrasi Hudi dengan Spark SQL FAQ
	Iceberg	Iceberg adalah format tabel danau data terbuka yang memberikan pembacaan dan penulisan berperforma tinggi serta menyediakan fitur manajemen metadata.	Ikhtisar Iceberg Penggunaan dasar Gunakan Spark untuk menulis data ke tabel Iceberg dan membaca data dari tabel dalam mode batch
	Delta Lake	Delta Lake berfungsi sebagai lapisan penyimpanan data sumber terbuka yang mendukung transaksi atomicity, consistency, isolation, durability (ACID), pemrosesan metadata yangskalabel, dan pemrosesan streaming serta batch terpusat.	Ikhtisar Delta Lake Penggunaan dasar FAQ
	HDFS	HDFS adalah sistem file terdistribusi yang digunakan untuk menyimpan dataset besar. HDFS memiliki toleransi kesalahan tinggi dan throughput tinggi. HDFS dapat menyimpan data secara redundan di beberapa node dalam kluster.	Ikhtisar HDFS Perintah HDFS umum Penyetelan memori JVM
	HBase	HBase adalah database kolom terdistribusi, berbasis kolom, open-source yang dibangun berdasarkan sistem file Hadoop. HBase memberikan pembacaan dan penulisan acak latensi rendah dan mendukung penyimpanan andal untuk dataset besar.	Gunakan snapshot HBase Gunakan HBase Shell FAQ dan pemecahan masalah
	Celeborn	Celeborn adalah layanan yang memproses data perantara. Celeborn dapat meningkatkan stabilitas, fleksibilitas, dan kinerja mesin komputasi big data.	Celeborn
	HBase-HDFS	HBase-HDFS dibangun di atas HDFS dan digunakan untuk menyimpan file WAL HBase dalam skenario di mana penyimpanan dan komputasi dipisahkan.	HBASE-HDFS
	Alluxio	Alluxio hanya tersedia untuk pengguna yang sudah ada. Alluxio adalah teknologi orkestrasi data sumber terbuka berbasis cloud untuk analitik data dan AI. Alluxio mendukung akses data dari antarmuka terpadu dan penyimpanan lapisan bawah lintas lapisan.	Alluxio

Integrasi Data

Komponen di lapisan integrasi data menyediakan kemampuan untuk mentransmisikan data dalam batch, memproses pesan dalam mode streaming, serta mengumpulkan log terdistribusi. Hal ini membantu meningkatkan efisiensi transmisi data dan keandalan pengumpulan data.

Tipe	Nama Komponen	Deskripsi	Referensi
Sumber terbuka	Flume	Flume adalah sistem terdistribusi, andal, dan tersedia tinggi. Anda dapat menggunakan Flume untuk mengumpulkan, menggabungkan, dan memindahkan sejumlah besar data log dan menyimpan data tersebut secara terpusat.	Parameter umum untuk optimasi performa Sinkronkan log audit ke HDFS FAQ
	Sqoop	Sqoop adalah alat yang digunakan untuk mentransmisikan data secara efisien antara Hadoop dan database relasional. Anda dapat menggunakan Sqoop untuk mengimpor dan mengekspor sejumlah besar data.	Ikhtisar Sqoop FAQ tentang Sqoop
	Kafka	Kafka hanya tersedia untuk pengguna yang sudah ada. Kafka adalah platform streaming event terdistribusi sumber terbuka yang memiliki throughput tinggi, latensi rendah, dan persistensi. Kafka banyak digunakan untuk memproses aliran data real-time dan membangun pipeline data.	Masuk ke kluster Kafka menggunakan SASL Gunakan SSL untuk mengenkripsi data Kafka FAQ

Referensi

Untuk informasi tentang arsitektur EMR, lihat bagian Arsitektur dalam topik "Apa itu EMR di ECS".
Untuk informasi tentang layanan dan versi layanan yang didukung oleh kluster EMR dari versi berbeda, lihat Layanan yang didukung oleh kluster EMR dari versi berbeda.
Untuk informasi tentang skenario penggunaan dan layanan dari berbagai jenis kluster EMR, lihat bagian Skenario big data dalam topik "Pilih konfigurasi".