All Products
Search
Document Center

E-MapReduce:Pilih perangkat keras dan jaringan

Last Updated:Mar 26, 2026

Topik ini menjelaskan cara memilih opsi ketersediaan tinggi, spesifikasi node, dan konfigurasi jaringan untuk klaster E-MapReduce (EMR) sesuai kebutuhan pemrosesan data besar Anda.

Pemilihan layanan ketersediaan tinggi

Aktifkan ketersediaan tinggi berdasarkan skenario bisnis Anda. Jika diaktifkan, klaster menggunakan mode multi-master node untuk menghilangkan risiko kegagalan single-node dan menjaga kelangsungan layanan melalui mekanisme failover terdistribusi.

Dimension

Single-master node cluster

Multi-master node cluster

Scenarios

  • Lingkungan pengujian

  • Kebutuhan ketersediaan rendah

  • Lingkungan produksi

  • Kebutuhan ketersediaan tinggi

Core features

Arsitektur single node, penerapan simple. Berisiko mengalami kegagalan single node.

  • No single-node failure risk: Klaster beralih ke master node lain yang tersedia untuk menjaga kelangsungan layanan.

  • High reliability: Mendukung konfigurasi ketersediaan tinggi untuk komponen inti, termasuk HDFS NameNode dan YARN ResourceManager.

  • Hardware isolation: ECS deployment sets mendistribusikan master node di perangkat keras fisik terpisah, melindungi dari kegagalan perangkat keras simultan.

Failback

No automatic recovery: Memerlukan intervensi manual untuk pemecahan masalah dan restart.

Automatic failback: EMR secara otomatis mengganti master node yang gagal dan memulihkan lingkungan serta tindakan bootstrap yang sama seperti node aslinya.

Cost

Lower cost: Hanya memerlukan 1 master node.

Higher cost: Memerlukan 3 master node, yang menerapkan pengambilan keputusan mayoritas melalui algoritma konsensus untuk memenuhi persyaratan konsistensi kuat komponen open-source (seperti ZooKeeper dan HDFS) dan mencegah split-brain.

Pemilihan spesifikasi node

Ikuti langkah-langkah berikut untuk mengonfigurasi spesifikasi node:

  1. Tentukan skenario bisnis: Pilih dari skenario data lake, analisis data, aliran data real-time, layanan data, atau klaster kustom.

  2. Pilih arsitektur penyimpanan: Pilih penyimpanan dan komputasi tergabung (HDFS) atau terpisah (OSS-HDFS/OSS) sesuai skenario Anda.

  3. Konfigurasikan spesifikasi node dan ukuran disk:

    1. Konfigurasikan spesifikasi node: Pilih tipe instans ECS yang sesuai (tujuan umum, komputasi-teroptimalkan, optimasi memori, data besar, dan lainnya) untuk setiap jenis node (Master, Core, Task) berdasarkan arsitektur penyimpanan, skala klaster, dan karakteristik bisnis Anda.

    2. Konfigurasikan ukuran disk: Hitung kapasitas penyimpanan berdasarkan volume data dan ekspektasi pertumbuhan Anda, lalu atur ukuran disk yang sesuai.

Skenario data lake

Penyimpanan dan komputasi tergabung (HDFS)

Node type

Recommended specification

Master

Mengelola klaster dan mengoordinasikan task.
Layanan yang diterapkan: NameNode, ResourceManager, HiveServer, Hive Metastore, Spark History Server.

  • Tipe instans: Instans tujuan umum dengan cloud disk.

  • Klaster kecil (≤ 8 node): 8 core, 32 GiB.

  • Klaster menengah hingga besar: ≥ 16 core, 64 GiB.

  • Jumlah file HDFS sangat besar (≥ 10 juta): Sesuaikan ukuran untuk memenuhi kebutuhan memori NameNode.

Core

Menyediakan resource komputasi dan penyimpanan.
Layanan yang diterapkan: DataNode, NodeManager.

Pilih berdasarkan rasio CPU-memori dan kebutuhan penyimpanan:

  • Skenario default: Instans tujuan umum.

  • Task intensif CPU (seperti pelatihan inferensi AI): Instans komputasi-teroptimalkan.

  • Task intensif memori (seperti analisis laporan offline): Instans optimasi memori.

  • Penyimpanan HDFS > 10 TB per node: Family instans data besar (disk lokal). Perawatan mandiri disk lokal diperlukan.

  • Batasan memori: Memori node harus melebihi memori puncak satu container YARN.

Task

Hanya menyediakan komputasi, tanpa penyimpanan data. Digunakan untuk melengkapi CPU dan memori node Core.
Layanan yang diterapkan: NodeManager.

Untuk skenario peak-valley:

  • Ukur node Core sesuai kebutuhan komputasi baseline (low valley).

  • Atur spesifikasi node Task ≥ spesifikasi node Core untuk menangani permintaan puncak.

Penyimpanan dan komputasi terpisah (OSS-HDFS/OSS)

Node type

Recommended specification

Master

Mengelola klaster dan mengoordinasikan task.
Layanan yang diterapkan: ResourceManager, HiveServer, Hive Metastore, Spark History Server.

  • Tipe instans: Instans tujuan umum dengan cloud disk.

  • Klaster kecil (≤ 8 node): 8 core, 32 GiB.

  • Klaster menengah hingga besar: ≥ 16 core, 64 GiB.

Core

Fungsinya mirip dengan node Task, tanpa penyimpanan data.
Layanan yang diterapkan: NodeManager.

Node Core tidak mendukung skalabilitas elastis. Gunakan hanya node Task dan lewati konfigurasi node Core.

Task

Hanya menyediakan komputasi.
Layanan yang diterapkan: NodeManager.

  • Skenario default: Instans tujuan umum.

  • Task intensif CPU (seperti pelatihan inferensi AI): Instans komputasi-teroptimalkan.

  • Task intensif memori (seperti analisis laporan offline): Instans optimasi memori.

  • Batasan memori: Memori node harus melebihi memori puncak satu container YARN.

Skenario analisis data

Penyimpanan dan komputasi tergabung

Node type

Recommended specifications

Master

Mengelola klaster dan mengoordinasikan task.
Layanan yang diterapkan: StarRocks FE, Doris FE, ZooKeeper.

  • Tipe instans: Instans tujuan umum dengan cloud disk.

  • Klaster kecil (≤ 8 node): 8 core, 32 GiB.

  • Klaster menengah hingga besar: ≥ 16 core, 64 GiB.

Core

Menyediakan resource komputasi dan penyimpanan.
Layanan yang diterapkan: StarRocks BE, Doris BE, ClickHouseKeeper, ClickHouseServer.

Pilih berdasarkan volume penyimpanan dan kebutuhan komputasi:

  • Penyimpanan ≤ 10 TB per node:

    • Default: Instans tujuan umum dengan cloud disk.

    • Task intensif CPU (banyak operasi komputasi): Instans komputasi-teroptimalkan.

    • Task intensif memori (memerlukan cache besar): Instans optimasi memori.

  • Penyimpanan > 10 TB per node: Family instans data besar (disk lokal). Perawatan mandiri disk lokal diperlukan.

Task

Hanya menyediakan komputasi.
Layanan yang diterapkan: StarRocks CN.

Node Task hanya mendukung penerapan StarRocks Compute Node (CN). Lewati konfigurasi node Task jika Anda tidak menggunakan StarRocks.

  • Ukur node Core sesuai kebutuhan komputasi baseline.

  • Atur spesifikasi node Task ≥ spesifikasi node Core untuk menangani permintaan puncak.

Penyimpanan dan komputasi terpisah

Hanya StarRocks 3.x yang mendukung arsitektur penyimpanan dan komputasi terpisah.

Node type

Recommended specifications

Master

Mengelola klaster dan mengoordinasikan task.
Layanan yang diterapkan: StarRocks FE, ZooKeeper.

  • Tipe instans: Instans tujuan umum dengan cloud disk.

  • Klaster kecil (≤ 8 node): 8 core, 32 GiB.

  • Klaster menengah hingga besar: ≥ 16 core, 64 GiB.

Task

Hanya menyediakan komputasi.
Layanan yang diterapkan: StarRocks CN.

Dalam arsitektur terpisah StarRocks, tidak ada node Core — hanya node Task.

  • Default: Instans tujuan umum dengan cloud disk.

  • Task intensif CPU: Instans komputasi-teroptimalkan.

  • Task intensif memori: Instans optimasi memori.

Skenario aliran data real-time

Penyimpanan dan komputasi tergabung (HDFS)

Node type

Recommended specifications

Master

Mengelola klaster dan mengoordinasikan task.
Layanan yang diterapkan: NameNode, ResourceManager, Flink History Server, ZooKeeper.

  • Tipe instans: Instans tujuan umum dengan cloud disk.

  • Klaster kecil (≤ 8 node): 8 core, 32 GiB.

  • Klaster menengah hingga besar: ≥ 16 core, 64 GiB.

  • Jumlah file HDFS sangat besar (≥ 1 juta): Sesuaikan ukuran untuk memenuhi kebutuhan memori NameNode.

Core

Menyediakan resource komputasi dan penyimpanan.
Layanan yang diterapkan: DataNode, NodeManager.

Pilih berdasarkan rasio CPU-memori yang dibutuhkan oleh task Flink:

  • Default: Instans tujuan umum.

  • Task intensif CPU: Instans komputasi-teroptimalkan.

  • Task intensif memori: Instans optimasi memori.

  • Penyimpanan HDFS > 10 TB per node: Family instans data besar (disk lokal). Perawatan mandiri disk lokal diperlukan.

  • Batasan memori: Memori node harus melebihi memori puncak satu Flink JobManager atau TaskManager.

Task

Hanya menyediakan komputasi, tanpa penyimpanan data. Digunakan untuk melengkapi CPU dan memori node Core.
Layanan yang diterapkan: NodeManager.

Untuk skenario peak-valley:

  • Menentukan ukuran node inti untuk kebutuhan komputasi garis dasar.

  • Atur spesifikasi node Task ≥ spesifikasi node Core untuk menangani permintaan puncak.

Penyimpanan dan komputasi terpisah (OSS-HDFS/OSS)

Node type

Recommended specifications

Master

Mengelola klaster dan mengoordinasikan task.
Layanan yang diterapkan: ResourceManager, Flink History Server, ZooKeeper.

  • Tipe instans: Instans tujuan umum dengan cloud disk.

  • Klaster kecil (≤ 8 node): 8 core, 32 GiB.

  • Klaster menengah hingga besar: ≥ 16 core, 64 GiB.

Core

Fungsinya mirip dengan node Task, tanpa penyimpanan data.
Layanan yang diterapkan: NodeManager.

Node Core tidak mendukung skalabilitas elastis. Gunakan hanya node Task dan lewati konfigurasi node Core.

Task

Hanya menyediakan komputasi.
Layanan yang diterapkan: NodeManager.

  • Default: Instans tujuan umum.

  • Task intensif CPU: Instans komputasi-teroptimalkan.

  • Task intensif memori: Instans optimasi memori.

  • Batasan memori: Memori node harus melebihi memori puncak satu Flink JobManager atau TaskManager.

Skenario layanan data

Penyimpanan dan komputasi tergabung (HDFS)

Node type

Recommended specifications

Master

Mengelola klaster dan mengoordinasikan task.
Layanan yang diterapkan: NameNode, HMaster, ZooKeeper.

  • Tipe instans: Instans tujuan umum dengan cloud disk.

  • Klaster kecil hingga menengah (≤ 16 node): 8 core, 32 GiB.

  • Klaster besar: ≥ 16 core, 64 GiB.

  • Jumlah file HDFS sangat besar (≥ 10 juta): Sesuaikan ukuran untuk memenuhi kebutuhan memori NameNode.

Core

Menyediakan resource komputasi dan penyimpanan.
Layanan yang diterapkan: DataNode, HRegionServer.

Pilih berdasarkan volume permintaan dan penyimpanan:

  • Instans tujuan umum dengan cloud disk:

    • Klaster kecil (≤ 8 node): 8 core, 32 GiB; hingga 8 node Core; QPS ≤ 10.000 per node.

    • Klaster menengah hingga besar: ≥ 16 core, 64 GiB; jumlah node Core berdasarkan beban aktual.

  • Penyimpanan HDFS > 10 TB per node: Family instans data besar (disk lokal). Perawatan mandiri disk lokal diperlukan.

Task

Hanya menyediakan komputasi, tanpa penyimpanan data. Digunakan untuk melengkapi CPU dan memori node Core.
Layanan yang diterapkan: HRegionServer.

Node Task biasanya tidak direkomendasikan untuk skenario layanan data. Karena data berada di node Core, penggunaan node Task mengurangi data locality dan dapat menurunkan performa.

Penyimpanan dan komputasi terpisah (OSS-HDFS/OSS)

Node type

Recommended specifications

Master

Mengelola klaster dan mengoordinasikan task.
Layanan yang diterapkan: NameNode, HMaster, ZooKeeper.

  • Tipe instans: Instans tujuan umum dengan cloud disk.

  • Klaster kecil hingga menengah (≤ 16 node): 8 core, 32 GiB.

  • Klaster besar: ≥ 16 core, 64 GiB.

Core

Menyediakan resource komputasi dan penyimpanan.
Layanan yang diterapkan: DataNode, HRegionServer.

Menyimpan HBase HLog di OSS-HDFS/OSS secara signifikan menurunkan performa penulisan. Simpan HBase HLog di HDFS sebagai gantinya.

  • Klaster kecil (≤ 8 node): 8 core, 32 GiB; hingga 8 node Core; QPS ≤ 10.000 per node.

  • Klaster menengah hingga besar: ≥ 16 core, 64 GiB; jumlah node Core berdasarkan beban aktual.

Task

Hanya menyediakan komputasi.
Layanan yang diterapkan: HRegionServer.

Untuk skenario peak-valley:

  • Jalankan node Core tetap untuk beban kerja baseline dan skala node Task secara elastis untuk permintaan puncak.

  • Sesuaikan spesifikasi node Task dengan spesifikasi node Core.

Skenario klaster kustom

Jika workload Anda mencakup berbagai skenario seperti ETL offline, ETL real-time, agregasi kompleks, dan kueri konkurensi tinggi, pilih pendekatan penerapan berdasarkan skala:

  • Beberapa klaster khusus (direkomendasikan): Terapkan klaster terpisah untuk pemrosesan batch offline, pemrosesan aliran real-time, kueri analitis, dan akselerasi kueri. Pendekatan ini mencapai isolasi resource dan memastikan performa konsisten di berbagai jenis workload.

  • Satu klaster kustom: Hanya cocok untuk workload skala kecil tanpa konflik resource antar skenario. Pendekatan ini mengurangi kompleksitas penerapan dan meningkatkan pemanfaatan resource.

Penyimpanan dan komputasi tergabung (HDFS)

Node type

Recommended specifications

Master

Mengelola klaster dan mengoordinasikan task.

  • Klaster kecil (≤ 8 node): Instans tujuan umum, 8 core, 32 GiB, dengan cloud disk.

  • Jumlah file HDFS sangat besar (≥ 1 juta): Sesuaikan ukuran untuk memenuhi kebutuhan memori NameNode.

Core

Menyediakan resource komputasi dan penyimpanan.

Pilih berdasarkan rasio CPU-memori yang dibutuhkan oleh task klaster:

  • Default: Instans tujuan umum.

  • Task intensif CPU: Instans komputasi-teroptimalkan.

  • Task intensif memori: Instans optimasi memori.

  • Penyimpanan > 10 TB per node: Family instans data besar (disk lokal). Perawatan mandiri disk lokal diperlukan.

  • Batasan memori: Memori node harus melebihi nilai tertinggi antara memori puncak container YARN dan memori puncak Flink JobManager atau TaskManager.

Task

Hanya menyediakan komputasi, tanpa penyimpanan data. Digunakan untuk melengkapi CPU dan memori node Core.

Untuk skenario peak-valley:

  • Ukur node Core sesuai kebutuhan komputasi baseline.

  • Atur spesifikasi node Task ≥ spesifikasi node Core untuk menangani permintaan puncak.

Penyimpanan dan komputasi terpisah (OSS-HDFS/OSS)

Node type

Recommended specifications

Master

Mengelola klaster dan mengoordinasikan task.

Klaster kecil (≤ 8 node): Instans tujuan umum, 8 core, 32 GiB, dengan cloud disk.

Core

Fungsinya mirip dengan node Task, tanpa penyimpanan data.

  • Jika tidak diperlukan penyimpanan data: gunakan hanya node Task elastis dan lewati konfigurasi node Core.

  • Jika HBase diperlukan: simpan HBase HLog di HDFS untuk menjaga performa penulisan. Gunakan instans tujuan umum dengan 16 core, 64 GiB, dan disk space ≥ 500 GiB.

Task

Hanya menyediakan komputasi.

Dengan hanya node Task:

  • Default: Instans tujuan umum.

  • Task intensif CPU: Instans komputasi-teroptimalkan.

  • Task intensif memori: Instans optimasi memori.

  • Batasan memori: Memori node harus melebihi nilai tertinggi antara memori puncak container YARN dan memori puncak Flink JobManager atau TaskManager.

  • Jalankan node Core tetap untuk beban kerja baseline dan skala node Task secara elastis untuk permintaan puncak.

  • Sesuaikan spesifikasi node Task dengan spesifikasi node Core.

Rekomendasi konfigurasi jaringan

Key dimension

Configuration recommendations

VPC network configuration

  • Sediakan ruang alamat IP yang cukup: Pilih Virtual Private Cloud (VPC) dan vSwitch dengan ruang yang cukup untuk ekspansi klaster.

  • Rencanakan jalur konektivitas ke layanan cloud lain yang perlu diakses.

Security group configuration

  • Terapkan prinsip hak istimewa minimal: Buka hanya port yang dibutuhkan oleh workload Anda, dan batasi aturan inbound ke alamat IP atau blok CIDR tepercaya. Hal ini mengurangi risiko serangan seperti cryptomining.

  • Terapkan kontrol akses ketat pada port manajemen seperti SSH.

Network connectivity configuration

  • Untuk volume data besar, pilih tipe instans dengan bandwidth internal lebih tinggi.

  • Minimalkan traffic cross-zone dengan menempatkan klaster dan sumber data dalam zona yang sama jika memungkinkan.

  • Untuk akses eksternal, gunakan NAT gateway atau elastic IP address (EIP).

Lampiran: Tipe instans ECS

Untuk detail lengkap mengenai family instans ECS yang tersedia — termasuk karakteristik, spesifikasi, dan kasus penggunaan — lihat Instance family. Gunakan ini sebagai referensi saat memilih spesifikasi instans node di Konsol EMR.

Instance type

Features

General-purpose

vCPU:Memory = 1:4. Disingkat sebagai seri g.

Compute-optimized

vCPU:Memory = 1:2, menyediakan lebih banyak resource komputasi per unit memori. Disingkat sebagai seri c.

Memory-optimized

vCPU:Memory = 1:8, menyediakan lebih banyak resource memori per vCPU. Disingkat sebagai seri r.

Local SSD

vCPU:Memory = 1:4. Menggunakan disk SSD lokal dengan IOPS acak dan throughput tinggi, tetapi berisiko kehilangan data. Tidak tersedia untuk node master. Disingkat sebagai seri i.

Big data

vCPU:Memory = 1:4. Menggunakan disk SATA lokal dengan efektivitas biaya penyimpanan tinggi. Direkomendasikan untuk volume data skala TB. Disingkat sebagai seri d.

Sharing

Instans CPU shared. Tidak stabil di bawah beban komputasi besar dan hanya cocok untuk pembelajaran tingkat pemula. Tidak direkomendasikan untuk penggunaan enterprise. Hanya tersedia untuk node task.

<br />