Topik ini menjelaskan cara memilih opsi ketersediaan tinggi, spesifikasi node, dan konfigurasi jaringan untuk klaster E-MapReduce (EMR) sesuai kebutuhan pemrosesan data besar Anda.
Pemilihan layanan ketersediaan tinggi
Aktifkan ketersediaan tinggi berdasarkan skenario bisnis Anda. Jika diaktifkan, klaster menggunakan mode multi-master node untuk menghilangkan risiko kegagalan single-node dan menjaga kelangsungan layanan melalui mekanisme failover terdistribusi.
Dimension | Single-master node cluster | Multi-master node cluster |
Scenarios |
|
|
Core features | Arsitektur single node, penerapan simple. Berisiko mengalami kegagalan single node. |
|
Failback | No automatic recovery: Memerlukan intervensi manual untuk pemecahan masalah dan restart. | Automatic failback: EMR secara otomatis mengganti master node yang gagal dan memulihkan lingkungan serta tindakan bootstrap yang sama seperti node aslinya. |
Cost | Lower cost: Hanya memerlukan 1 master node. | Higher cost: Memerlukan 3 master node, yang menerapkan pengambilan keputusan mayoritas melalui algoritma konsensus untuk memenuhi persyaratan konsistensi kuat komponen open-source (seperti ZooKeeper dan HDFS) dan mencegah split-brain. |
Pemilihan spesifikasi node
Ikuti langkah-langkah berikut untuk mengonfigurasi spesifikasi node:
Tentukan skenario bisnis: Pilih dari skenario data lake, analisis data, aliran data real-time, layanan data, atau klaster kustom.
Pilih arsitektur penyimpanan: Pilih penyimpanan dan komputasi tergabung (HDFS) atau terpisah (OSS-HDFS/OSS) sesuai skenario Anda.
Konfigurasikan spesifikasi node dan ukuran disk:
Konfigurasikan spesifikasi node: Pilih tipe instans ECS yang sesuai (tujuan umum, komputasi-teroptimalkan, optimasi memori, data besar, dan lainnya) untuk setiap jenis node (Master, Core, Task) berdasarkan arsitektur penyimpanan, skala klaster, dan karakteristik bisnis Anda.
Konfigurasikan ukuran disk: Hitung kapasitas penyimpanan berdasarkan volume data dan ekspektasi pertumbuhan Anda, lalu atur ukuran disk yang sesuai.
Skenario data lake
Penyimpanan dan komputasi tergabung (HDFS)
Node type | Recommended specification |
Master Mengelola klaster dan mengoordinasikan task. Layanan yang diterapkan: NameNode, ResourceManager, HiveServer, Hive Metastore, Spark History Server. |
|
Core Menyediakan resource komputasi dan penyimpanan. Layanan yang diterapkan: DataNode, NodeManager. | Pilih berdasarkan rasio CPU-memori dan kebutuhan penyimpanan:
|
Task Hanya menyediakan komputasi, tanpa penyimpanan data. Digunakan untuk melengkapi CPU dan memori node Core. Layanan yang diterapkan: NodeManager. | Untuk skenario peak-valley:
|
Penyimpanan dan komputasi terpisah (OSS-HDFS/OSS)
Node type | Recommended specification |
Master Mengelola klaster dan mengoordinasikan task. Layanan yang diterapkan: ResourceManager, HiveServer, Hive Metastore, Spark History Server. |
|
Core Fungsinya mirip dengan node Task, tanpa penyimpanan data. Layanan yang diterapkan: NodeManager. | Node Core tidak mendukung skalabilitas elastis. Gunakan hanya node Task dan lewati konfigurasi node Core. |
Task Hanya menyediakan komputasi. Layanan yang diterapkan: NodeManager. |
|
Skenario analisis data
Penyimpanan dan komputasi tergabung
Node type | Recommended specifications |
Master Mengelola klaster dan mengoordinasikan task. Layanan yang diterapkan: StarRocks FE, Doris FE, ZooKeeper. |
|
Core Menyediakan resource komputasi dan penyimpanan. Layanan yang diterapkan: StarRocks BE, Doris BE, ClickHouseKeeper, ClickHouseServer. | Pilih berdasarkan volume penyimpanan dan kebutuhan komputasi:
|
Task Hanya menyediakan komputasi. Layanan yang diterapkan: StarRocks CN. | Node Task hanya mendukung penerapan StarRocks Compute Node (CN). Lewati konfigurasi node Task jika Anda tidak menggunakan StarRocks.
|
Penyimpanan dan komputasi terpisah
Hanya StarRocks 3.x yang mendukung arsitektur penyimpanan dan komputasi terpisah.
Node type | Recommended specifications |
Master Mengelola klaster dan mengoordinasikan task. Layanan yang diterapkan: StarRocks FE, ZooKeeper. |
|
Task Hanya menyediakan komputasi. Layanan yang diterapkan: StarRocks CN. | Dalam arsitektur terpisah StarRocks, tidak ada node Core — hanya node Task.
|
Skenario aliran data real-time
Penyimpanan dan komputasi tergabung (HDFS)
Node type | Recommended specifications |
Master Mengelola klaster dan mengoordinasikan task. Layanan yang diterapkan: NameNode, ResourceManager, Flink History Server, ZooKeeper. |
|
Core Menyediakan resource komputasi dan penyimpanan. Layanan yang diterapkan: DataNode, NodeManager. | Pilih berdasarkan rasio CPU-memori yang dibutuhkan oleh task Flink:
|
Task Hanya menyediakan komputasi, tanpa penyimpanan data. Digunakan untuk melengkapi CPU dan memori node Core. Layanan yang diterapkan: NodeManager. | Untuk skenario peak-valley:
|
Penyimpanan dan komputasi terpisah (OSS-HDFS/OSS)
Node type | Recommended specifications |
Master Mengelola klaster dan mengoordinasikan task. Layanan yang diterapkan: ResourceManager, Flink History Server, ZooKeeper. |
|
Core Fungsinya mirip dengan node Task, tanpa penyimpanan data. Layanan yang diterapkan: NodeManager. | Node Core tidak mendukung skalabilitas elastis. Gunakan hanya node Task dan lewati konfigurasi node Core. |
Task Hanya menyediakan komputasi. Layanan yang diterapkan: NodeManager. |
|
Skenario layanan data
Penyimpanan dan komputasi tergabung (HDFS)
Node type | Recommended specifications |
Master Mengelola klaster dan mengoordinasikan task. Layanan yang diterapkan: NameNode, HMaster, ZooKeeper. |
|
Core Menyediakan resource komputasi dan penyimpanan. Layanan yang diterapkan: DataNode, HRegionServer. | Pilih berdasarkan volume permintaan dan penyimpanan:
|
Task Hanya menyediakan komputasi, tanpa penyimpanan data. Digunakan untuk melengkapi CPU dan memori node Core. Layanan yang diterapkan: HRegionServer. | Node Task biasanya tidak direkomendasikan untuk skenario layanan data. Karena data berada di node Core, penggunaan node Task mengurangi data locality dan dapat menurunkan performa. |
Penyimpanan dan komputasi terpisah (OSS-HDFS/OSS)
Node type | Recommended specifications |
Master Mengelola klaster dan mengoordinasikan task. Layanan yang diterapkan: NameNode, HMaster, ZooKeeper. |
|
Core Menyediakan resource komputasi dan penyimpanan. Layanan yang diterapkan: DataNode, HRegionServer. | Menyimpan HBase HLog di OSS-HDFS/OSS secara signifikan menurunkan performa penulisan. Simpan HBase HLog di HDFS sebagai gantinya.
|
Task Hanya menyediakan komputasi. Layanan yang diterapkan: HRegionServer. | Untuk skenario peak-valley:
|
Skenario klaster kustom
Jika workload Anda mencakup berbagai skenario seperti ETL offline, ETL real-time, agregasi kompleks, dan kueri konkurensi tinggi, pilih pendekatan penerapan berdasarkan skala:
Beberapa klaster khusus (direkomendasikan): Terapkan klaster terpisah untuk pemrosesan batch offline, pemrosesan aliran real-time, kueri analitis, dan akselerasi kueri. Pendekatan ini mencapai isolasi resource dan memastikan performa konsisten di berbagai jenis workload.
Satu klaster kustom: Hanya cocok untuk workload skala kecil tanpa konflik resource antar skenario. Pendekatan ini mengurangi kompleksitas penerapan dan meningkatkan pemanfaatan resource.
Penyimpanan dan komputasi tergabung (HDFS)
Node type | Recommended specifications |
Master Mengelola klaster dan mengoordinasikan task. |
|
Core Menyediakan resource komputasi dan penyimpanan. | Pilih berdasarkan rasio CPU-memori yang dibutuhkan oleh task klaster:
|
Task Hanya menyediakan komputasi, tanpa penyimpanan data. Digunakan untuk melengkapi CPU dan memori node Core. | Untuk skenario peak-valley:
|
Penyimpanan dan komputasi terpisah (OSS-HDFS/OSS)
Node type | Recommended specifications |
Master Mengelola klaster dan mengoordinasikan task. | Klaster kecil (≤ 8 node): Instans tujuan umum, 8 core, 32 GiB, dengan cloud disk. |
Core Fungsinya mirip dengan node Task, tanpa penyimpanan data. |
|
Task Hanya menyediakan komputasi. | Dengan hanya node Task:
|
Rekomendasi konfigurasi jaringan
Key dimension | Configuration recommendations |
VPC network configuration |
|
Security group configuration |
|
Network connectivity configuration |
|
Lampiran: Tipe instans ECS
Untuk detail lengkap mengenai family instans ECS yang tersedia — termasuk karakteristik, spesifikasi, dan kasus penggunaan — lihat Instance family. Gunakan ini sebagai referensi saat memilih spesifikasi instans node di Konsol EMR.
Instance type | Features |
General-purpose | vCPU:Memory = 1:4. Disingkat sebagai seri g. |
Compute-optimized | vCPU:Memory = 1:2, menyediakan lebih banyak resource komputasi per unit memori. Disingkat sebagai seri c. |
Memory-optimized | vCPU:Memory = 1:8, menyediakan lebih banyak resource memori per vCPU. Disingkat sebagai seri r. |
Local SSD | vCPU:Memory = 1:4. Menggunakan disk SSD lokal dengan IOPS acak dan throughput tinggi, tetapi berisiko kehilangan data. Tidak tersedia untuk node master. Disingkat sebagai seri i. |
Big data | vCPU:Memory = 1:4. Menggunakan disk SATA lokal dengan efektivitas biaya penyimpanan tinggi. Direkomendasikan untuk volume data skala TB. Disingkat sebagai seri d. |
Sharing | Instans CPU shared. Tidak stabil di bawah beban komputasi besar dan hanya cocok untuk pembelajaran tingkat pemula. Tidak direkomendasikan untuk penggunaan enterprise. Hanya tersedia untuk node task. |
<br />