Pemilihan Perangkat Keras dan Jaringan - E-MapReduce

Konfigurasi perangkat keras yang sesuai dan desain lingkungan jaringan merupakan faktor kunci untuk memastikan performa, efisiensi biaya, dan keandalan kluster saat membuat kluster Alibaba Cloud EMR. Topik ini menjelaskan cara memilih layanan ketersediaan tinggi, spesifikasi node, serta solusi konfigurasi jaringan berdasarkan kebutuhan pemrosesan data besar.

Pemilihan layanan ketersediaan tinggi

Anda dapat memilih apakah akan mengaktifkan fitur ketersediaan tinggi berdasarkan skenario bisnis dan kebutuhan aktual. Saat layanan ketersediaan tinggi diaktifkan, kluster menggunakan mode multi-node master untuk menghilangkan risiko kegagalan node tunggal dan memastikan kontinuitas layanan melalui mekanisme terdistribusi dan failover.

Dimensi	Kluster node master tunggal	Kluster multi-node master
Skenario	Lingkungan pengujian Kebutuhan ketersediaan rendah	Lingkungan produksi Kebutuhan ketersediaan tinggi
Fitur inti	Arsitektur node tunggal, penyebaran sederhana. Risiko kegagalan node tunggal.	Menghilangkan risiko kegagalan node tunggal: Arsitektur kluster multi-node memastikan kontinuitas layanan dengan beralih ke node master lain yang tersedia. Keandalan kluster tinggi: Mendukung konfigurasi ketersediaan tinggi untuk komponen inti, seperti HDFS NameNode dan YARN ResourceManager. Isolasi perangkat keras: Set penyebaran ECS mendistribusikan beberapa node master di perangkat keras fisik yang terpisah. Ini melindungi beberapa node master dari kegagalan bersamaan saat terjadi kegagalan perangkat keras dasar.
Failback	Tidak ada pemulihan otomatis: Memerlukan intervensi manual untuk pemecahan masalah dan restart.	Failback otomatis: Layanan EMR secara otomatis mengganti node master yang gagal. Ini mengonfigurasi lingkungan yang sama dan tindakan bootstrap seperti node aslinya.
Biaya	Biaya rendah: Hanya 1 node master yang perlu dikonfigurasi.	Biaya lebih tinggi: 3 node master memerlukan konfigurasi. Mereka menerapkan mekanisme pengambilan keputusan mayoritas melalui algoritma konsensus dalam sistem terdistribusi, memenuhi persyaratan konsistensi kuat komponen open-source (seperti ZooKeeper dan HDFS) dan menoleransi kegagalan node tunggal, serta menghindari split brain.

Pemilihan spesifikasi node

Proses konfigurasi kluster adalah sebagai berikut:

Tentukan skenario bisnis: Pilih skenario seperti danau data, analisis data, aliran data real-time, layanan data, atau kluster kustom berdasarkan kebutuhan.
Pilih arsitektur penyimpanan: Tentukan apakah akan memilih penyimpanan dan komputasi terkopel (HDFS) atau penyimpanan dan komputasi terpisah (OSS-HDFS/OSS) berdasarkan skenario.
Konfigurasikan spesifikasi node dan ukuran disk:
1. Konfigurasikan spesifikasi node: Pilih jenis instance ECS yang sesuai (seperti tujuan umum, komputasi-teroptimalkan, optimasi memori, data besar, dll.) untuk berbagai jenis node (seperti Master, Core, Task) berdasarkan arsitektur penyimpanan yang dipilih, skala kluster, karakteristik bisnis, dan faktor lainnya.
2. Konfigurasikan ukuran disk: Hitung kapasitas penyimpanan dan konfigurasikan ukuran disk yang sesuai berdasarkan volume data dan harapan pertumbuhan.

Skenario danau data

Penyimpanan dan komputasi terkopel (HDFS)

Jenis Node

Spesifikasi yang Direkomendasikan

Master

Mengelola kluster dan mengoordinasikan tugas.

Layanan yang diterapkan: NameNode, ResourceManager, HiveServer, HiveMetastore, SparkHistoryServer.

Biasa: Instance tujuan umum, pilih disk cloud.
Kluster kecil (≤ 8 instance): 8 core dan 32 GiB.
Kluster sedang hingga besar: ≥ 16 core dan 64 GiB.
Jumlah file HDFS massal (≥ 10 juta): Spesifikasi harus memenuhi persyaratan memori NameNode.

Core

Menyediakan daya komputasi dan sumber daya penyimpanan.

Layanan yang diterapkan: DataNode, NodeManager.

Spesifikasi instance node Core didasarkan pada kebutuhan sumber daya.

Pencocokan jenis bisnis: Pilih jenis instance berdasarkan persyaratan rasio CPU-memori tugas Yarn.
- Skenario default: Instance tujuan umum.
- Tugas intensif CPU (seperti pelatihan inferensi AI): Instance komputasi-teroptimalkan.
- Tugas intensif memori (seperti analisis laporan offline): Instance optimasi memori.
Persyaratan penyimpanan HDFS (> 10 TB/node): Keluarga instance data besar. Jenis instance ini menggunakan disk lokal untuk penyimpanan, mengurangi biaya penyimpanan, tetapi memerlukan pemeliharaan mandiri disk lokal.
Batas kapasitas memori: Spesifikasi memori node > memori puncak container tunggal tugas Yarn.

Task

Hanya menyediakan daya komputasi, tidak menyimpan data. Terutama digunakan untuk memenuhi kebutuhan CPU dan memori node Core.

Layanan yang diterapkan: NodeManager.

Rekomendasi untuk skenario puncak-lembah:

Konfigurasikan spesifikasi node Core tetap berdasarkan kebutuhan komputasi lembah rendah.
Spesifikasi node Task elastis ≥ spesifikasi node Core untuk menangani permintaan puncak.

Penyimpanan dan komputasi terpisah (OSS-HDFS/OSS)

Jenis Node	Spesifikasi yang Direkomendasikan
Master Mengelola kluster dan mengoordinasikan tugas. Layanan yang diterapkan: ResourceManager, HiveServer, HiveMetastore, SparkHistoryServer.	Biasa: Instance tujuan umum, pilih disk cloud. Kluster kecil (≤ 8 instance): 8 core dan 32 GiB. Kluster sedang hingga besar: ≥ 16 core dan 64 GiB.
Core Fungsi serupa dengan node Task, tidak menyimpan data. Layanan yang diterapkan: NodeManager.	Node Core tidak mendukung kemampuan penskalaan elastis. Kami merekomendasikan Anda hanya menggunakan node Task, tidak mengonfigurasi node Core.
Task Menyediakan daya komputasi. Layanan yang diterapkan: NodeManager.	Pencocokan jenis bisnis: Pilih jenis instance berdasarkan rasio CPU ke memori yang dibutuhkan oleh tugas Yarn. Skenario default: Instance tujuan umum. Tugas intensif CPU (seperti pelatihan inferensi AI): Instance komputasi-teroptimalkan. Tugas intensif memori (seperti analisis laporan offline): Instance optimasi memori. Batas kapasitas memori: Spesifikasi memori node > memori puncak Container tunggal tugas Yarn.

Skenario analisis data

Penyimpanan dan komputasi terkopel

Jenis Node

Spesifikasi yang Direkomendasikan

Master

Mengelola kluster dan mengoordinasikan tugas.

Layanan yang diterapkan: StarRocks FE, Doris FE, Zookeeper.

Skenario biasa: Instance tujuan umum, pilih disk cloud.
Kluster kecil (≤ 8 instance): 8 core dan 32 GiB.
Kluster sedang hingga besar: ≥ 16 core dan 64 GiB.

Core

Menyediakan daya komputasi dan sumber daya penyimpanan.

Layanan yang diterapkan: StarRocks BE, Doris BE, ClickhouseKeeper, ClickhouseServer.

Spesifikasi instance node Core terkait dengan kebutuhan komputasi bisnis dan volume penyimpanan data.

Volume penyimpanan ≤ 10 TB/node: Spesifikasi instance terkait dengan kebutuhan komputasi bisnis aktual.
- Default: Instance tujuan umum, pilih disk cloud.
- Tugas intensif CPU (melibatkan banyak operasi komputasi): Instance komputasi-teroptimalkan.
- Tugas intensif memori (memerlukan cache lebih besar untuk meningkatkan performa): Instance optimasi memori.
Volume penyimpanan > 10 TB/node: Keluarga instance data besar. Jenis instance ini menggunakan disk lokal untuk penyimpanan, mengurangi biaya penyimpanan, tetapi memerlukan pemeliharaan mandiri disk lokal.

Task

Menyediakan daya komputasi.

Layanan yang diterapkan: StarRocks CN.

Hanya StarRocks Compute Node yang mendukung penyebaran pada node Task. Jika Anda tidak menggunakan komponen StarRocks, Anda tidak perlu menggunakan node Task.

Rekomendasi untuk skenario puncak-lembah:

Konfigurasikan spesifikasi node Core tetap berdasarkan kebutuhan komputasi lembah rendah.
Spesifikasi node Task elastis ≥ spesifikasi node Core untuk menangani permintaan puncak.

Penyimpanan dan komputasi terpisah

Hanya versi StarRocks 3.x yang mendukung penyimpanan dan komputasi terpisah.

Jenis Node

Spesifikasi yang Direkomendasikan

Master

Mengelola kluster dan mengoordinasikan tugas.

Layanan yang diterapkan: StarRocks FE, Zookeeper.

Skenario biasa: Instance tujuan umum, pilih disk cloud.
Kluster kecil (≤ 8 instance): 8 core dan 32 GiB.
Kluster sedang hingga besar: ≥ 16 core dan 64 GiB.

Task

Menyediakan daya komputasi.

Layanan yang diterapkan: StarRocks CN.

Dalam arsitektur penyimpanan dan komputasi terpisah StarRocks, tidak ada node Core, hanya node Task.

Default: Instance tujuan umum, pilih disk cloud.
Tugas intensif CPU (melibatkan banyak operasi komputasi): Instance komputasi-teroptimalkan.
Tugas intensif memori (memerlukan cache lebih besar untuk meningkatkan performa): Instance optimasi memori.

Spesifikasi instance harus dievaluasi berdasarkan kebutuhan komputasi bisnis aktual, umumnya memilih ≥16 core 64 GiB. Jumlah node dapat diskalakan secara elastis sesuai dengan kebutuhan bisnis.

Skenario aliran data real-time

Penyimpanan dan komputasi terkopel (HDFS)

Jenis Node

Spesifikasi yang Direkomendasikan

Master

Mengelola kluster dan mengoordinasikan tugas.

Layanan yang diterapkan: NameNode, ResourceManager, FlinkHistoryServer, Zookeeper.

Biasa: Instance tujuan umum, pilih disk cloud.
Kluster kecil (≤ 8 instance): 8 core dan 32 GiB.
Kluster sedang hingga besar: ≥ 16 core dan 64 GiB.
Jumlah file HDFS massal (≥1 juta): Spesifikasi harus memenuhi persyaratan memori NameNode.

Core

Menyediakan daya komputasi dan sumber daya penyimpanan.

Layanan yang diterapkan: DataNode, NodeManager.

Spesifikasi instance node Core terkait dengan jenis bisnis dan kebutuhan sumber daya.

Pencocokan jenis bisnis: Pilih jenis instance berdasarkan rasio CPU ke memori yang dibutuhkan oleh tugas Flink.
- Default: Instance tujuan umum.
- Tugas intensif CPU: Instance komputasi-teroptimalkan.
- Tugas intensif memori: Instance optimasi memori.
Persyaratan penyimpanan HDFS (> 10 TB/node): Keluarga instance data besar. Jenis instance ini menggunakan disk lokal untuk penyimpanan, mengurangi biaya penyimpanan, tetapi memerlukan pemeliharaan mandiri disk lokal.
Batas kapasitas memori: Spesifikasi memori node > memori puncak JobManager atau TaskManager tunggal dalam tugas Flink.

Task

Hanya menyediakan daya komputasi, tidak menyimpan data, terutama digunakan untuk melengkapi kebutuhan CPU dan memori node Core.

Layanan yang diterapkan: NodeManager.

Rekomendasi untuk puncak-lembah:

Konfigurasikan spesifikasi node Core tetap berdasarkan kebutuhan komputasi lembah rendah.
Spesifikasi node Task elastis ≥ spesifikasi node Core untuk menangani permintaan puncak.

Penyimpanan dan komputasi terpisah (OSS-HDFS/OSS)

Jenis Node	Spesifikasi yang Direkomendasikan
Master Mengelola kluster dan mengoordinasikan tugas. Layanan yang diterapkan: ResourceManager, FlinkHistoryServer, Zookeeper.	Biasa: Instance tujuan umum, pilih disk cloud. Kluster kecil (≤ 8 instance): 8 core dan 32 GiB. Kluster sedang hingga besar: ≥ 16 core dan 64 GiB.
Core Fungsi serupa dengan node Task, tidak menyimpan data. Layanan yang diterapkan: NodeManager.	Node Core tidak mendukung kemampuan penskalaan elastis. Disarankan untuk hanya menggunakan node Task dan tidak mengonfigurasi node Core.
Task Menyediakan daya komputasi. Layanan yang diterapkan: NodeManager.	Pencocokan jenis bisnis: Pilih jenis instance berdasarkan rasio CPU ke memori yang dibutuhkan oleh tugas Flink. Default: Instance tujuan umum. Tugas intensif CPU: Instance komputasi-teroptimalkan. Tugas intensif memori: Instance optimasi memori. Batas kapasitas memori: Spesifikasi memori node > memori puncak JobManager atau TaskManager tunggal dalam tugas Flink.

Skenario layanan data

Penyimpanan dan komputasi terkopel (HDFS)

Jenis Node	Spesifikasi yang Direkomendasikan
Master Mengelola kluster dan mengoordinasikan tugas. Layanan yang diterapkan: NameNode, HMaster, Zookeeper.	Biasa: Instance tujuan umum, pilih disk cloud. Kluster kecil hingga sedang (≤ 16 instance): 8 core dan 32 GiB. Kluster besar: ≥ 16 core dan 64 GiB. Jumlah file HDFS massal (≥ 10 juta): Spesifikasi harus memenuhi persyaratan memori NameNode.
Core Menyediakan daya komputasi dan sumber daya penyimpanan. Layanan yang diterapkan: DataNode, HRegionServer.	Spesifikasi instance node Core terkait dengan volume permintaan bisnis dan volume penyimpanan. Volume permintaan bisnis: Instance tujuan umum, pilih disk cloud. Kluster kecil (≤ 8 instance): 8 core 32 GiB, jumlah node Core ≤ 8, QPS per node ≤ 10000. Kluster sedang hingga besar: ≥ 16 core 64 GiB, jumlah node Core ditentukan berdasarkan situasi aktual. Volume penyimpanan HDFS (> 10 TB/node): Keluarga instance data besar. Jenis instance ini menggunakan disk lokal untuk penyimpanan, mengurangi biaya penyimpanan, tetapi memerlukan pemeliharaan mandiri disk lokal.
Task Hanya menyediakan daya komputasi, tidak menyimpan data, terutama digunakan untuk melengkapi kebutuhan CPU dan memori node Core. Layanan yang diterapkan: HRegionServer.	Dalam layanan data, karena data disimpan pada node Core, node Task umumnya tidak direkomendasikan untuk memastikan lokasi data.

Penyimpanan dan komputasi terpisah (OSS-HDFS/OSS)

Jenis Node

Spesifikasi yang Direkomendasikan

Master

Mengelola kluster dan mengoordinasikan tugas.

Layanan yang diterapkan: NameNode, HMaster, Zookeeper.

Biasa: Instance tujuan umum, pilih disk cloud.
Kluster kecil hingga sedang (≤ 16 instance): 8 core dan 32 GiB.
Kluster besar: ≥ 16 core dan 64 GiB.

Core

Menyediakan daya komputasi dan sumber daya penyimpanan.

Layanan yang diterapkan: DataNode, HRegionServer.

Menggunakan OSS-HDFS/OSS untuk menyimpan HBase HLog memiliki dampak signifikan pada performa penulisan. Disarankan untuk menyimpan HBase HLog di HDFS.

Spesifikasi instance node Core terkait dengan volume permintaan bisnis. Instance tujuan umum direkomendasikan, dengan ruang disk ≥ 500 GiB.

Kluster kecil (≤ 8 instance): 8 core 32 GiB, jumlah node Core ≤ 8, QPS per node ≤ 10000.
Kluster sedang hingga besar: ≥ 16 core 64 GiB, jumlah node Core ditentukan berdasarkan situasi aktual.

Task

Menyediakan daya komputasi.

Layanan yang diterapkan: HRegionServer.

Rekomendasi untuk skenario puncak-lembah:

Mode node Core tetap + node Task elastis.
Spesifikasi node Task harus sesuai dengan spesifikasi node Core.

Skenario kluster kustom

Saat bisnis melibatkan beberapa skenario campuran seperti ETL offline, ETL real-time, analisis agregasi kompleks, dan layanan query konkurensi tinggi:

Pendekatan yang Direkomendasikan: Solusi kombinasi jenis kluster ganda. Dengan menerapkan kluster secara independen dengan karakteristik berbeda (seperti kluster pemrosesan batch offline, kluster pemrosesan aliran real-time, kluster analitik, dan kluster akselerasi query), Anda dapat mencapai isolasi sumber daya dan adaptasi skenario. Ini memastikan performa dan stabilitas berbagai tugas.
Jika skala bisnis Anda kecil dan tidak ada konflik sumber daya antar skenario, pilih kluster kustom: Kurangi kompleksitas penyebaran dan tingkatkan pemanfaatan sumber daya melalui konfigurasi fleksibel.

Penyimpanan dan komputasi terkopel (HDFS)

Jenis Node

Spesifikasi yang Direkomendasikan

Master

Bertanggung jawab mengelola kluster dan mengoordinasikan tugas.

Kluster kecil (≤ 8 instance): Instance tujuan umum 8 core 32 GiB, pilih disk cloud.
Jumlah file HDFS besar (≥1 juta): Spesifikasi harus memenuhi persyaratan memori NameNode.

Core

Menyediakan daya komputasi dan sumber daya penyimpanan.

Spesifikasi instance node Core terkait dengan jenis bisnis dan kebutuhan sumber daya.

Pencocokan jenis bisnis: Pilih jenis instance berdasarkan rasio CPU ke memori yang dibutuhkan oleh tugas kluster.
- Skenario default: Instance tujuan umum.
- Tugas intensif CPU: Instance komputasi-teroptimalkan.
- Tugas intensif memori: Instance optimasi memori.
Persyaratan penyimpanan (> 10 TB/node): Keluarga instance data besar. Jenis instance ini menggunakan disk lokal untuk penyimpanan, mengurangi biaya penyimpanan, tetapi memerlukan pemeliharaan mandiri disk lokal.
Batas kapasitas memori: Spesifikasi memori node > Max(memori puncak Container tunggal tugas Yarn, memori puncak JobManager atau TaskManager tunggal dalam tugas Flink).

Task

Hanya menyediakan daya komputasi, tidak menyimpan data, terutama digunakan untuk melengkapi kebutuhan CPU dan memori node Core.

Rekomendasi untuk skenario puncak-lembah:

Konfigurasikan spesifikasi node Core tetap berdasarkan kebutuhan komputasi lembah rendah.
Spesifikasi node Task elastis ≥ spesifikasi node Core untuk menangani permintaan puncak.

Penyimpanan dan komputasi terpisah (OSS-HDFS/OSS)

Jenis Node	Spesifikasi yang Direkomendasikan
Master Mengelola kluster dan mengoordinasikan tugas.	Kluster kecil (≤ 8 instance): Instance tujuan umum 8 core dan 32 GiB, pilih disk cloud.
Core Fungsi serupa dengan node Task, tidak menyimpan data.	Jika Anda tidak memerlukan penyimpanan data, kami merekomendasikan Anda untuk hanya menggunakan node Task elastis, tidak mengonfigurasi node Core. Saat Anda memerlukan layanan HBase: Untuk memastikan performa penulisan, kami merekomendasikan Anda untuk menyimpan HBase HLog di HDFS. Spesifikasi: Instance tujuan umum 16 core dan 64 GiB, ruang disk ≥ 500 GiB.
Task Menyediakan daya komputasi.	Saat hanya mengonfigurasi node Task: Pencocokan jenis bisnis: Pilih jenis instance berdasarkan rasio CPU ke memori yang dibutuhkan oleh tugas Flink. Default: Instance tujuan umum. Tugas intensif CPU: Instance komputasi-teroptimalkan. Tugas intensif memori: Instance optimasi memori. Batas kapasitas memori: Spesifikasi memori node > Max(memori puncak Container tunggal tugas Yarn, memori puncak JobManager atau TaskManager tunggal dalam tugas Flink). Saat baik node Core maupun node Task dikonfigurasi, skenario puncak-lembah perlu dipertimbangkan: Mode node Core tetap + node Task elastis. Spesifikasi node Task harus sesuai dengan spesifikasi node Core.

Rekomendasi konfigurasi jaringan

Dimensi utama	Rekomendasi konfigurasi
Konfigurasi jaringan VPC	Cadangkan sumber daya alamat IP yang cukup: Pilih VPC dan switch yang sesuai. Cadangkan ruang ekspansi saat merencanakan segmen jaringan. Konektivitas jaringan: Rencanakan jalur konektivitas jaringan dengan layanan cloud lainnya.
Konfigurasi grup keamanan	Prinsip hak istimewa minimal: Konfigurasikan aturan grup keamanan secara wajar. Hanya buka port yang diperlukan, atur aturan arah masuk untuk mengizinkan akses hanya dari alamat IP tepercaya atau segmen jaringan. Ini untuk mencegah serangan seperti crypto mining. Kontrol ketat port manajemen: Atur kontrol akses ketat untuk port manajemen seperti SSH untuk memastikan keamanan kluster.
Konfigurasi konektivitas jaringan	Tingkatkan performa jaringan: Pertimbangkan menggunakan instance dengan bandwidth internal besar untuk volume data besar. Kurangi lalu lintas lintas zona: Orkestrasi topologi jaringan antara kluster dan sumber data. Kontrol akses eksternal: Jika Anda memerlukan kemampuan akses eksternal, gunakan NAT Gateway atau IP elastis.

Lampiran: Jenis instance ECS

Lihat Keluarga instance untuk mengetahui karakteristik, spesifikasi, dan skenario yang sesuai dari keluarga instance ECS yang tersedia. Informasi ini dapat digunakan sebagai referensi untuk mengonfigurasi spesifikasi instance node di konsol EMR.

Jenis instance	Fitur
Tujuan umum	vCPU:Memori=1:4. Disingkat sebagai seri g.
Komputasi-teroptimalkan	vCPU:Memori=1:2, menyediakan lebih banyak sumber daya komputasi. Disingkat sebagai seri c.
Optimasi memori	vCPU:Memori=1:8, menyediakan lebih banyak sumber daya memori. Disingkat sebagai seri r.
SSD lokal	vCPU:Memori=1:4, menggunakan disk SSD lokal, memiliki kemampuan IOPS acak tinggi dan throughput tinggi, tetapi ada risiko kehilangan data. Jenis instance ini tidak tersedia untuk node master. Disingkat sebagai seri i.
Data besar	vCPU:Memori=1:4, menggunakan disk SATA lokal, memiliki efektivitas biaya penyimpanan tinggi, jenis instance yang direkomendasikan untuk skenario volume data besar (volume data level TB). Disingkat sebagai seri d.
Berbagi	Jenis instance dengan CPU bersama, tidak cukup stabil untuk beban komputasi besar, hanya cocok untuk pembelajaran tingkat pemula. Tidak direkomendasikan untuk pelanggan perusahaan. Jenis instance ini hanya tersedia untuk node task.