Evaluasi sumber daya untuk kluster Kafka - E-MapReduce

Topik ini menjelaskan cara mengevaluasi kebutuhan sumber daya perangkat keras untuk kluster E-MapReduce (EMR) yang mencakup layanan Kafka berdasarkan aturan sederhana dalam skenario bisnis umum. Dalam skenario nyata, Anda dapat menggunakan aturan ini untuk memperkirakan kebutuhan sumber daya dan menentukan spesifikasi akhir kluster berdasarkan hasil pengujian beban. Setelah kluster dibuat, Anda dapat menggunakan fitur peningkatan skala kluster untuk menyesuaikan konfigurasi sumber daya sesuai dengan penggunaan aktual.

Banyak faktor memengaruhi kebutuhan sumber daya perangkat keras untuk kluster Kafka. Faktor umum meliputi lalu lintas pesan puncak, ukuran rata-rata pesan, jumlah partisi, faktor replikasi, dan jumlah klien. Faktor non-Kafka mencakup skenario bisnis tempat kluster digunakan serta performa aplikasi bisnis. Oleh karena itu, saat mengevaluasi kebutuhan sumber daya perangkat keras kluster, Anda harus terlebih dahulu menilai skala bisnis aktual, kemudian menggunakan hasilnya sebagai parameter untuk mengevaluasi kebutuhan sumber daya. Alat seperti kafka-producer-perf-test dan kafka-consumer-perf-test dapat digunakan untuk mensimulasikan beban aktual dan lebih lanjut mengevaluasi kebutuhan sumber daya perangkat keras.

Grup node master (ZooKeeper)

Grup node master digunakan untuk menginstal layanan ZooKeeper. Selain itu, komponen ekosistem Kafka seperti Kafka Manager, Schema Registry, dan REST Proxy juga diinstal pada grup node master.

Dalam kebanyakan kasus, kami merekomendasikan konfigurasi berikut untuk grup node master:

Jumlah node: tiga.
Disk data: Pilih disk cloud dengan kapasitas penyimpanan 120 GiB.
Disk sistem: 80 GiB.
CPU: empat inti CPU.
Memori: 8 GiB.
Penting
Kami merekomendasikan memilih tipe instans dengan rasio CPU-memori sebesar 1:2.

Grup node inti (Kafka broker)

Persyaratan bisnis yang dievaluasi

Anda harus mengevaluasi persyaratan bisnis berdasarkan parameter berikut:

Faktor fan-out: jumlah kali data bisnis dikonsumsi oleh node hilir, tidak termasuk jumlah kali data dikonsumsi oleh replikasi dalam kluster Kafka.
Lalu lintas masuk puncak: lalu lintas puncak data bisnis. Satuan: MB/s.
Lalu lintas masuk rata-rata: lalu lintas rata-rata data bisnis. Satuan: MB/s.
Periode retensi data: jumlah hari data disimpan. Secara default, data disimpan selama tujuh hari.
Faktor replikasi partisi: jumlah replika untuk sebuah partisi. Secara default, setiap partisi memiliki tiga replika.

Catatan

Anda harus sepenuhnya mempertimbangkan lalu lintas puncak berdasarkan situasi bisnis aktual. Lalu lintas puncak biasanya satu tingkat lebih tinggi daripada lalu lintas rata-rata.

Saat mengevaluasi persyaratan bisnis berdasarkan parameter di atas, pastikan untuk menyediakan sumber daya cadangan yang memadai agar kluster tetap berfungsi meskipun dimuat secara ekstrem. Berdasarkan parameter tersebut, metrik berikut dapat dihitung:

Total lalu lintas tulis puncak kluster = Lalu lintas masuk puncak × Faktor replikasi partisi
Total lalu lintas baca puncak kluster = Lalu lintas masuk puncak × (Faktor fan-out + Faktor replikasi partisi - 1)
Total kapasitas penyimpanan: Lalu lintas masuk rata-rata × Periode retensi data × Faktor replikasi partisi

Spesifikasi node yang direkomendasikan

Dalam kebanyakan kasus, kami merekomendasikan konfigurasi berikut untuk grup node inti:

Jumlah node: Evaluasi jumlah node berdasarkan persyaratan bisnis Anda. Untuk informasi lebih lanjut, lihat bagian Jumlah broker dalam topik ini.
CPU: 16 inti CPU.
Memori: 64 GiB.
Penting
Kami merekomendasikan memilih tipe instans dengan rasio CPU-memori sebesar 1:4.
Disk sistem: 80 GiB.
Disk data: Pilih empat disk cloud dengan kapasitas penyimpanan yang dievaluasi berdasarkan persyaratan bisnis Anda.
Bandwidth kartu antarmuka jaringan (NIC): Hitung bandwidth NIC berdasarkan total I/O disk pada sebuah node.

Catatan

Kami merekomendasikan menggunakan disk cloud sebagai disk data untuk mencegah beban kerja O&M yang disebabkan oleh kegagalan disk. Ini memastikan ketersediaan layanan yang lebih tinggi dan mengurangi biaya tenaga kerja O&M.
Setelah memilih tipe disk data dan jumlah disk, Anda dapat menghitung total throughput I/O disk. Kami merekomendasikan memilih bandwidth NIC lebih tinggi atau sama dengan throughput I/O disk.

Jumlah broker

Dalam kondisi ideal, lalu lintas maksimum broker Kafka dapat mencapai throughput I/O maksimum disk atau bandwidth NIC maksimum pada sebuah node. Oleh karena itu, jumlah broker yang diperlukan dapat dihitung berdasarkan lalu lintas data puncak dan throughput I/O atau bandwidth NIC dari setiap node.

Hitung metrik kinerja disk dari sebuah node
```
Throughput disk sebuah node = Throughput sebuah disk × Jumlah disk data
```
Untuk informasi lebih lanjut tentang nilai kinerja I/O teoretis disk, lihat Performa Penyimpanan Blok. Sebagai contoh, throughput maksimum per PL1 Enterprise SSD (ESSD) adalah 350 MB/s. Kami merekomendasikan menghitung metrik terkait throughput disk untuk disk lokal berdasarkan setengah dari nilai teoretis. Sebagai contoh, throughput disk dari disk lokal dievaluasi sebesar 50 MB/s dalam kebanyakan kasus.
Hitung jumlah broker yang diperlukan
Jika Anda mengonfigurasi tiga replika untuk sebuah partisi, kami merekomendasikan memilih empat atau lebih broker. Jika satu broker sementara tidak tersedia, Anda masih dapat membuat partisi dengan tiga replika. Dalam kebanyakan kasus, kami merekomendasikan mempertahankan 50% sumber daya perangkat keras cadangan. Berdasarkan premis di atas, rumus berikut dapat digunakan untuk menghitung jumlah broker yang diperlukan:
```
Jumlah broker = Maks(4, (Total lalu lintas baca puncak kluster + Total lalu lintas tulis puncak kluster)/Throughput disk dari satu node/50%)
```
Selain itu, dengan mempertimbangkan batasan pada replika partisi, kami merekomendasikan mengonfigurasikan tidak lebih dari 2.000 replika partisi pada setiap broker. Broker dapat memiliki maksimum 4.000 replika partisi. Seluruh kluster dapat memiliki maksimum 200.000 replika partisi. Jika jumlah total replika partisi dalam kluster dievaluasi menjadi besar, kami merekomendasikan mengevaluasi jumlah broker berdasarkan jumlah total partisi. Dalam hal ini, rumus berikut dapat digunakan untuk menghitung jumlah broker yang diperlukan:
```
Jumlah broker = Maks(4, Jumlah total partisi yang dievaluasi × Faktor replikasi partisi/2.000)
```

Evaluasi ukuran disk setiap broker

Ukuran disk per broker = Total kapasitas penyimpanan data/Jumlah broker/Jumlah disk data per node/50%

(Opsional) Grup node tugas (Kafka Connect)

Grup node ini bersifat opsional. Setelah kluster dibuat, Anda dapat menyesuaikan ukuran kluster kapan saja berdasarkan penggunaan sumber daya.

Dalam kebanyakan kasus, kami merekomendasikan konfigurasi berikut untuk grup node tugas:

Jumlah node: Kami merekomendasikan memilih lebih dari dua node untuk memastikan ketersediaan tinggi kluster Kafka Connect.
Disk data: Pilih disk cloud dengan kapasitas penyimpanan lebih dari 80 GiB.
CPU: Kami merekomendasikan memilih lebih dari delapan inti CPU untuk setiap node dan meningkatkan kapasitas sesuai dengan utilisasi CPU konektor.
Memori: Pilih kapasitas memori berdasarkan tipe konektor dan penggunaan memori.
Penting
Kami merekomendasikan memilih tipe instans dengan rasio CPU-memori sebesar 1:2 atau 1:4.