Topik ini menjelaskan cara membuat dan mengonfigurasi cluster Kafka Dataflow, yaitu cluster Dataflow yang menggunakan layanan Kafka.
Batasan
Kafka tidak lagi didukung di E-MapReduce (EMR) V5.18.0, EMR V3.52.0, serta versi minor sebelum EMR V5.18.0 atau V3.52.0. Disarankan untuk menggunakan ApsaraMQ for Kafka atau menginstal Kafka secara manual.
Perhatian
Saat membuat cluster Kafka Dataflow, pilih jenis Instance Elastic Compute Service (ECS) yang sesuai dan tentukan jumlah broker berdasarkan beban bisnis yang diperkirakan. Tidak ada rencana kluster umum karena skenario bisnis bervariasi. Anda harus membuat kluster sesuai dengan lingkungan aktual Anda. Dalam kebanyakan kasus, pertimbangkan hal-hal berikut saat memilih tipe instance:
Sebarkan broker Kafka pada instance ECS dengan rasio CPU-memori 1:4.
Gunakan disk cloud untuk menyimpan data.
Pertimbangkan hubungan antara throughput I/O disk cloud dan bandwidth Network Interface Controller (NIC).
Pertimbangkan faktor-faktor berikut saat mengonfigurasi parameter penyebaran:
Versi Kafka dalam EMR bergantung pada layanan ZooKeeper. Ketersediaan ZooKeeper menentukan apakah layanan Kafka memiliki ketersediaan tinggi. Aktifkan High Service Availability saat membuat kluster agar tiga node diterapkan untuk layanan ZooKeeper.
Jika grup node master hanya digunakan untuk menerapkan ZooKeeper, cukup konfigurasikan satu disk data untuk grup node master.
Untuk informasi lebih lanjut tentang saran berbasis evaluasi, lihat Saran untuk mengevaluasi sumber daya kluster.
Prosedur
Buka halaman pembuatan kluster.
Masuk ke Konsol EMR. Di panel navigasi kiri, klik EMR on ECS.
Opsional. Di bilah navigasi atas, pilih wilayah dan grup sumber daya sesuai kebutuhan bisnis Anda.
Wilayah kluster tidak dapat diubah setelah kluster dibuat.
Secara default, semua grup sumber daya di akun Anda akan ditampilkan.
Di halaman EMR on ECS, klik Create Cluster.
Konfigurasikan kluster.
Untuk membuat kluster, konfigurasikan parameter perangkat lunak, perangkat keras, dan dasar sesuai panduan wizard.
PentingSetelah kluster dibuat, parameter tidak dapat diubah kecuali nama kluster. Pastikan semua parameter dikonfigurasi dengan benar saat membuat kluster. Untuk informasi lebih lanjut, lihat Buat kluster.
Konfigurasikan parameter perangkat lunak.
Parameter
Contoh
Deskripsi
Region
Tiongkok (Hangzhou)
Wilayah tempat Anda ingin membuat kluster. Anda tidak dapat mengubah wilayah kluster setelah kluster dibuat.
Business Scenario
Streaming Data Real-time
Skema tempat Anda ingin menggunakan kluster. Pilih Real-time Data Streaming.
Product Version
EMR-3.43.1
Versi EMR. Setelah Anda memilih versi EMR, Anda dapat melihat versi setiap layanan.
Sebagai contoh, dalam kluster EMR V3.43.1, versi Kafka adalah 2.12_2.4.1. Nilai 2.12 menunjukkan versi Scala, dan nilai 2.4.1 menunjukkan versi Kafka open source.
High Service Availability
Aktif
Secara default, saklar dimatikan.
PentingJika Anda mengaktifkan High Service Availability saat membuat kluster, tiga node akan diterapkan di grup node master untuk layanan ZooKeeper. Versi Kafka yang digunakan dalam EMR bergantung pada layanan ZooKeeper. Oleh karena itu, saat Anda membuat kluster, kami menyarankan Anda mengaktifkan High Service Availability.
Optional Services (Select One At Least)
Kafka
Layanan yang ingin Anda terapkan di kluster. Pilih Kafka.
Anda dapat memilih layanan lain berdasarkan kebutuhan bisnis Anda. Secara default, komponen terkait dari layanan yang Anda pilih akan diaktifkan.
Collect Service Operational Logs
Aktif
Menentukan apakah akan mengaktifkan pengumpulan log untuk semua layanan. Secara default, saklar ini diaktifkan untuk mengumpulkan log operasional layanan kluster Anda. Log tersebut hanya digunakan untuk diagnosis kluster.
Setelah membuat kluster, Anda dapat memodifikasi parameter Collection Status of Service Operational Logs di tab Basic Information.
PentingJika Anda mematikan saklar ini, pemeriksaan kesehatan kluster EMR dan dukungan teknis terkait layanan akan dibatasi. Untuk informasi lebih lanjut tentang cara menonaktifkan pengumpulan log dan dampak yang ditimbulkan oleh penonaktifan pengumpulan log, lihat Bagaimana cara menghentikan pengumpulan log operasional layanan?
Konfigurasikan parameter perangkat keras.
Parameter
Contoh
Deskripsi
Billing Method
Bayar sesuai pemakaian
Metode penagihan kluster. Secara default, Langganan dipilih. EMR mendukung metode penagihan berikut:
Pay-as-you-go: metode penagihan yang memungkinkan Anda membayar instance setelah Anda menggunakan instance. Sistem menagih Anda untuk kluster berdasarkan jumlah jam penggunaan kluster sebenarnya. Tagihan dihasilkan setiap jam pada awal setiap jam. Kami menyarankan Anda menggunakan kluster bayar sesuai pemakaian untuk pekerjaan uji jangka pendek atau pekerjaan yang dijadwalkan secara dinamis.
Subscription: metode penagihan yang memungkinkan Anda menggunakan instance hanya setelah Anda membayar instance.
CatatanKami menyarankan Anda membuat kluster pay-as-you-go untuk uji coba. Jika kluster lulus uji, Anda dapat membuat kluster subscription untuk produksi.
Zone
Zona I
Zona tempat Anda ingin membuat kluster. Zona di wilayah adalah area fisik dengan pasokan daya dan fasilitas jaringan independen. Kluster di zona dalam wilayah yang sama dapat berkomunikasi satu sama lain melalui jaringan internal. Dalam kebanyakan kasus, Anda dapat menggunakan zona yang dipilih secara default.
VPC
emr_test/vpc-bp1f4epmkvncimpgs****
VPC tempat Anda ingin menerapkan kluster. VPC yang ada dipilih secara default.
Jika Anda ingin menggunakan VPC baru, pergi ke konsol VPC untuk membuatnya. Untuk informasi lebih lanjut, lihat Buat dan kelola VPC.
vSwitch
vsw_test/vsw-bp1e2f5fhaplp0g6p****
vSwitch kluster. Pilih vSwitch di zona tertentu berdasarkan kebutuhan bisnis Anda. Jika tidak ada vSwitch yang tersedia di zona, pergi ke konsol VPC untuk membuatnya. Untuk informasi lebih lanjut, lihat Buat dan kelola vSwitches.
Default Security Group
sg-bp1ddw7sm2risw****/sg-bp1ddw7sm2risw****
Kelompok keamanan kluster. Secara default, kelompok keamanan yang ada dipilih. Untuk informasi lebih lanjut tentang kelompok keamanan, lihat Ikhtisar.
Anda juga dapat mengklik create a new security group untuk membuat kelompok keamanan di konsol ECS. Untuk informasi lebih lanjut, lihat Buat kelompok keamanan.
PentingJangan gunakan kelompok keamanan tingkat lanjut yang dibuat di konsol ECS.
Node Group
Konfigurasikan pengaturan berdasarkan kebutuhan bisnis Anda
Instance Type: Anda dapat memilih tipe instance dan spesifikasi berdasarkan kebutuhan bisnis Anda atau berdasarkan saran berbasis evaluasi. Untuk informasi lebih lanjut tentang saran berbasis evaluasi, lihat Saran untuk mengevaluasi sumber daya kluster.
Add to Deployment Set: Jika Anda mengaktifkan High Service Availability, node master akan ditambahkan ke set penyebaran secara default. Untuk informasi lebih lanjut tentang set penyebaran, lihat Tambahkan node ke set penyebaran.
System Disk: Anda dapat memilih jenis disk sistem berdasarkan kebutuhan bisnis Anda.
System disk size: Anda dapat menentukan ukuran disk berdasarkan kebutuhan bisnis Anda. Ukuran disk minimum yang direkomendasikan adalah 120 GiB. Nilai valid: 80 hingga 500. Unit: GiB.
Data Disk: Anda dapat memilih jenis disk data berdasarkan kebutuhan bisnis Anda.
CatatanKami menyarankan Anda memilih tipe disk cloud.
Data disk size: Anda dapat menentukan ukuran disk berdasarkan kebutuhan bisnis Anda. Ukuran disk minimum yang direkomendasikan adalah 80 GiB. Nilai valid: 40 hingga 32768. Unit: GiB.
Instances: Secara default, tiga node master dan tiga node inti diterapkan.
Additional Security Group: Anda dapat mengaitkan grup node dengan maksimal dua kelompok keamanan tambahan. Kelompok keamanan tambahan memungkinkan interaksi antara sumber daya eksternal dan aplikasi yang berbeda secara fleksibel.
Assign Public Network IP: menentukan apakah akan mengaitkan alamat IP elastis (EIP) dengan kluster. Secara default, saklar ini dimatikan.
CatatanUntuk informasi tentang cara mengajukan alamat EIP, lihat Apa itu Elastic IP Address?
Konfigurasikan parameter dasar.
Konfigurasikan parameter di langkah Basic Information.
PentingTabel berikut menjelaskan semua parameter. Namun, parameter di bagian Pengaturan Lanjutan tidak didukung. Jangan konfigurasikan parameter di bagian ini.
Parameter
Contoh
Deskripsi
Cluster Name
Emr-Kafka
Nama kluster. Nama harus memiliki panjang 1 hingga 64 karakter dan hanya dapat berisi huruf, angka, tanda hubung (-), dan garis bawah (_).
Identity Credentials
Kata sandi kustom
Key Pair (default): Gunakan pasangan kunci SSH untuk mengakses instance Linux.
Untuk informasi tentang cara menggunakan pasangan kunci SSH, lihat Ikhtisar pasangan kunci SSH.
Password: Gunakan kata sandi yang Anda atur untuk node master untuk mengakses instance Linux.
Kata sandi harus memiliki panjang 8 hingga 30 karakter dan harus berisi huruf besar, huruf kecil, angka, dan karakter khusus.
Karakter khusus berikut didukung: ! @ # $ % ^ & *
Di langkah Confirm, baca terms of service dan centang kotak.
Klik Confirm.
Segarkan halaman EMR on ECS untuk melihat kemajuan pembuatan. Saat Status menjadi Running, kluster telah berhasil dibuat.
Apa yang harus dilakukan selanjutnya
Setelah kluster dibuat, Anda dapat mengubah nilai parameter default kluster untuk memenuhi kebutuhan produksi. Contohnya:
Tentukan apakah akan mengaktifkan fitur enkripsi SSL untuk kluster EMR Kafka. Untuk informasi lebih lanjut, lihat Gunakan SSL untuk mengenkripsi data Kafka.
Tentukan apakah akan mengaktifkan fitur Simple Authentication and Security Layer (SASL) untuk autentikasi login ke kluster EMR Kafka. Untuk informasi lebih lanjut, lihat Masuk ke kluster Kafka menggunakan SASL.