全部产品
Search
文档中心

E-MapReduce:Buat Cluster Kafka Dataflow

更新时间:Jul 06, 2025

Topik ini menjelaskan cara membuat dan mengonfigurasi cluster Kafka Dataflow, yaitu cluster Dataflow yang menggunakan layanan Kafka.

Batasan

Kafka tidak lagi didukung di E-MapReduce (EMR) V5.18.0, EMR V3.52.0, serta versi minor sebelum EMR V5.18.0 atau V3.52.0. Disarankan untuk menggunakan ApsaraMQ for Kafka atau menginstal Kafka secara manual.

Perhatian

Saat membuat cluster Kafka Dataflow, pilih jenis Instance Elastic Compute Service (ECS) yang sesuai dan tentukan jumlah broker berdasarkan beban bisnis yang diperkirakan. Tidak ada rencana kluster umum karena skenario bisnis bervariasi. Anda harus membuat kluster sesuai dengan lingkungan aktual Anda. Dalam kebanyakan kasus, pertimbangkan hal-hal berikut saat memilih tipe instance:

  • Sebarkan broker Kafka pada instance ECS dengan rasio CPU-memori 1:4.

  • Gunakan disk cloud untuk menyimpan data.

  • Pertimbangkan hubungan antara throughput I/O disk cloud dan bandwidth Network Interface Controller (NIC).

Pertimbangkan faktor-faktor berikut saat mengonfigurasi parameter penyebaran:

  • Versi Kafka dalam EMR bergantung pada layanan ZooKeeper. Ketersediaan ZooKeeper menentukan apakah layanan Kafka memiliki ketersediaan tinggi. Aktifkan High Service Availability saat membuat kluster agar tiga node diterapkan untuk layanan ZooKeeper.

  • Jika grup node master hanya digunakan untuk menerapkan ZooKeeper, cukup konfigurasikan satu disk data untuk grup node master.

Untuk informasi lebih lanjut tentang saran berbasis evaluasi, lihat Saran untuk mengevaluasi sumber daya kluster.

Prosedur

  1. Buka halaman pembuatan kluster.

    1. Masuk ke Konsol EMR. Di panel navigasi kiri, klik EMR on ECS.

    2. Opsional. Di bilah navigasi atas, pilih wilayah dan grup sumber daya sesuai kebutuhan bisnis Anda.

      • Wilayah kluster tidak dapat diubah setelah kluster dibuat.

      • Secara default, semua grup sumber daya di akun Anda akan ditampilkan.

    3. Di halaman EMR on ECS, klik Create Cluster.

  2. Konfigurasikan kluster.

    Untuk membuat kluster, konfigurasikan parameter perangkat lunak, perangkat keras, dan dasar sesuai panduan wizard.

    Penting

    Setelah kluster dibuat, parameter tidak dapat diubah kecuali nama kluster. Pastikan semua parameter dikonfigurasi dengan benar saat membuat kluster. Untuk informasi lebih lanjut, lihat Buat kluster.

    1. Konfigurasikan parameter perangkat lunak.

      Parameter

      Contoh

      Deskripsi

      Region

      Tiongkok (Hangzhou)

      Wilayah tempat Anda ingin membuat kluster. Anda tidak dapat mengubah wilayah kluster setelah kluster dibuat.

      Business Scenario

      Streaming Data Real-time

      Skema tempat Anda ingin menggunakan kluster. Pilih Real-time Data Streaming.

      Product Version

      EMR-3.43.1

      Versi EMR. Setelah Anda memilih versi EMR, Anda dapat melihat versi setiap layanan.

      Sebagai contoh, dalam kluster EMR V3.43.1, versi Kafka adalah 2.12_2.4.1. Nilai 2.12 menunjukkan versi Scala, dan nilai 2.4.1 menunjukkan versi Kafka open source.

      High Service Availability

      Aktif

      Secara default, saklar dimatikan.

      Penting

      Jika Anda mengaktifkan High Service Availability saat membuat kluster, tiga node akan diterapkan di grup node master untuk layanan ZooKeeper. Versi Kafka yang digunakan dalam EMR bergantung pada layanan ZooKeeper. Oleh karena itu, saat Anda membuat kluster, kami menyarankan Anda mengaktifkan High Service Availability.

      Optional Services (Select One At Least)

      Kafka

      Layanan yang ingin Anda terapkan di kluster. Pilih Kafka.

      Anda dapat memilih layanan lain berdasarkan kebutuhan bisnis Anda. Secara default, komponen terkait dari layanan yang Anda pilih akan diaktifkan.

      Collect Service Operational Logs

      Aktif

      Menentukan apakah akan mengaktifkan pengumpulan log untuk semua layanan. Secara default, saklar ini diaktifkan untuk mengumpulkan log operasional layanan kluster Anda. Log tersebut hanya digunakan untuk diagnosis kluster.

      Setelah membuat kluster, Anda dapat memodifikasi parameter Collection Status of Service Operational Logs di tab Basic Information.

      Penting

      Jika Anda mematikan saklar ini, pemeriksaan kesehatan kluster EMR dan dukungan teknis terkait layanan akan dibatasi. Untuk informasi lebih lanjut tentang cara menonaktifkan pengumpulan log dan dampak yang ditimbulkan oleh penonaktifan pengumpulan log, lihat Bagaimana cara menghentikan pengumpulan log operasional layanan?

    2. Konfigurasikan parameter perangkat keras.

      Parameter

      Contoh

      Deskripsi

      Billing Method

      Bayar sesuai pemakaian

      Metode penagihan kluster. Secara default, Langganan dipilih. EMR mendukung metode penagihan berikut:

      • Pay-as-you-go: metode penagihan yang memungkinkan Anda membayar instance setelah Anda menggunakan instance. Sistem menagih Anda untuk kluster berdasarkan jumlah jam penggunaan kluster sebenarnya. Tagihan dihasilkan setiap jam pada awal setiap jam. Kami menyarankan Anda menggunakan kluster bayar sesuai pemakaian untuk pekerjaan uji jangka pendek atau pekerjaan yang dijadwalkan secara dinamis.

      • Subscription: metode penagihan yang memungkinkan Anda menggunakan instance hanya setelah Anda membayar instance.

        Catatan

        Kami menyarankan Anda membuat kluster pay-as-you-go untuk uji coba. Jika kluster lulus uji, Anda dapat membuat kluster subscription untuk produksi.

      Zone

      Zona I

      Zona tempat Anda ingin membuat kluster. Zona di wilayah adalah area fisik dengan pasokan daya dan fasilitas jaringan independen. Kluster di zona dalam wilayah yang sama dapat berkomunikasi satu sama lain melalui jaringan internal. Dalam kebanyakan kasus, Anda dapat menggunakan zona yang dipilih secara default.

      VPC

      emr_test/vpc-bp1f4epmkvncimpgs****

      VPC tempat Anda ingin menerapkan kluster. VPC yang ada dipilih secara default.

      Jika Anda ingin menggunakan VPC baru, pergi ke konsol VPC untuk membuatnya. Untuk informasi lebih lanjut, lihat Buat dan kelola VPC.

      vSwitch

      vsw_test/vsw-bp1e2f5fhaplp0g6p****

      vSwitch kluster. Pilih vSwitch di zona tertentu berdasarkan kebutuhan bisnis Anda. Jika tidak ada vSwitch yang tersedia di zona, pergi ke konsol VPC untuk membuatnya. Untuk informasi lebih lanjut, lihat Buat dan kelola vSwitches.

      Default Security Group

      sg-bp1ddw7sm2risw****/sg-bp1ddw7sm2risw****

      Kelompok keamanan kluster. Secara default, kelompok keamanan yang ada dipilih. Untuk informasi lebih lanjut tentang kelompok keamanan, lihat Ikhtisar.

      Anda juga dapat mengklik create a new security group untuk membuat kelompok keamanan di konsol ECS. Untuk informasi lebih lanjut, lihat Buat kelompok keamanan.

      Penting

      Jangan gunakan kelompok keamanan tingkat lanjut yang dibuat di konsol ECS.

      Node Group

      Konfigurasikan pengaturan berdasarkan kebutuhan bisnis Anda

      • Instance Type: Anda dapat memilih tipe instance dan spesifikasi berdasarkan kebutuhan bisnis Anda atau berdasarkan saran berbasis evaluasi. Untuk informasi lebih lanjut tentang saran berbasis evaluasi, lihat Saran untuk mengevaluasi sumber daya kluster.

      • Add to Deployment Set: Jika Anda mengaktifkan High Service Availability, node master akan ditambahkan ke set penyebaran secara default. Untuk informasi lebih lanjut tentang set penyebaran, lihat Tambahkan node ke set penyebaran.

      • System Disk: Anda dapat memilih jenis disk sistem berdasarkan kebutuhan bisnis Anda.

      • System disk size: Anda dapat menentukan ukuran disk berdasarkan kebutuhan bisnis Anda. Ukuran disk minimum yang direkomendasikan adalah 120 GiB. Nilai valid: 80 hingga 500. Unit: GiB.

      • Data Disk: Anda dapat memilih jenis disk data berdasarkan kebutuhan bisnis Anda.

        Catatan

        Kami menyarankan Anda memilih tipe disk cloud.

      • Data disk size: Anda dapat menentukan ukuran disk berdasarkan kebutuhan bisnis Anda. Ukuran disk minimum yang direkomendasikan adalah 80 GiB. Nilai valid: 40 hingga 32768. Unit: GiB.

      • Instances: Secara default, tiga node master dan tiga node inti diterapkan.

      • Additional Security Group: Anda dapat mengaitkan grup node dengan maksimal dua kelompok keamanan tambahan. Kelompok keamanan tambahan memungkinkan interaksi antara sumber daya eksternal dan aplikasi yang berbeda secara fleksibel.

      • Assign Public Network IP: menentukan apakah akan mengaitkan alamat IP elastis (EIP) dengan kluster. Secara default, saklar ini dimatikan.

        Catatan

        Untuk informasi tentang cara mengajukan alamat EIP, lihat Apa itu Elastic IP Address?

    3. Konfigurasikan parameter dasar.

      Konfigurasikan parameter di langkah Basic Information.

      Penting

      Tabel berikut menjelaskan semua parameter. Namun, parameter di bagian Pengaturan Lanjutan tidak didukung. Jangan konfigurasikan parameter di bagian ini.

      Parameter

      Contoh

      Deskripsi

      Cluster Name

      Emr-Kafka

      Nama kluster. Nama harus memiliki panjang 1 hingga 64 karakter dan hanya dapat berisi huruf, angka, tanda hubung (-), dan garis bawah (_).

      Identity Credentials

      Kata sandi kustom

      Key Pair (default): Gunakan pasangan kunci SSH untuk mengakses instance Linux.

      Untuk informasi tentang cara menggunakan pasangan kunci SSH, lihat Ikhtisar pasangan kunci SSH.

      Password: Gunakan kata sandi yang Anda atur untuk node master untuk mengakses instance Linux.

      Kata sandi harus memiliki panjang 8 hingga 30 karakter dan harus berisi huruf besar, huruf kecil, angka, dan karakter khusus.

      Karakter khusus berikut didukung: ! @ # $ % ^ & *

  3. Di langkah Confirm, baca terms of service dan centang kotak.

  4. Klik Confirm.

    Segarkan halaman EMR on ECS untuk melihat kemajuan pembuatan. Saat Status menjadi Running, kluster telah berhasil dibuat.

Apa yang harus dilakukan selanjutnya

Setelah kluster dibuat, Anda dapat mengubah nilai parameter default kluster untuk memenuhi kebutuhan produksi. Contohnya: