All Products
Search
Document Center

E-MapReduce:Gunakan EMR-CLI untuk menerapkan lingkungan gateway kustom

Last Updated:Jun 22, 2026

Gateway terutama digunakan untuk mengirimkan job ke kluster komputasi dan menyediakan isolasi keamanan. Untuk menyederhanakan penerapan lingkungan gateway, E-MapReduce menyediakan alat bernama EMR-CLI yang memanfaatkan Elastic Compute Service (ECS) Alibaba Cloud untuk membuat instance dan menerapkan lingkungan gateway. Jika Anda memiliki kluster DataLake, Dataflow, atau OLAP, rujuk topik ini untuk menerapkan lingkungan gateway.

Opsi penerapan Gateway

Gateway merupakan lapisan isolasi untuk pengiriman job yang disediakan oleh EMR. Manfaat utamanya meliputi:

  • Pisahkan beban kerja client dari layanan inti kluster

    Mengalihkan operasi client seperti spark-submit, hive -f, dan yarn application dari node master.

  • Aktifkan isolasi di lingkungan multi-tenant

    Mendukung lingkungan runtime terpisah untuk pengguna atau departemen.

  • Tingkatkan stabilitas dan kemudahan pemeliharaan kluster

    Mencegah pengiriman job yang sering, debugging skrip, konflik lingkungan, atau konflik sumber daya memengaruhi layanan kritis seperti YARN ResourceManager dan HDFS NameNode.

EMR menawarkan tiga opsi Gateway untuk menyesuaikan berbagai jenis kluster, versi, dan kebutuhan arsitektur.

Opsi

Jenis dan versi kluster yang didukung

Penerapan dan fitur utama

Kasus penggunaan dan rekomendasi

Gateway node group
(Direkomendasikan)

Hanya mendukung kluster berikut:

  • Kluster DataLake dan DataFlow: EMR-5.10.1 dan versi lebih baru

  • Kluster kustom: EMR-5.17.1 dan versi lebih baru

• Tambahkan grup node baru ke kluster yang sudah ada. Untuk informasi selengkapnya, lihat Manage node groups.
• Secara otomatis menyinkronkan konfigurasi client dari versi utama kluster.



Sangat direkomendasikan: Gunakan opsi ini untuk menambahkan titik masuk pengiriman yang aman dan terisolasi ke kluster DataLake atau DataFlow yang sudah ada. Opsi ini menawarkan biaya pemeliharaan terendah dan memastikan konsistensi konfigurasi tinggi.

Gateway environment

Mendukung kluster DataLake, DataFlow, Kustom, dan OLAP.

• Terapkan secara manual pada instance ECS. Untuk detailnya, lihat Use the EMR CLI to customize a Gateway environment deployment.
• Menyediakan sistem file dan lingkungan runtime yang sepenuhnya independen. Anda harus menyinkronkan secara manual konfigurasi client dari versi utama kluster.

Alternatif standar ketika kluster Anda tidak mendukung Gateway node group.

Gateway cluster

Hanya mendukung kluster Hadoop dan Kafka.

  • Buat kluster EMR terpisah yang hanya berisi node Gateway. Untuk informasi selengkapnya, lihat Create a Gateway cluster.

  • Secara otomatis menyinkronkan konfigurasi client dari versi utama kluster.

Cocok untuk kluster Hadoop dan Kafka.

Prasyarat

Kluster komputasi E-MapReduce untuk skenario DataLake, Dataflow, OLAP, atau Kustom harus sedang berjalan. Untuk petunjuk pembuatan kluster, lihat Create a cluster.

Batasan

  • Jenis kluster: Solusi ini hanya berlaku untuk menerapkan lingkungan gateway pada kluster DataLake, Dataflow, OLAP, dan Kustom. Jika jenis dan versi kluster kompatibel, penggunaan gateway node group direkomendasikan.

    Untuk informasi tentang menerapkan lingkungan gateway pada kluster Hadoop dan Kafka yang sudah ada, lihat Create a gateway cluster.

    Catatan

    Hanya akun Alibaba Cloud yang membuat kluster Hadoop atau Kafka sebelum pukul 17.00 (UTC+8) pada 19 Desember 2022 yang dapat terus membuat kluster tersebut.

  • Pemasangan ulang (overwrite installation): EMR-CLI menerapkan client gateway dalam mode overwrite. Penerapan ulang pada instance ECS yang sudah memiliki gateway akan menimpa client lama dan menginstal client baru di direktori yang sama.

  • Penerapan terisolasi: Jangan gunakan instance ECS yang sudah ada dari kluster EMR Anda (misalnya, node Master, Core, atau Task) sebagai node gateway. Hal ini mencegah lingkungan client mengganggu operasi normal kluster.

  • Layanan yang didukung: Metode penerapan ini mendukung client untuk layanan berikut: HDFS, YARN, HBase, Hive, Spark 2, Spark 3, JindoSDK, Flink, Sqoop, Impala, Presto, Hudi, Iceberg, Tez, dan Delta Lake.

Penerapan pertama kali

  1. Di Konsol ECS, buat instance. Untuk informasi selengkapnya, lihat Create an instance by using the wizard.

    Catatan

    Instance ECS tidak memerlukan akses jaringan publik.

    Pengaturan parameter berikut direkomendasikan.

    Parameter

    Deskripsi

    Region dan zona

    Wilayah dan zona yang sama dengan kluster EMR.

    Image

    Sistem operasi yang sama dengan instans kluster EMR.

    Disk sistem

    ESSD minimal 60 GiB direkomendasikan.

    Jaringan

    Virtual Private Cloud (VPC) yang sama dengan kluster EMR.

    Security group

    Gunakan security group yang sama dengan grup node master kluster EMR. Hal ini memastikan konektivitas jaringan antara instance ECS dan kluster EMR.

  2. Buat peran RAM ECS khusus untuk gateway EMR.

    1. Masuk ke RAM console sebagai administrator RAM.

    2. Di panel navigasi kiri, pilih Identities > Role.

    3. Di halaman Role, klik Create Role.

    4. Di panel Create Role, atur Principal Type ke Cloud Service dan Principal Name ke Elastic Compute Service, lalu klik OK.

    5. Masukkan Role Name (misalnya, ECSForEMRGatewayRole), lalu klik OK.

  3. Berikan izin kepada peran RAM.

    1. Di tab Permission Settings, klik Add Authorization.

    2. Di panel Add Authorization, pilih System Policy. Cari dan pilih AliyunEMRFullAccess, AliyunOSSFullAccess, dan AliyunDLFFullAccess. Lalu, klik OK.

    3. Klik Close.

  4. Sambungkan peran RAM ke instance ECS.

    1. Masuk ke ECS console.

    2. Di bilah navigasi kiri, pilih Instances & Images > Instance.

    3. Di bilah menu atas, pilih wilayah.

    4. Temukan instance ECS yang baru dibuat dan pilih image > Instance Settings > Attach/Detach RAM Role.

    5. Di kotak dialog yang muncul, pilih peran ECSForEMRGatewayRole dan klik OK.

  5. Sambungkan ke instance ECS. Untuk informasi selengkapnya, lihat Connect to an instance.

  6. Jalankan perintah berikut untuk menginstal EMR-CLI.

    regionId=`curl http://100.100.100.200/latest/meta-data/region-id`; curl https://ecm-repo-${regionId}.oss-${regionId}-internal.aliyuncs.com/emrcli/emrcli.sh -o /tmp/emrcli.sh; chmod 755 /tmp/emrcli.sh; sh /tmp/emrcli.sh install ${regionId}

    Pemasangan yang berhasil mengembalikan pesan berikut:

    install emrcli success
  7. Jalankan perintah berikut untuk menerapkan client gateway EMR.

    emrcli gateway deploy \
      --clusterId <ClusterId> \
      --appNames <ApplicationName>

    Ganti parameter berikut dengan nilai aktual Anda.

    Parameter

    Wajib

    Deskripsi

    clusterId

    Ya

    ID kluster E-MapReduce Anda.

    appNames

    Tidak

    Nama aplikasi. Untuk menentukan beberapa aplikasi, pisahkan nama dengan koma (,), misalnya, HDFS,YARN.

    Jika parameter ini dihilangkan, client untuk semua aplikasi yang didukung di kluster, seperti Hive dan HDFS, akan diinstal secara default.

    Penerapan yang berhasil mengembalikan pesan berikut:

    deployGateway success
    Penting

    Setelah gateway diinstal, variabel lingkungan sistem JAVA_HOME diatur ke /usr/lib/jvm/java-1.8.0. Anda dapat mengubahnya di file /etc/profile.d/emr_env.sh, tetapi hal ini dapat memengaruhi fungsionalitas gateway. Lakukan dengan hati-hati.

  8. Masuk kembali ke instance ECS untuk menerapkan variabel lingkungan baru.

  9. Opsional: Konfigurasikan resolusi DNS untuk node gateway.

    Penting

    Langkah ini wajib jika gateway mencakup layanan Spark.

    1. Tambahkan zona. Untuk informasi selengkapnya, lihat Add a built-in authoritative zone.

    2. Tambahkan rekaman DNS. Untuk informasi selengkapnya, lihat Add DNS records.

      Tabel berikut menjelaskan parameter yang diperlukan.

      Parameter

      Deskripsi

      Record type

      Gunakan nilai default A.

      Hostname

      Masukkan hostname node gateway, misalnya, iZ2zea8r0aht2vzbqci****.

      Anda dapat memperoleh hostname dengan menjalankan perintah hostname.

      Record value

      Masukkan alamat IP internal node gateway.

      Anda dapat melihat alamat ini di halaman manajemen node.

      TTL value

      Gunakan nilai default.

Manajemen gateway

Setelah membuat gateway, jika Anda menambahkan layanan baru ke kluster terkait atau mengubah konfigurasi layanan, Anda dapat menjalankan perintah untuk memperbarui komponen client atau menyinkronkan konfigurasi terbaru.

Perbarui komponen client

Jika layanan baru, seperti Flink, ditambahkan ke kluster EMR, Anda dapat menginstal client yang sesuai secara inkremental pada node gateway. Perintah deploy akan menimpa konfigurasi aplikasi yang sudah ada dan menginstal yang baru secara inkremental.

# Contoh: Tambahkan client FLINK ke pengaturan HDFS dan YARN yang sudah ada
emrcli gateway deploy \
  --clusterId <ClusterId> \
  --appNames HDFS,YARN,FLINK

Pembaruan yang berhasil mengembalikan pesan berikut:

deployGateway success

Sinkronkan konfigurasi

Jika Anda mengubah konfigurasi layanan di kluster EMR (misalnya, Anda memodifikasi core-site.xml di Konsol E-MapReduce), Anda harus menyinkronkan secara manual konfigurasi baru tersebut ke node gateway.

Penting

Menyinkronkan konfigurasi akan menimpa konfigurasi yang ada di gateway. Lakukan dengan hati-hati.

# Jalankan perintah sinkronisasi
emrcli gateway refreshConfigs \
  --clusterId <ClusterId> \
  --appNames <ApplicationName> # Opsional. Tentukan aplikasi yang akan disinkronkan.

Sinkronisasi yang berhasil mengembalikan pesan berikut:

refreshConfiguration success

Manajemen EMR-CLI

Lihat versi EMR-CLI

Jalankan perintah berikut untuk melihat versi EMR-CLI.

emrcli version

Perintah tersebut mengembalikan informasi seperti berikut:

2.0.0

Upgrade EMR-CLI

Untuk meningkatkan ke versi terbaru, jalankan kembali langkah instalasi EMR-CLI di Deploy a gateway environment for the first time.

FAQ

T: Bagaimana cara mengganti kluster komputasi?

J: Untuk mengganti kluster komputasi, ikuti langkah-langkah berikut:

  1. Untuk mencegah kehilangan data, gunakan perintah mv untuk mencadangkan file dari kluster lama secara manual. Cadangkan direktori /opt/apps, direktori /etc/taihao-apps, dan file /etc/profile.d/yarn.sh.

  2. Ikuti langkah-langkah dalam topik ini untuk menerapkan ulang lingkungan gateway untuk kluster baru.