Gunakan node gateway ketika Anda memerlukan titik masuk terpadu dan terisolasi bagi beberapa pengguna atau aplikasi untuk mengirim pekerjaan tanpa memengaruhi stabilitas layanan inti kluster EMR. Node gateway memisahkan beban kerja klien dari node master kluster. Pemisahan ini melindungi komponen inti dan memungkinkan Anda mengonfigurasi lingkungan independen untuk pengguna yang berbeda.
Opsi penerapan Gateway
Gateway merupakan lapisan isolasi untuk pengiriman pekerjaan yang disediakan oleh EMR. Manfaat utamanya meliputi:
-
Pisahkan beban kerja klien dari layanan inti kluster
Mengalihkan operasi klien seperti
spark-submit,hive -f, danyarn applicationdari node master. -
Aktifkan isolasi di lingkungan multi-tenant
Mendukung lingkungan runtime terpisah untuk pengguna atau departemen.
-
Tingkatkan stabilitas dan kemudahan pemeliharaan kluster
Mencegah pengiriman pekerjaan yang sering, debugging skrip, konflik lingkungan, atau konflik sumber daya memengaruhi layanan kritis seperti YARN ResourceManager dan HDFS NameNode.
EMR menyediakan tiga opsi gateway yang sesuai dengan berbagai jenis kluster, versi, dan kebutuhan arsitektur.
|
Opsi |
Jenis dan versi kluster yang didukung |
Penerapan dan fitur utama |
Kasus penggunaan dan rekomendasi |
|
Gateway node group |
Hanya mendukung kluster berikut:
|
• Tambahkan kelompok node baru ke kluster yang sudah ada. Untuk informasi selengkapnya, lihat Manage node groups. |
Sangat direkomendasikan: Gunakan opsi ini untuk menambahkan titik masuk pengiriman yang aman dan terisolasi ke kluster DataLake atau DataFlow yang sudah ada. Opsi ini menawarkan biaya pemeliharaan terendah dan memastikan konsistensi konfigurasi yang tinggi. |
|
Gateway environment |
Mendukung kluster DataLake, DataFlow, Custom, dan OLAP. |
• Terapkan secara manual pada instans ECS. Untuk detailnya, lihat Use the EMR CLI to customize a Gateway environment deployment. |
Alternatif standar ketika kluster Anda tidak mendukung Gateway node group. |
|
Gateway cluster |
Hanya mendukung kluster Hadoop dan Kafka. |
|
Cocok untuk kluster Hadoop dan Kafka. |
Prosedur
-
Hubungkan ke instans gateway menggunakan SSH. Untuk informasi selengkapnya, lihat Log on to a cluster.
-
Setelah terhubung ke node menggunakan SSH, jalankan perintah berikut untuk mengirim pekerjaan. Contoh ini menggunakan Spark 3.1.1.
spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode client --driver-memory 512m --num-executors 1 --executor-memory 1g --executor-cores 2 /opt/apps/SPARK3/spark-current/examples/jars/spark-examples_2.12-3.1.1.jar 10CatatanNama file JAR
spark-examples_2.12-3.1.1.jardapat berbeda tergantung kluster. Anda dapat log on to the cluster dan memeriksa nama file di direktori/opt/apps/SPARK3/spark-current/examples/jars. -
Setelah Anda mengirim pekerjaan, Anda dapat melihat statusnya di UI YARN. Ikuti langkah-langkah berikut:
-
Buka Port 8443 di security group. Untuk informasi selengkapnya, lihat Manage security groups.
-
Tambahkan pengguna. Untuk informasi selengkapnya, lihat OpenLDAP user management.
Anda memerlukan username dan password akun Knox untuk mengakses UI YARN.
-
Pada halaman EMR on ECS, klik Cluster Services pada baris kluster target Anda.
-
Klik tab Access Links and Ports.
-
Klik tautan publik pada baris YARN UI.
Login dengan kredensial pengguna Anda untuk mengakses halaman UI YARN.
-
Pada halaman All Applications, klik ID pekerjaan target untuk melihat detailnya.
-