Mengasosiasikan sumber daya komputasi EMR

Untuk mengembangkan dan mengelola tugas E-MapReduce (EMR) di DataWorks, asosiasikan kluster EMR Anda dengan DataWorks sebagai sumber daya komputasi EMR. Setelah dikaitkan, Anda dapat menggunakan sumber daya komputasi tersebut di DataWorks untuk sinkronisasi data, pengembangan, dan operasi lainnya.

Prasyarat

Ruang kerja DataWorks telah dibuat, dan pengguna RAM yang melakukan operasi telah ditambahkan ke ruang kerja serta diberi peran administrator ruang kerja.
Kluster EMR telah dibuat.
- Jenis kluster yang didukung:
- Anda hanya dapat mengasosiasikan sumber daya komputasi ini dengan ruang kerja yang menggunakan Use Data Studio (New Version).
  
  Catatan
  Untuk ruang kerja yang tidak menggunakan Use Use Data Studio (New Version), Anda dapat mengasosiasikan sumber daya tersebut di Clusters. Untuk informasi selengkapnya, lihat Mengasosiasikan sumber daya komputasi EMR (versi lama).
Kelompok sumber daya telah diasosiasikan dengan ruang kerja, dan konektivitas jaringan telah tersedia.
- Jika Anda menggunakan kelompok sumber daya serverless, pastikan sumber daya komputasi EMR dapat terhubung ke serverless resource group.
- Jika Anda menggunakan kelompok sumber daya eksklusif versi lama, pastikan sumber daya komputasi EMR dapat terhubung ke exclusive resource group for scheduling untuk kasus penggunaan yang sesuai.

Batasan

Batasan produk:
- Untuk kluster EMR yang mengaktifkan otentikasi Kerberos, security group harus mengizinkan traffic UDP inbound dari blok CIDR vSwitch yang diasosiasikan dengan kelompok sumber daya.
  
  Catatan
  Klik ikon di sebelah Cluster Security Group pada bagian Basic information kluster EMR untuk membuka tab Security Group Details. Klik Access Rule > Inbound, pilih Added Manually, atur Protocol Type menjadi Custom UDP. Untuk Port Range, periksa port KDC dalam file /etc/krb5.conf pada kluster EMR. Atur Authorized object menjadi blok CIDR vSwitch yang diasosiasikan dengan kelompok sumber daya.
- Untuk mengelola metadata di DataWorks untuk kluster DataLake atau Custom, Anda dapat mengonfigurasi EMR-HOOK di sisi kluster atau saat Anda mengonfigurasi parameter Spark. Jika EMR-HOOK tidak dikonfigurasi, DataWorks tidak dapat menampilkan metadata secara real time, menghasilkan log audit, atau menampilkan lineage, serta tugas governance terkait EMR tidak dapat dilakukan. Saat ini, hanya layanan EMR Hive dan EMR Spark SQL yang mendukung konfigurasi EMR-HOOK. Untuk informasi selengkapnya, lihat Mengonfigurasi EMR-HOOK untuk Hive dan Mengonfigurasi EMR-HOOK untuk Spark SQL.
  Catatan
  - Mengonfigurasi EMR-HOOK untuk Hive dapat diselesaikan di E-MapReduce console. Setelah konfigurasi selesai, Anda tidak perlu menginisialisasi ulang kelompok sumber daya.
  - Mengonfigurasi EMR-HOOK untuk Spark SQL dapat dilakukan dengan dua cara:
    
    Konfigurasikan di E-MapReduce console. Hal ini memerlukan inisialisasi ulang kelompok sumber daya.
    
    Konfigurasikan di sumber daya komputasi dengan mengatur parameter properti Spark. Hal ini tidak memerlukan inisialisasi ulang kelompok sumber daya.
Batasan wilayah: Tiongkok (Hangzhou), Tiongkok (Shanghai), Tiongkok (Beijing), Tiongkok (Shenzhen), Tiongkok (Chengdu), Tiongkok (Hong Kong), Jepang (Tokyo), Singapura, Malaysia (Kuala Lumpur), Indonesia (Jakarta), Jerman (Frankfurt), Inggris (London), AS (Silicon Valley), dan AS (Virginia).

Batasan izin:

Operator	Izin yang diperlukan
Akun Alibaba Cloud	Tidak diperlukan otorisasi tambahan.
RAM user atau RAM role	Hanya anggota ruang kerja yang diberi peran operator atau administrator ruang kerja, atau yang memiliki izin `AliyunDataWorksFullAccess`, yang dapat membuat sumber daya komputasi. Untuk informasi selengkapnya, lihat Memberikan peran administrator ruang kerja kepada pengguna.

Catatan

Versi EMR berikut untuk kluster Hadoop (data lake lama) didukung di DataWorks:

EMR-3.38.2, EMR-3.38.3, EMR-4.9.0, EMR-5.6.0, EMR-3.26.3, EMR-3.27.2, EMR-3.29.0, EMR-3.32.0, EMR-3.35.0, EMR-4.3.0, EMR-4.4.1, EMR-4.5.0, EMR-4.5.1, EMR-4.6.0, EMR-4.8.0, EMR-5.2.1, dan EMR-5.4.3.
Kluster Hadoop (data lake lama) tidak lagi direkomendasikan. Segera migrasikan ke kluster DataLake. Untuk informasi selengkapnya, lihat Migrasi dari kluster Hadoop ke kluster DataLake.

Buka halaman daftar sumber daya komputasi

Login ke DataWorks console. Di panel navigasi kiri, alihkan ke wilayah target dan klik More > Management Center. Pilih ruang kerja Anda dari daftar drop-down dan klik Go to Management Center.
Di panel navigasi kiri, klik Computing Resources untuk membuka halaman daftar sumber daya komputasi.

Di halaman daftar sumber daya komputasi, konfigurasikan dan asosiasikan sumber daya komputasi EMR.

Pilih jenis sumber daya komputasi yang akan diasosiasikan.
1. Klik Associate Computing Resources untuk membuka halaman Associate Computing Resources.
2. Di halaman Associate Computing Resources, atur jenis sumber daya komputasi menjadi EMR untuk membuka halaman konfigurasi Associate EMR Computing Resource.

Konfigurasikan sumber daya komputasi EMR.

Di halaman konfigurasi Associate EMR Computing Resource, konfigurasikan parameter berikut.

Parameter	Deskripsi
Alibaba Cloud Account to Which Cluster Belongs	Anda dapat memilih Current Alibaba Cloud Account atau Another Alibaba Cloud Account. Catatan Saat Anda memilih Another Alibaba Cloud Account, Anda dapat mengikuti petunjuk dalam Menggunakan kluster EMR lintas akun Alibaba Cloud untuk mengotorisasi akun terkait, lalu konfigurasikan parameter yang diperlukan sesuai petunjuk.
Cluster Type	Pilih jenis kluster berdasarkan kebutuhan bisnis Anda. Catatan Jenis kluster yang didukung: Kluster DataLake (data lake baru): EMR on ECS Kluster kustom: EMR on ECS Kluster Hadoop (data lake lama): EMR on ECS Kluster Spark: EMR on ACK
Cluster	Pilih kluster EMR yang ingin Anda gunakan di bawah jenis kluster yang sesuai.
Default Access Identity	Lingkungan pengembangan: Anda dapat menggunakan akun kluster `hadoop`, atau akun kluster yang dipetakan ke pelaksana tugas. Lingkungan produksi: Anda dapat menggunakan akun kluster `hadoop`, atau akun kluster yang dipetakan ke pemilik tugas, Akun Alibaba Cloud, atau RAM user. Catatan Saat identitas akses default diatur ke akun kluster yang dipetakan ke pemilik tugas, Akun Alibaba Cloud, atau RAM user, Anda dapat merujuk ke Mengonfigurasi pemetaan akun antara DataWorks dan EMR untuk mengonfigurasi secara manual pemetaan antara anggota penyewa DataWorks dan akun kluster EMR. Tugas EMR dieksekusi di DataWorks menggunakan akun kluster yang dipetakan. Jika tidak ada pemetaan yang dikonfigurasi antara anggota penyewa DataWorks dan akun kluster, DataWorks menanganinya sebagai berikut: Jika RAM user (sub-account) mengeksekusi tugas: DataWorks menggunakan akun sistem kluster EMR dengan nama yang sama dengan operator saat ini secara default. Jika otentikasi LDAP atau Kerberos diaktifkan untuk kluster, tugas gagal. Jika Akun Alibaba Cloud mengeksekusi tugas: Tugas DataWorks mengembalikan error.
Pass Proxy User Information	Menentukan apakah informasi Proxy User akan dilewatkan. Catatan Saat otentikasi LDAP, Kerberos, atau metode autentikasi lain diaktifkan, kluster mengeluarkan kredensial autentikasi untuk setiap pengguna biasa. Untuk mengelola izin pengguna secara terpusat, Anda dapat menggunakan super user (real user) untuk mewakili pengguna biasa (proxy users) dalam proses autentikasi. Dalam kasus ini, saat proxy user mengakses kluster, informasi autentikasi super user digunakan. Anda hanya perlu menambahkan pengguna tersebut sebagai proxy user. Pass: Saat tugas dijalankan di kluster EMR, izin akses data diverifikasi dan dikontrol berdasarkan Proxy User. Data Studio dan Data Analysis: Nama akun Alibaba Cloud dari pelaksana tugas dilewatkan secara dinamis sebagai informasi Proxy User. Operation Center: Nama akun Alibaba Cloud dari identitas akses default yang dikonfigurasi saat pendaftaran kluster dilewatkan sebagai informasi Proxy User tetap. Do not pass: Saat tugas dijalankan di kluster EMR, izin akses data diverifikasi dan dikontrol berdasarkan metode autentikasi akun yang dikonfigurasi saat pendaftaran kluster. Informasi Proxy User dilewatkan secara berbeda tergantung pada jenis tugas EMR: Tugas EMR Kyuubi: Informasi dilewatkan melalui item konfigurasi `hive.server2.proxy.user`. Tugas EMR Spark dan tugas EMR Spark SQL dalam mode non-JDBC: Informasi dilewatkan melalui item konfigurasi `-proxy-user`.
Configuration files	Saat jenis kluster diatur ke HADOOP, Anda dapat memperoleh file konfigurasi dari EMR console. Untuk informasi selengkapnya, lihat Mengekspor file konfigurasi kluster EMR. Setelah mengekspor file, ubah namanya sesuai petunjuk di halaman konfigurasi. Anda juga dapat login ke kluster EMR dan memperoleh file konfigurasi dari path berikut. `/etc/ecm/hadoop-conf/core-site.xml /etc/ecm/hadoop-conf/hdfs-site.xml /etc/ecm/hadoop-conf/mapred-site.xml /etc/ecm/hadoop-conf/yarn-site.xml /etc/ecm/hive-conf/hive-site.xml /etc/ecm/spark-conf/spark-defaults.conf /etc/ecm/spark-conf/spark-env.sh`
Computing Resource Instance Name	Atur nama instance sumber daya komputasi sesuai keinginan. Saat tugas dijalankan, Anda dapat memilih sumber daya komputasi berdasarkan nama tersebut.

Klik Confirm untuk menyelesaikan konfigurasi sumber daya komputasi EMR.

Inisialisasi kelompok sumber daya

Saat Anda mendaftarkan kluster untuk pertama kali, mengubah konfigurasi layanan kluster, atau meningkatkan versi komponen (misalnya, mengubah core-site.xml), inisialisasi kelompok sumber daya untuk memastikan bahwa kelompok sumber daya dapat mengakses kluster EMR dengan benar melalui konfigurasi konektivitas jaringan.

Di halaman daftar Computing Resources, temukan sumber daya komputasi EMR yang telah Anda buat. Klik Initialize Resource Group di pojok kanan atas.
Klik Initialize di sebelah kelompok sumber daya yang diinginkan. Setelah kelompok sumber daya diinisialisasi, klik Determine.

(Opsional) Mengonfigurasi antrian sumber daya YARN

Di halaman daftar Computing Resources, temukan kluster EMR yang telah Anda asosiasikan. Di tab YARN Resource Queue, klik Edit YARN Resource Queue untuk mengonfigurasi antrian sumber daya YARN untuk tugas di modul yang berbeda.

(Opsional) Mengonfigurasi parameter Spark

Konfigurasikan parameter properti Spark khusus untuk tugas di modul yang berbeda.

Di halaman daftar Computing Resources, temukan kluster EMR yang telah Anda asosiasikan.
Klik tab Spark-related Parameter lalu klik Edit Spark Parameters untuk membuka halaman pengeditan parameter Spark untuk kluster EMR.
Klik Add di bawah modul, masukkan Spark Property Name dan Spark Property Value yang sesuai untuk mengonfigurasi parameter properti Spark untuk tugas di modul yang berbeda.

Langkah selanjutnya

Mengonfigurasi informasi koneksi Kyuubi: Jika Anda ingin menggunakan akun dan password kustom untuk login ke Kyuubi guna menjalankan tugas, rujuk dokumen ini untuk menyesuaikan informasi koneksi Kyuubi.
Setelah Anda mengonfigurasi sumber daya komputasi EMR, Anda dapat melakukan operasi pengembangan data menggunakan node terkait EMR di Data Studio.