Untuk mengembangkan dan mengelola tugas E-MapReduce (EMR) di DataWorks, Anda harus terlebih dahulu menyambungkan kluster EMR ke ruang kerja DataWorks sebagai sumber daya komputasi. Setelah tersambung, sumber daya komputasi ini dapat digunakan untuk berbagai operasi di DataWorks, seperti sinkronisasi data dan pengembangan.
Prasyarat
Anda telah membuat ruang kerja di DataWorks, dan Pengguna RAM Anda telah ditambahkan ke ruang kerja tersebut serta diberi peran Administrator Ruang Kerja.
Anda telah membuat kluster EMR.
Jenis kluster yang didukung:
Sumber daya komputasi ini hanya dapat disambungkan ke ruang kerja yang telah mengaktifkan opsi Use Data Studio (New Version).
CatatanRuang kerja yang tidak mengaktifkan Use Data Studio (New Version) dapat menggunakan Cluster Management sebagaimana dijelaskan dalam Legacy Data Development: Attach an EMR computing resource.
Anda telah menyambungkan kelompok sumber daya ke ruang kerja dan menetapkan konektivitas jaringan.
Jika Anda menggunakan kelompok sumber daya Serverless, pastikan sumber daya komputasi EMR dapat terhubung ke kelompok sumber daya Serverless.
Jika Anda menggunakan kelompok sumber daya eksklusif lama, pastikan sumber daya komputasi EMR dapat terhubung ke exclusive resource group for scheduling untuk skenario terkait.
Batasan
Batasan produk:
Untuk kluster EMR yang mengaktifkan otentikasi Kerberos, tambahkan aturan masuk ke grup keamanannya yang mengizinkan akses dari blok CIDR vSwitch milik kelompok sumber daya yang tersambung melalui protokol UDP.
CatatanKlik ikon
di samping Cluster Security Group pada bagian Basic Information kluster EMR untuk membuka tab Security Group Details. Pada tab Access Rules, klik Inbound, lalu klik Manually Add. Untuk Protocol Type, pilih Custom UDP. Untuk Port Range, masukkan port KDC yang ditentukan dalam file /etc/krb5.confkluster EMR. Tetapkan Authorization Object ke blok CIDR vSwitch yang terkait dengan kelompok sumber daya.Untuk mengelola metadata kluster DataLake atau kustom di DataWorks, konfigurasikan EMR-HOOK pada kluster atau saat Anda menyetel parameter SPARK. Jika EMR-HOOK tidak dikonfigurasi, metadata real-time, log audit, dan alur data tidak akan ditampilkan di DataWorks, serta tugas governance EMR tidak dapat dijalankan. Saat ini, hanya layanan EMR Hive dan EMR Spark SQL yang mendukung konfigurasi EMR-HOOK. Untuk informasi lebih lanjut, lihat Configure EMR-HOOK for Hive dan Configure EMR-HOOK for Spark SQL.
CatatanAnda dapat mengonfigurasi EMR-HOOK untuk Hive di konsol E-MapReduce. Setelah konfigurasi selesai, Anda tidak perlu menginisialisasi ulang kelompok sumber daya.
Anda dapat mengonfigurasi EMR-HOOK untuk Spark SQL dengan dua cara:
Mengonfigurasinya di konsol E-MapReduce. Dalam hal ini, Anda harus menginisialisasi ulang kelompok sumber daya.
Mengonfigurasi pengaturan tersebut pada sumber daya komputasi dengan menyetel parameter properti SPARK. Dalam hal ini, Anda tidak perlu menginisialisasi ulang kelompok sumber daya.
Ketersediaan wilayah: Tiongkok (Hangzhou), Tiongkok (Shanghai), Tiongkok (Beijing), Tiongkok (Shenzhen), Tiongkok (Chengdu), Tiongkok (Hong Kong), Jepang (Tokyo), Singapura, Malaysia (Kuala Lumpur), Indonesia (Jakarta), Jerman (Frankfurt), Inggris (London), AS (Silicon Valley), dan AS (Virginia).
Izin:
Operator
Izin yang diperlukan
Akun Alibaba Cloud
Tidak diperlukan izin tambahan.
Pengguna RAM/Peral RAM Akun Alibaba Cloud
Hanya anggota ruang kerja dengan peran O&M dan administrator ruang atau izin
AliyunDataWorksFullAccessyang dapat membuat sumber daya komputasi. Untuk informasi selengkapnya, lihat Grant space administrator permissions to a user.
Perhatian
DataWorks mendukung versi-versi berikut dari kluster EMR Hadoop (data lake lama):
EMR-3.38.2,EMR-3.38.3,EMR-4.9.0,EMR-5.6.0,EMR-3.26.3,EMR-3.27.2,EMR-3.29.0,EMR-3.32.0,EMR-3.35.0,EMR-4.3.0,EMR-4.4.1,EMR-4.5.0,EMR-4.5.1,EMR-4.6.0,EMR-4.8.0,EMR-5.2.1, danEMR-5.4.3.Kluster Hadoop (data lake lama) sudah tidak digunakan lagi. Kami menyarankan agar Anda segera melakukan migrasi ke kluster DataLake. Untuk informasi selengkapnya, lihat Migrate Hadoop clusters to DataLake clusters.
Buka halaman daftar sumber daya komputasi
Masuk ke konsol DataWorks. Beralihlah ke wilayah tujuan. Di panel navigasi sebelah kiri, pilih . Dari daftar drop-down, pilih ruang kerja Anda dan klik Go To Management Center.
Di panel navigasi sebelah kiri, klik Computing Resources.
Menyambungkan sumber daya komputasi EMR
Di halaman Compute Resources, lakukan langkah-langkah berikut untuk menyambungkan sumber daya komputasi EMR.
Pilih jenis sumber daya komputasi.
Klik Attach Compute Resource untuk menuju ke halaman Attach Compute Resource.
Di halaman Attach Compute Resource, tetapkan jenis sumber daya komputasi menjadi EMR. Anda kemudian akan diarahkan ke halaman konfigurasi Attach EMR Compute Resource.
Konfigurasikan sumber daya komputasi EMR.
Di halaman Attach EMR Compute Resource, konfigurasikan parameter sesuai dengan tabel berikut.
Parameter
Deskripsi
Alibaba Cloud Account Of The Cluster
Anda dapat memilih This Alibaba Cloud Account atau Other Alibaba Cloud Account.
CatatanSaat Anda memilih Other Alibaba Cloud Account, Anda dapat mengikuti petunjuk di Scenario: Register a cross-account EMR cluster untuk memberikan izin yang diperlukan. Kemudian, masukkan parameter sesuai petunjuk pada antarmuka.
Cluster Type
Pilih jenis kluster sesuai kebutuhan.
CatatanJenis kluster yang didukung:
Cluster
Pilih kluster EMR yang ingin Anda gunakan.
Default Access Identity
Lingkungan pengembangan: Anda dapat menggunakan akun kluster
hadoopatau akun kluster yang dipetakan ke pelaksana tugas.Lingkungan produksi: Anda dapat menggunakan akun kluster
hadoopatau akun kluster yang dipetakan ke pemilik tugas, akun Alibaba Cloud, atau Pengguna RAM.CatatanSaat Anda memilih akun kluster yang dipetakan ke pemilik tugas, akun Alibaba Cloud, atau Pengguna RAM sebagai identitas akses default, Anda dapat merujuk ke Set cluster identity mapping untuk mengonfigurasi secara manual pemetaan antara anggota penyewa DataWorks dan akun kluster EMR tertentu. Jika Anda menjalankan tugas EMR di DataWorks tanpa mengonfigurasi pemetaan ini, DataWorks akan menangani situasi tersebut sebagai berikut:
Jika Pengguna RAM menjalankan tugas: Tugas dijalankan secara default oleh akun sistem kluster EMR yang memiliki nama sama dengan operator saat ini. Jika kluster mengaktifkan otentikasi LDAP atau Kerberos, tugas gagal.
Jika akun Alibaba Cloud menjalankan tugas: Eksekusi tugas DataWorks gagal.
Pass Proxy User Information
Menentukan apakah informasi pengguna proxy akan dilewatkan.
CatatanSaat metode autentikasi seperti LDAP atau Kerberos diaktifkan, kluster menerbitkan kredensial kepada setiap pengguna biasa. Untuk menyederhanakan pengelolaan izin, Anda dapat meminta superuser (pengguna asli) untuk mewakili pengguna biasa (pengguna proxy) dalam proses autentikasi. Saat pengguna proxy mengakses kluster, identitas superuser digunakan untuk autentikasi. Anda hanya perlu menambahkan pengguna tersebut sebagai pengguna proxy.
Pass: Saat tugas dijalankan di kluster EMR, izin akses data diverifikasi dan dikendalikan berdasarkan pengguna proxy.
DataStudio dan DataAnalysis: Nama akun Alibaba Cloud dari pelaksana tugas dilewatkan secara dinamis sebagai informasi pengguna proxy.
Operation Center: Nama akun Alibaba Cloud dari identitas akses default yang dikonfigurasi saat pendaftaran kluster dilewatkan sebagai informasi pengguna proxy.
Do not pass: Saat tugas dijalankan di kluster EMR, izin akses data diverifikasi dan dikendalikan berdasarkan metode verifikasi identitas yang dikonfigurasi saat pendaftaran kluster.
Informasi pengguna proxy dilewatkan secara berbeda untuk berbagai jenis tugas EMR:
Tugas EMR Kyuubi: Dilewatkan melalui item konfigurasi
hive.server2.proxy.user.Tugas EMR Spark dan tugas EMR Spark SQL non-Java Database Connectivity (JDBC): Dilewatkan melalui item konfigurasi
-proxy-user.
Configuration File
Saat Anda memilih HADOOP sebagai jenis kluster, Anda dapat membuka konsol EMR untuk mendapatkan file konfigurasi. Untuk informasi selengkapnya, lihat Export and import service configurations. Setelah Anda mengekspor file konfigurasi layanan, ubah nama file tersebut sesuai persyaratan unggah file GUI.
Anda juga dapat masuk ke kluster EMR untuk mendapatkan file konfigurasi terkait dari jalur-jalur berikut.
/etc/ecm/hadoop-conf/core-site.xml /etc/ecm/hadoop-conf/hdfs-site.xml /etc/ecm/hadoop-conf/mapred-site.xml /etc/ecm/hadoop-conf/yarn-site.xml /etc/ecm/hive-conf/hive-site.xml /etc/ecm/spark-conf/spark-defaults.conf /etc/ecm/spark-conf/spark-env.shCompute Resource Instance Name
Nama kustom untuk instans sumber daya komputasi. Anda dapat memilih sumber daya komputasi untuk menjalankan tugas berdasarkan nama ini.
Klik Confirm untuk menyelesaikan konfigurasi.
Inisialisasi kelompok sumber daya
Anda harus menginisialisasi kelompok sumber daya saat mendaftarkan kluster untuk pertama kalinya, mengubah konfigurasi layanan kluster, atau meningkatkan versi komponen, misalnya dengan memodifikasi file core-site.xml. Hal ini memastikan bahwa kelompok sumber daya dapat terhubung ke kluster EMR setelah Anda mengonfigurasi konektivitas jaringan.
Di halaman Compute Resources, temukan sumber daya komputasi EMR yang telah Anda sambungkan dan klik Initialize Resource Group di pojok kanan atas.
Temukan kelompok sumber daya yang ingin Anda inisialisasi dan klik Initialize. Setelah kelompok sumber daya diinisialisasi, klik OK.
(Opsional) Konfigurasi antrian sumber daya YARN
Anda dapat membuka halaman Computing Resources untuk menemukan kluster EMR yang telah Anda sambungkan. Di tab YARN Resource Queue, klik Edit YARN Resource Queue untuk menyetel antrian sumber daya YARN global untuk tugas-tugas di berbagai modul.
(Opsional) Menyetel parameter SPARK
Menyetel parameter properti SPARK tertentu untuk tugas-tugas di berbagai modul.
Di halaman Compute Resources, temukan kluster EMR yang telah Anda sambungkan.
Di tab SPARK Parameters, klik Edit SPARK Parameters untuk menuju ke halaman pengeditan parameter SPARK kluster EMR.
Dengan mengklik tombol Add di bawah suatu modul dan memasukkan Spark Property Name beserta Spark Property Value yang sesuai, Anda dapat menyetel parameter Spark global untuk tugas tersebut.
Langkah selanjutnya
Configure Kyuubi connection information: Untuk menggunakan akun dan kata sandi kustom saat masuk ke Kyuubi dan menjalankan tugas terkait, lihat dokumen ini untuk petunjuk cara menyesuaikan informasi koneksi Kyuubi.
Setelah mengonfigurasi sumber daya komputasi EMR, Anda dapat melakukan pengembangan data di Data Development menggunakan node-node terkait EMR.