Daftarkan kluster EMR di DataWorks - DataWorks - Alibaba Cloud Documentation Center

DataWorks memungkinkan Anda membuat node seperti Hive, MapReduce (MR), Presto, dan Spark SQL pada kluster E-MapReduce (EMR) untuk mengonfigurasi alur kerja tugas, menjadwalkan pekerjaan, dan mengelola metadata. Topik ini menjelaskan cara mendaftarkan kluster EMR yang dimiliki oleh Akun Alibaba Cloud yang sama atau berbeda.

Latar Belakang

Platform pengembangan data besar open source E-MapReduce (EMR) adalah solusi pemrosesan data besar yang berjalan di platform Alibaba Cloud.

Dibangun di atas Apache Hadoop dan Apache Spark open source, EMR memungkinkan Anda menggunakan sistem lain dalam ekosistemnya untuk menganalisis dan memproses data. EMR juga dapat mentransfer data ke dan dari layanan Alibaba Cloud lainnya, seperti Object Storage Service (OSS) dan RDS. Alibaba Cloud EMR tersedia dalam berbagai bentuk, termasuk di ECS, di ACK, dan serverless, untuk memenuhi kebutuhan pengguna yang berbeda.

Saat menjalankan tugas EMR di DataWorks, Anda dapat memilih berbagai komponen EMR. Konfigurasi optimal bervariasi tergantung pada komponennya. Saat mengonfigurasi kluster EMR, rujuk rekomendasi konfigurasi kluster EMR dan pilih salah satu sesuai kebutuhan aktual Anda.

Jenis kluster yang didukung

Sebelum dapat menjalankan tugas terkait, Anda harus membuat dan mendaftarkan kluster EMR ke DataWorks. DataWorks mendukung pendaftaran jenis kluster berikut: Kluster DataLake (data lake baru): EMR on ECS, Kluster kustom: EMR on ECS, Kluster Hadoop (data lake lama): EMR on ECS, Kluster Spark: EMR on ACK, dan kluster EMR Serverless Spark.

Penting

Versi EMR berikut untuk kluster Hadoop (data lake lama) didukung di DataWorks:

EMR-3.38.2, EMR-3.38.3, EMR-4.9.0, EMR-5.6.0, EMR-3.26.3, EMR-3.27.2, EMR-3.29.0, EMR-3.32.0, EMR-3.35.0, EMR-4.3.0, EMR-4.4.1, EMR-4.5.0, EMR-4.5.1, EMR-4.6.0, EMR-4.8.0, EMR-5.2.1, EMR-5.4.3
Kluster Hadoop (data lake lama) tidak lagi direkomendasikan. Kami menyarankan agar Anda segera memigrasikan kluster Hadoop ke kluster DataLake. Untuk informasi selengkapnya, lihat Migrasikan kluster Hadoop ke kluster DataLake.

Catatan

Jika jenis kluster yang Anda gunakan tidak dapat didaftarkan ke DataWorks, ajukan tiket untuk menghubungi dukungan teknis.

Batasan

Izin: Hanya Pengguna RAM atau Peran RAM dengan identitas berikut yang dapat mendaftarkan kluster EMR. Untuk memberikan izin ini, lihat Berikan izin kepada Pengguna RAM.
- Akun Alibaba Cloud.
- Pengguna RAM atau Peran RAM dengan role Workspace Administrator DataWorks dan kebijakan AliyunEMRFullAccess.
- Pengguna RAM atau Peran RAM dengan kebijakan AliyunDataWorksFullAccess dan AliyunEMRFullAccess.
Wilayah: EMR Serverless Spark hanya tersedia di Tiongkok (Hangzhou), Tiongkok (Shanghai), Tiongkok (Beijing), Tiongkok (Shenzhen), Tiongkok (Chengdu), Tiongkok (Hong Kong), Jepang (Tokyo), Singapura, Indonesia (Jakarta), Jerman (Frankfurt), dan AS (Virginia).
Jenis tugas: DataWorks tidak mendukung tugas EMR Flink.
Eksekusi tugas: DataWorks mendukung menjalankan tugas EMR dengan menggunakan grup sumber daya serverless (direkomendasikan) atau grup sumber daya eksklusif legacy untuk penjadwalan.
Tata kelola data:
- Hanya tugas SQL pada node EMR Hive, EMR Spark, dan EMR Spark SQL yang mendukung pembuatan alur data. Untuk kluster versi 5.9.1 atau 3.43.1 atau lebih baru, node-node ini mendukung alur data tingkat tabel maupun tingkat kolom.
  
  Catatan
  Untuk node Spark, alur data tingkat tabel dan tingkat kolom didukung pada kluster EMR versi 5.8.0 atau 3.42.0 atau lebih baru. Pada versi sebelumnya, hanya Spark 2.x yang mendukung alur data tingkat tabel.
- Untuk mengelola metadata kluster DataLake atau kluster kustom di DataWorks, Anda harus terlebih dahulu mengonfigurasi EMR-HOOK pada kluster tersebut. Jika EMR-HOOK tidak dikonfigurasi, DataWorks tidak dapat menampilkan metadata secara real time, menghasilkan log audit, atau menampilkan alur data. Saat ini, EMR-HOOK hanya didukung untuk layanan EMR Hive dan EMR Spark SQL. Untuk informasi selengkapnya, lihat Konfigurasi EMR-HOOK untuk Hive dan Konfigurasi EMR-HOOK untuk Spark SQL.
Untuk kluster EMR yang mengaktifkan otentikasi Kerberos, Anda harus menambahkan aturan inbound ke security group untuk mengizinkan akses UDP dari Blok CIDR vSwitch yang terkait dengan grup sumber daya.

Catatan
Klik ikon untuk Cluster Security Group pada tab Basic information kluster EMR. Tindakan ini akan membawa Anda ke halaman Security Group Details. Pada tab Access Rules, klik Inbound, lalu klik Added Manually. Atur Protocol Type ke Custom UDP. Untuk Port Range, masukkan port KDC yang ditentukan dalam file /etc/krb5.conf kluster EMR. Atur Authorized object ke Blok CIDR vSwitch yang terkait dengan grup sumber daya.

Catatan penggunaan

Untuk mengisolasi lingkungan pengembangan dan produksi ruang kerja DataWorks dalam mode standar, Anda harus mendaftarkan dua kluster EMR terpisah: satu untuk lingkungan pengembangan dan satu untuk lingkungan produksi. Metadata kluster-kluster ini harus disimpan dengan salah satu metode berikut:
- Metode 1 (direkomendasikan untuk solusi data lake): Simpan metadata di dua katalog berbeda di Data Lake Formation (DLF). Untuk informasi selengkapnya, lihat Ganti tipe penyimpanan metadata.
- Metode 2: Simpan metadata di dua database berbeda di RDS. Untuk informasi selengkapnya, lihat Konfigurasi instans RDS yang dikelola sendiri.
Kluster EMR dapat didaftarkan ke beberapa ruang kerja dalam Akun Alibaba Cloud yang sama, tetapi tidak lintas akun berbeda.
Untuk memastikan grup sumber daya DataWorks dapat mengakses kluster EMR, jika grup sumber daya masih tidak dapat terhubung setelah Anda mengikatnya ke VPC dan vSwitch yang sama dengan kluster EMR, periksa aturan security group kluster tersebut. Tambahkan aturan inbound untuk Blok CIDR vSwitch dan port komponen open source umum. Untuk informasi selengkapnya, lihat Kelola security group kluster EMR.

Langkah 1: Buka halaman pendaftaran kluster

Login ke Konsol DataWorks. Di wilayah target, klik More > Management Center di panel navigasi kiri. Pilih ruang kerja dari daftar drop-down dan klik Go to Management Center.
Di panel navigasi kiri, klik Clusters untuk membuka halaman Clusters. Klik Register Cluster dan atur Select Cluster Type ke E-MapReduce. Halaman Register EMR Cluster akan muncul.

Langkah 2: Daftarkan kluster EMR

Pada halaman Register EMR Cluster, konfigurasikan informasi kluster.

Catatan

Untuk ruang kerja dalam mode standar, Anda harus mengonfigurasi informasi kluster secara terpisah untuk lingkungan pengembangan dan produksi. Untuk informasi selengkapnya tentang mode ruang kerja, lihat Perbedaan antara mode ruang kerja.

Display Name of Cluster: Masukkan nama tampilan unik untuk kluster tersebut.
Alibaba Cloud Account To Which Cluster Belongs: Pilih akun pemilik kluster EMR.

Catatan
Kluster EMR Serverless Spark tidak dapat didaftarkan lintas akun.

Konfigurasikan parameter berdasarkan jenis akun yang dipilih.

Akun saat ini

Jika kluster dimiliki oleh Current Alibaba Cloud Account, Anda harus mengonfigurasi parameter berikut:

Parameter	Deskripsi
Cluster Type	Pilih jenis kluster EMR yang akan didaftarkan. Untuk daftar jenis kluster yang didukung, lihat Batasan.
Cluster	Pilih kluster EMR dalam akun saat ini yang ingin Anda daftarkan ke DataWorks. Catatan Jika Anda memilih EMR Serverless Spark, Anda harus mengikuti petunjuk di layar dan merujuk deskripsi untuk memilih Workspace Created in EMR Serverless Spark (kluster yang akan didaftarkan), versi engine default, dan antrian sumber daya default.
Default Access Identity	Tentukan identitas yang digunakan untuk mengakses kluster EMR di ruang kerja saat ini. Lingkungan pengembangan: Anda dapat menggunakan akun kluster `hadoop` atau akun kluster yang dipetakan ke pelaksana tugas. Lingkungan produksi: Anda dapat menggunakan akun kluster `hadoop` atau akun kluster yang dipetakan ke pemilik tugas, Akun Alibaba Cloud, atau Pengguna RAM. Catatan Jika Anda memilih identitas yang dipetakan ke akun kluster (seperti pemilik tugas, Akun Alibaba Cloud, atau Pengguna RAM), Anda dapat mengonfigurasi secara manual pemetaan antara anggota DataWorks dan akun kluster EMR tertentu. Untuk informasi selengkapnya, lihat Konfigurasi pemetaan identitas kluster. Jika identitas akses yang memerlukan pemetaan digunakan untuk menjalankan tugas EMR di DataWorks tetapi tidak ada pemetaan spesifik yang dikonfigurasi, DataWorks menerapkan kebijakan berikut: Jika Pengguna RAM menjalankan tugas, DataWorks menjalankan tugas menggunakan akun sistem EMR yang memiliki nama sama dengan operator saat ini secara default. Jika kluster mengaktifkan otentikasi LDAP atau Kerberos, tugas gagal. Jika Akun Alibaba Cloud menjalankan tugas, tugas DataWorks melaporkan error.
Pass Proxy User Information	Tentukan apakah akan meneruskan informasi pengguna proxy. Catatan Saat metode otentikasi seperti LDAP atau Kerberos diaktifkan, kluster mengeluarkan kredensial untuk setiap pengguna. Untuk memusatkan pengelolaan izin, Anda dapat menggunakan superuser (pengguna asli) sebagai proxy untuk pengguna biasa (pengguna proxy) dalam otentikasi. Saat pengguna proxy mengakses kluster, kredensial identitas superuser digunakan. Anda hanya perlu menambahkan pengguna sebagai pengguna proxy. Pass: Saat tugas dijalankan di kluster EMR, izin akses data diverifikasi dan dikontrol berdasarkan pengguna proxy. Data Studio dan Data Analysis: Nama Akun Alibaba Cloud pelaksana tugas diteruskan secara dinamis sebagai informasi pengguna proxy. Operation Center: Nama Akun Alibaba Cloud identitas akses default yang dikonfigurasi saat pendaftaran kluster diteruskan sebagai informasi pengguna proxy. Do not pass: Saat tugas dijalankan di kluster EMR, izin akses data diverifikasi dan dikontrol berdasarkan metode otentikasi yang dikonfigurasi saat pendaftaran kluster. Informasi pengguna proxy diteruskan dengan cara berikut untuk jenis tugas EMR yang berbeda: Tugas EMR Kyuubi: diteruskan menggunakan parameter `hive.server2.proxy.user`. Tugas EMR Spark dan tugas EMR Spark SQL dalam mode non-JDBC: diteruskan menggunakan parameter `-proxy-user`.
Configuration File	Jika Anda memilih HADOOP untuk Cluster Type, Anda dapat memperoleh file konfigurasi dari Konsol EMR. Untuk informasi selengkapnya, lihat Ekspor dan impor konfigurasi layanan. Setelah mengekspor file, ubah namanya sesuai kebutuhan di UI. Pada tab Basic Information halaman detail kluster, klik All Operations di pojok kanan atas. Di bagian Cluster Services menu drop-down, pilih Export Service Configuration. Anda juga dapat login ke kluster EMR dan memperoleh file konfigurasi dari path berikut: `/etc/ecm/hadoop-conf/core-site.xml /etc/ecm/hadoop-conf/hdfs-site.xml /etc/ecm/hadoop-conf/mapred-site.xml /etc/ecm/hadoop-conf/yarn-site.xml /etc/ecm/hive-conf/hive-site.xml /etc/ecm/spark-conf/spark-defaults.conf /etc/ecm/spark-conf/spark-env.sh`

Akun lain

Jika kluster dimiliki oleh Another Alibaba Cloud Account, Anda harus mengonfigurasi parameter berikut:

Parameter	Deskripsi
UID of Alibaba Cloud Account	Masukkan UID Akun Alibaba Cloud pemilik kluster EMR.
RAM Role	Peran RAM yang digunakan untuk mengakses kluster EMR. Peran tersebut harus memenuhi persyaratan berikut: Peran RAM dibuat di akun Alibaba Cloud lain tersebut. Peran RAM di akun Alibaba Cloud lain tersebut diberikan izin untuk mengakses layanan DataWorks di akun saat ini. Catatan Untuk informasi selengkapnya tentang cara mendaftarkan kluster EMR yang dimiliki akun berbeda, lihat Skenario: Daftarkan kluster EMR yang dimiliki akun berbeda.
EMR Cluster Type	Pilih jenis kluster EMR yang akan didaftarkan. Untuk pendaftaran lintas akun, hanya `EMR on ECS: DataLake cluster`, `EMR on ECS: Hadoop cluster`, dan `EMR on ECS: Custom cluster` yang didukung.
EMR Cluster	Pilih kluster EMR di akun tersebut yang ingin Anda daftarkan ke DataWorks.
Configuration File	Konfigurasikan setiap file konfigurasi sesuai petunjuk di UI. Untuk detail cara memperoleh file konfigurasi, lihat Ekspor dan impor konfigurasi layanan. Setelah mengekspor file, ubah namanya sesuai kebutuhan di UI. Pada tab Basic Information halaman detail kluster, klik All Operations di pojok kanan atas. Di bagian Cluster Services menu drop-down, pilih Export Service Configuration. Anda juga dapat login ke kluster EMR dan memperoleh file konfigurasi dari path berikut: `/etc/ecm/hadoop-conf/core-site.xml /etc/ecm/hadoop-conf/hdfs-site.xml /etc/ecm/hadoop-conf/mapred-site.xml /etc/ecm/hadoop-conf/yarn-site.xml /etc/ecm/hive-conf/hive-site.xml /etc/ecm/spark-conf/spark-defaults.conf /etc/ecm/spark-conf/spark-env.sh`
Default Access Identity	Tentukan identitas yang digunakan untuk mengakses kluster EMR di ruang kerja saat ini. Lingkungan pengembangan: Anda dapat menggunakan akun kluster hadoop atau akun kluster yang dipetakan ke pemilik tugas. Lingkungan produksi: Anda dapat menggunakan akun kluster hadoop atau akun kluster yang dipetakan ke pemilik tugas, Akun Alibaba Cloud, atau Pengguna RAM. Catatan Jika Anda memilih identitas yang dipetakan ke akun kluster (seperti pemilik tugas, Akun Alibaba Cloud, atau Pengguna RAM), Anda dapat mengonfigurasi secara manual pemetaan antara anggota DataWorks dan akun kluster EMR tertentu. Untuk informasi selengkapnya, lihat Konfigurasi pemetaan identitas kluster. Jika identitas akses yang memerlukan pemetaan digunakan untuk menjalankan tugas EMR di DataWorks tetapi tidak ada pemetaan spesifik yang dikonfigurasi, DataWorks menerapkan kebijakan berikut: Jika Pengguna RAM menjalankan tugas, DataWorks menjalankan tugas menggunakan akun sistem EMR yang memiliki nama sama dengan operator saat ini secara default. Jika kluster mengaktifkan otentikasi LDAP atau Kerberos, tugas gagal. Jika Akun Alibaba Cloud menjalankan tugas, tugas DataWorks melaporkan error.
Pass Proxy User Information	Tentukan apakah akan meneruskan informasi pengguna proxy. Catatan Saat metode otentikasi seperti LDAP atau Kerberos diaktifkan, kluster mengeluarkan kredensial untuk setiap pengguna. Untuk memusatkan pengelolaan izin, Anda dapat menggunakan superuser (pengguna asli) sebagai proxy untuk pengguna biasa (pengguna proxy) dalam otentikasi. Saat pengguna proxy mengakses kluster, kredensial identitas superuser digunakan. Anda hanya perlu menambahkan pengguna sebagai pengguna proxy. Pass: Saat tugas dijalankan di kluster EMR, izin akses data diverifikasi dan dikontrol berdasarkan pengguna proxy. Data Studio dan Data Analysis: Nama Akun Alibaba Cloud pelaksana tugas diteruskan secara dinamis sebagai informasi pengguna proxy. Operation Center: Nama Akun Alibaba Cloud identitas akses default yang dikonfigurasi saat pendaftaran kluster diteruskan sebagai informasi pengguna proxy. Do not pass: Saat tugas dijalankan di kluster EMR, izin akses data diverifikasi dan dikontrol berdasarkan metode otentikasi yang dikonfigurasi saat pendaftaran kluster. Informasi pengguna proxy diteruskan dengan cara berikut untuk jenis tugas EMR yang berbeda: Tugas EMR Kyuubi: diteruskan menggunakan parameter `hive.server2.proxy.user`. Tugas EMR Spark dan tugas EMR Spark SQL dalam mode non-JDBC: diteruskan menggunakan parameter `-proxy-user`.

Langkah 3: Inisialisasi grup sumber daya

Anda harus menginisialisasi grup sumber daya setelah mendaftarkan kluster untuk pertama kali, mengubah konfigurasi layanan kluster, atau meningkatkan versi komponen (misalnya, dengan memodifikasi core-site.xml). Hal ini memastikan grup sumber daya dapat mengakses EMR dan tugas EMR dapat berjalan dengan konfigurasi lingkungan saat ini.

Pada halaman Open Source Clusters, pilih tab untuk kluster EMR yang telah didaftarkan dan klik Initialize Resource Group.
Temukan grup sumber daya yang diperlukan dan klik Initialize di kolom Actions.

Anda dapat menginisialisasi grup sumber daya serverless atau grup sumber daya eksklusif legacy untuk penjadwalan.
Tunggu 1 hingga 2 menit hingga inisialisasi selesai, lalu klik OK.

Penting

Jika inisialisasi gagal, gunakan tool diagnosis konektivitas untuk memecahkan masalah.
Inisialisasi dapat menyebabkan tugas yang sedang berjalan gagal. Kecuali jika re-inisialisasi segera diperlukan, misalnya untuk mencegah kegagalan tugas secara luas setelah perubahan konfigurasi, kami menyarankan menginisialisasi grup sumber daya pada jam sepi.

Langkah selanjutnya

Pengembangan data: Ikuti panduan alur kerja pengembangan data untuk mengonfigurasi lingkungan komponen.
Konfigurasi pemetaan identitas kluster: Jika identitas akses default untuk kluster EMR bukan akun hadoop, Anda harus mengonfigurasi pemetaan identitas untuk mengontrol sumber daya mana yang dapat diakses Pengguna RAM di DataWorks demi pengelolaan izin.
Atur antrian sumber daya YARN global: Gunakan pemetaan antrian sumber daya YARN untuk menentukan antrian YARN mana yang digunakan setiap modul. Anda juga dapat mengonfigurasi pengaturan ini untuk mengganti konfigurasi modul individual.
Atur parameter Spark global: Sesuaikan parameter Spark global berdasarkan dokumentasi resmi Spark. Anda juga dapat menentukan apakah pengaturan tingkat ruang kerja mengganti konfigurasi spesifik modul untuk parameter dengan nama yang sama.
Atur informasi koneksi Kyuubi: Untuk menggunakan akun dan password kustom untuk tugas Kyuubi, sesuaikan informasi koneksi seperti yang dijelaskan dalam topik ini.