DataWorks memungkinkan Anda membuat node seperti Hive, MapReduce (MR), Presto, dan Spark SQL berdasarkan kluster E-MapReduce (EMR), sehingga Anda dapat mengonfigurasi alur kerja tugas EMR, menjadwalkannya secara berkala, serta mengelola metadatanya. Topik ini menjelaskan cara mendaftarkan kluster EMR yang dimiliki oleh Akun Alibaba Cloud yang sama atau berbeda.
Informasi latar belakang
E-MapReduce (EMR) adalah solusi pemrosesan data besar yang berjalan di platform Alibaba Cloud.
EMR dibangun di atas Apache Hadoop dan Apache Spark open source, memungkinkan Anda menggunakan sistem lain dalam ekosistem Hadoop dan Spark untuk menganalisis serta memproses data. EMR juga dapat bertukar data dengan layanan penyimpanan dan database Alibaba Cloud lainnya, seperti Object Storage Service (OSS) dan Relational Database Service (RDS). Alibaba Cloud EMR menyediakan berbagai mode penyebaran untuk memenuhi kebutuhan pengguna yang beragam, termasuk penyebaran di ECS, ACK, dan Serverless.
Anda dapat memilih berbagai komponen EMR untuk menjalankan tugas EMR di DataWorks. Konfigurasi optimal bervariasi tergantung pada komponennya. Saat mengonfigurasi kluster EMR, lihat Rekomendasi konfigurasi kluster EMR untuk memilih konfigurasi yang sesuai.
Jenis kluster yang didukung
Batasan
Batasan izin: Hanya Pengguna RAM atau Peran RAM berikut yang dapat mendaftarkan kluster EMR. Untuk informasi selengkapnya, lihat Memberikan izin kepada Pengguna RAM.
Akun Alibaba Cloud.
Pengguna RAM atau Peran RAM yang memiliki peran
Administrator Ruang KerjaDataWorks dan kebijakanAliyunEMRFullAccess.Pengguna RAM atau Peran RAM yang memiliki kebijakan
AliyunDataWorksFullAccessdanAliyunEMRFullAccess.
Batasan wilayah: EMR Serverless Spark hanya tersedia di Tiongkok (Hangzhou), Tiongkok (Shanghai), Tiongkok (Beijing), Tiongkok (Shenzhen), Tiongkok (Chengdu), Tiongkok (Hong Kong), Jepang (Tokyo), Singapura, Indonesia (Jakarta), Jerman (Frankfurt), dan AS (Virginia).
Jenis tugas: DataWorks tidak mendukung menjalankan tugas EMR Flink.
Eksekusi tugas: DataWorks mendukung menjalankan tugas EMR menggunakan kelompok sumber daya arsitektur tanpa server (direkomendasikan) atau kelompok sumber daya eksklusif untuk penjadwalan (versi lama).
Tata kelola tugas:
Hanya tugas SQL pada node EMR Hive, EMR Spark, dan EMR Spark SQL yang mendukung pembuatan alur data. Jika versi kluster adalah 5.9.1, 3.43.1, atau lebih baru, semua node ini mendukung melihat alur data tingkat tabel dan tingkat bidang.
CatatanUntuk node tipe Spark, jika versi kluster EMR adalah 5.8.0, 3.42.0, atau lebih baru, node tersebut mendukung melihat alur data tingkat tabel dan tingkat bidang. Jika versi kluster EMR lebih lama dari 5.8.0 atau 3.42.0, hanya Spark 2.x yang mendukung melihat alur data tingkat tabel.
Untuk mengelola metadata kluster DataLake atau kluster kustom di DataWorks, Anda harus terlebih dahulu mengonfigurasi EMR-HOOK pada kluster tersebut. Jika EMR-HOOK tidak dikonfigurasi, metadata tidak dapat ditampilkan secara real time, log audit tidak dapat dihasilkan, dan alur data tidak dapat ditampilkan di DataWorks. Dalam kasus ini, tugas tata kelola terkait EMR tidak dapat dilakukan. Saat ini, EMR-HOOK hanya dapat dikonfigurasi untuk layanan EMR Hive dan EMR Spark SQL. Untuk informasi selengkapnya, lihat Konfigurasi EMR-HOOK untuk Hive dan Konfigurasi E-HOOK untuk Spark SQL.
Untuk kluster EMR yang mengaktifkan otentikasi Kerberos, Anda harus menambahkan aturan masuk ke grup keamanan untuk mengizinkan akses pada port UDP dari blok CIDR vSwitch yang disambungkan ke kelompok sumber daya.
CatatanPada tab Basic Information kluster EMR, klik ikon
untuk Cluster Security Group guna membuka tab Security Group Details. Pada tab Security Group Details, klik Inbound di bagian Access Rule dan pilih Manually Add. Atur Protocol Type menjadi Custom UDP. Untuk Port Range, periksa file /etc/krb5.confdi kluster EMR untuk mengetahui port KDC yang sesuai. Atur Authorization Object ke blok CIDR vSwitch yang disambungkan ke kelompok sumber daya.
Perhatian
Untuk mengisolasi lingkungan pengembangan dan produksi di ruang kerja mode standar, Anda harus mendaftarkan dua kluster EMR yang berbeda. Metadata untuk kedua kluster ini harus disimpan menggunakan salah satu metode berikut:
Metode 1 (direkomendasikan untuk solusi data lake): Simpan metadata di dua katalog data berbeda di Data Lake Formation (DLF). Untuk informasi selengkapnya, lihat Ganti tipe metastore.
Metode 2: Simpan metadata di dua database berbeda di Relational Database Service (RDS). Untuk informasi selengkapnya, lihat Konfigurasi database RDS yang dikelola sendiri.
Kluster EMR dapat didaftarkan ke beberapa ruang kerja dalam Akun Alibaba Cloud yang sama tetapi tidak dapat didaftarkan ke ruang kerja yang dimiliki oleh Akun Alibaba Cloud yang berbeda.
Untuk memastikan bahwa kelompok sumber daya DataWorks dapat mengakses kluster EMR, periksa aturan grup keamanan kluster EMR jika koneksi gagal. Hal ini dapat terjadi bahkan jika kelompok sumber daya dan kluster berada dalam virtual private cloud (VPC) yang sama dan menggunakan vSwitch yang sama. Tambahkan aturan masuk untuk blok CIDR vSwitch yang sesuai dan port komponen open source umum. Untuk informasi selengkapnya, lihat Kelola grup keamanan kluster EMR.
Langkah 1: Buka halaman kluster EMR
Buka halaman SettingCenter.
Login ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi kiri, pilih . Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Management Center.
Di panel navigasi kiri, klik Cluster Management. Pada halaman Cluster Management, klik Register Cluster. Pilih E-MapReduce untuk Cluster Type To Register. Halaman Register E-MapReduce Cluster akan muncul.
Langkah 2: Daftarkan kluster EMR
Pada halaman Register E-MapReduce Cluster, konfigurasikan informasi kluster.
Untuk ruang kerja mode standar, Anda harus mengonfigurasi informasi kluster untuk lingkungan pengembangan dan produksi secara terpisah. Untuk informasi selengkapnya tentang mode ruang kerja, lihat Perbedaan antara mode ruang kerja.
Nama Tampilan Kluster: Nama tampilan kluster di DataWorks. Nama harus unik.
Akun Alibaba Cloud Pemilik Kluster: Pilih akun yang memiliki kluster EMR yang ingin Anda daftarkan ke ruang kerja saat ini.
CatatanAnda tidak dapat mendaftarkan kluster EMR Serverless Spark lintas Akun Alibaba Cloud.
Konfigurasikan parameter berdasarkan jenis akun yang dipilih.
Akun Alibaba Cloud Pemilik Kluster: Akun Alibaba Cloud Saat Ini
Jika Anda memilih Current Alibaba Cloud Account untuk Akun Alibaba Cloud Pemilik Kluster, konfigurasikan parameter berikut:
Parameter | Deskripsi |
Cluster Type | Pilih jenis kluster EMR yang akan didaftarkan. Untuk jenis kluster yang dapat didaftarkan di DataWorks, lihat Batasan. |
Cluster | Pilih kluster EMR di bawah akun saat ini untuk didaftarkan ke DataWorks. Catatan Jika Anda memilih EMR Serverless Spark sebagai jenis kluster, ikuti petunjuk pada UI untuk memilih E-MapReduce Workspace (kluster yang akan didaftarkan), versi mesin default, antrian sumber daya default, dan informasi lainnya. |
Default Access Identity | Menentukan identitas yang digunakan untuk mengakses kluster EMR di ruang kerja saat ini.
Catatan Jika Anda memilih opsi yang memetakan ke akun kluster, seperti pemilik tugas, Akun Alibaba Cloud, atau Pengguna RAM, Anda dapat mengonfigurasi pemetaan secara manual antara anggota penyewa DataWorks dan akun kluster EMR tertentu. Untuk informasi selengkapnya, lihat Konfigurasi pemetaan identitas kluster. Akun kluster yang dipetakan digunakan untuk menjalankan tugas EMR di DataWorks. Jika tidak ada pemetaan yang dikonfigurasi, DataWorks menggunakan kebijakan berikut:
|
Pass Proxy User Information | Menentukan apakah akan meneruskan informasi pengguna proxy. Catatan Saat metode autentikasi seperti LDAP atau Kerberos diaktifkan, kluster mengeluarkan kredensial autentikasi untuk setiap pengguna biasa. Untuk menyederhanakan pengelolaan izin, Anda dapat menggunakan superuser (pengguna asli) untuk mewakili pengguna biasa (pengguna proxy) dalam autentikasi izin. Dalam hal ini, saat mengakses kluster sebagai pengguna proxy, informasi autentikasi identitas superuser digunakan. Anda hanya perlu menambahkan pengguna sebagai pengguna proxy.
Metode yang digunakan untuk meneruskan informasi pengguna proxy bervariasi berdasarkan jenis tugas EMR:
|
Configuration Files | Jika Anda memilih HADOOP sebagai jenis kluster, Anda dapat membuka Konsol EMR untuk mendapatkan file konfigurasi. Untuk informasi selengkapnya, lihat Ekspor dan impor konfigurasi layanan. Setelah mengekspor, ubah nama file sesuai dengan persyaratan unggah pada UI.
Anda juga dapat login ke kluster EMR dan buka jalur berikut untuk mendapatkan file konfigurasi terkait. |
Akun Alibaba Cloud Pemilik Kluster: Akun Alibaba Cloud Lain
Jika Anda memilih Another Alibaba Cloud Account untuk Akun Alibaba Cloud Pemilik Kluster, konfigurasikan parameter berikut:
Parameter | Deskripsi |
Other Alibaba Cloud Account UID | UID Akun Alibaba Cloud yang memiliki kluster EMR. |
Other RAM Role | Peran RAM yang digunakan untuk mengakses kluster EMR. Peran ini harus memenuhi kondisi berikut:
Catatan Untuk informasi selengkapnya tentang mendaftarkan kluster EMR lintas akun, lihat Skenario: Mendaftarkan kluster EMR lintas akun. |
Other EMR Cluster Type | Pilih jenis kluster EMR yang akan didaftarkan. Saat ini, hanya |
Other EMR Cluster | Pilih kluster EMR dari akun lain untuk didaftarkan ke DataWorks. |
Configuration Files | Konfigurasikan file konfigurasi sesuai petunjuk pada UI. Untuk informasi selengkapnya tentang cara mendapatkan file konfigurasi, lihat Ekspor dan impor konfigurasi layanan. Setelah mengekspor, ubah nama file sesuai dengan persyaratan unggah pada UI.
Anda juga dapat login ke kluster EMR dan buka jalur berikut untuk mendapatkan file konfigurasi terkait. |
Default Access Identity | Menentukan identitas yang digunakan untuk mengakses kluster EMR di ruang kerja saat ini.
Catatan Jika Anda memilih opsi yang memetakan ke akun kluster, seperti pemilik tugas, Akun Alibaba Cloud, atau Pengguna RAM, Anda dapat mengonfigurasi pemetaan secara manual antara anggota penyewa DataWorks dan akun kluster EMR tertentu. Untuk informasi selengkapnya, lihat Konfigurasi pemetaan identitas kluster. Akun kluster yang dipetakan digunakan untuk menjalankan tugas EMR di DataWorks. Jika tidak ada pemetaan yang dikonfigurasi, DataWorks menggunakan kebijakan berikut:
|
Pass Proxy User Information | Menentukan apakah akan meneruskan informasi pengguna proxy. Catatan Saat metode autentikasi seperti LDAP atau Kerberos diaktifkan, kluster mengeluarkan kredensial autentikasi untuk setiap pengguna biasa. Untuk menyederhanakan pengelolaan izin, Anda dapat menggunakan superuser (pengguna asli) untuk mewakili pengguna biasa (pengguna proxy) dalam autentikasi izin. Dalam hal ini, saat mengakses kluster sebagai pengguna proxy, informasi autentikasi identitas superuser digunakan. Anda hanya perlu menambahkan pengguna sebagai pengguna proxy.
Metode yang digunakan untuk meneruskan informasi pengguna proxy bervariasi berdasarkan jenis tugas EMR:
|
Langkah 3: Inisialisasi kelompok sumber daya
Anda harus menginisialisasi kelompok sumber daya saat pertama kali mendaftarkan kluster, mengubah konfigurasi layanan kluster (misalnya, memodifikasi core-site.xml), atau meningkatkan versi komponen. Langkah ini memastikan bahwa kelompok sumber daya dapat mengakses EMR dan konfigurasi lingkungan saat ini dari kelompok sumber daya dapat menjalankan tugas EMR.
Pada halaman Open Source Cluster, temukan tab kluster EMR yang telah didaftarkan dan klik Initialize Resource Group di pojok kanan atas.
Temukan kelompok sumber daya yang diperlukan dan klik Inisialisasi.
Anda dapat menginisialisasi kelompok sumber daya arsitektur tanpa server atau kelompok sumber daya eksklusif untuk penjadwalan (versi lama).
Tunggu 1 hingga 2 menit hingga inisialisasi selesai, lalu klik OK.
Jika inisialisasi gagal, gunakan alat diagnosis konektivitas untuk membantu mengatasi penyebabnya.
Menginisialisasi kelompok sumber daya dapat menyebabkan tugas yang sedang berjalan gagal. Kecuali jika perlu menginisialisasi ulang kelompok sumber daya segera (misalnya, untuk mencegah banyak tugas gagal setelah konfigurasi kluster diubah), kami menyarankan agar Anda menginisialisasi kelompok sumber daya pada jam-jam non-sibuk.
Langkah selanjutnya
Pengembangan data: Rujuk ke Panduan proses pengembangan data untuk mengonfigurasi lingkungan komponen terkait.
Konfigurasi pemetaan identitas kluster: Jika identitas akses default untuk kluster EMR bukan akun hadoop, Anda harus mengonfigurasi pemetaan identitas kluster untuk mengontrol sumber daya yang dapat diakses oleh Pengguna RAM di DataWorks.
Atur antrian sumber daya YARN global: Gunakan pemetaan antrian sumber daya YARN untuk menentukan antrian YARN yang digunakan oleh setiap modul. Anda juga dapat menentukan apakah akan menimpa konfigurasi setiap modul.
Atur parameter Spark global: Rujuk ke dokumentasi resmi Spark untuk menyesuaikan parameter Spark global. Anda juga dapat menentukan apakah konfigurasi parameter Spark tingkat ruang kerja akan menimpa konfigurasi tingkat modul untuk parameter yang memiliki nama yang sama.
Atur informasi koneksi Kyuubi: Jika Anda ingin menggunakan akun dan kata sandi kustom untuk login ke Kyuubi dan menjalankan tugas, rujuk dokumen ini untuk menyesuaikan informasi koneksi Kyuubi.
