Hubungkan DataWorks ke kluster CDH atau CDP - DataWorks - Alibaba Cloud Documentation Center

DataWorks dapat terhubung ke kluster Cloudera’s Distribution Including Apache Hadoop (CDH) dan Cloudera Data Platform (CDP). Anda dapat mendaftarkan kluster CDH dan CDP di DataWorks untuk operasi pengembangan dan tata kelola data, seperti pengembangan task, penjadwalan, Data Map (manajemen metadata), dan Data Quality.

Informasi latar belakang

CDH adalah distribusi platform open-source dari Cloudera yang mencakup fitur siap pakai seperti manajemen kluster, pemantauan, dan diagnostik, serta mendukung berbagai komponen untuk menjalankan alur kerja data besar end-to-end.
CDP adalah platform data publik yang mengumpulkan dan mengkonsolidasikan data pelanggan dari berbagai platform serta mengumpulkan data real-time untuk membuat profil data pengguna individual.

Anda dapat mendaftarkan kluster CDH dan CDP di DataWorks untuk pengembangan task, penjadwalan, manajemen metadata di Data Map, dan pemeriksaan Kualitas Data.

Prasyarat

Untuk mendaftarkan kluster CDH atau CDP, Anda harus memiliki salah satu peran atau izin berikut di ruang kerja saat ini:
- Anda menggunakan Akun Alibaba Cloud.
- Anda adalah anggota ruang kerja dengan peran Workspace Administrator. Untuk informasi selengkapnya, lihat Tambahkan anggota ruang kerja dan kelola peran serta izin mereka.
- Anda adalah anggota ruang kerja dengan kebijakan AliyunDataWorksFullAccess. Untuk memberikan kebijakan ini, lihat Berikan izin kepada RAM user dan Berikan izin kepada RAM role. Untuk menambahkan anggota ke ruang kerja, lihat Tambahkan anggota ruang kerja dan kelola peran serta izin mereka.
Anda telah menerapkan kluster CDH atau CDP dan memperoleh informasi konfigurasi yang diperlukan untuk mendaftarkan kluster tersebut. Untuk informasi selengkapnya, lihat Persiapan: Peroleh informasi kluster CDH atau CDP dan konfigurasikan konektivitas jaringan.

Batasan

Anda hanya dapat menjalankan task kluster CDH atau CDP menggunakan grup sumber daya serverless baru (disarankan) atau grup sumber daya eksklusif legacy untuk penjadwalan.
Catatan
- Grup sumber daya serverless adalah grup sumber daya serbaguna yang dapat digunakan untuk berbagai skenario, seperti sinkronisasi data dan penjadwalan task. Untuk informasi selengkapnya tentang cara membeli grup sumber daya serverless, lihat Gunakan grup sumber daya serverless. Jika Anda telah membeli grup sumber daya eksklusif legacy untuk penjadwalan, Anda juga dapat menggunakannya untuk menjalankan task CDH atau CDP. Untuk informasi selengkapnya, lihat Gunakan grup sumber daya eksklusif untuk penjadwalan.
- Pengguna baru hanya dapat membeli grup sumber daya serverless baru.
- Jika Anda menggunakan kluster dengan Custom Version untuk mendaftar ke DataWorks, Anda hanya dapat menggunakan grup sumber daya eksklusif legacy untuk penjadwalan. Untuk informasi selengkapnya tentang versi kluster, lihat Langkah 2: Daftarkan kluster CDH atau CDP.
Anda hanya dapat mendaftarkan kluster CDH atau CDP di wilayah berikut: Tiongkok (Beijing), Tiongkok (Shanghai), Tiongkok (Hangzhou), Tiongkok (Shenzhen), Tiongkok (Zhangjiakou), Tiongkok (Chengdu), dan Jerman (Frankfurt).

Langkah 1: Buka halaman pendaftaran

Masuk ke Konsol DataWorks. Di wilayah target, klik More > Management Center di panel navigasi kiri. Pilih ruang kerja dari daftar drop-down dan klik Go to Management Center.
Di panel navigasi kiri, klik Clusters untuk membuka halaman Clusters. Klik Register Cluster, pilih CDH untuk Open Source Cluster Type, lalu buka halaman pendaftaran kluster.

Langkah 2: Daftarkan kluster CDH atau CDP

Catatan

Jika ruang kerja Anda berada dalam mode standar, Anda harus mendaftarkan kluster terpisah untuk lingkungan pengembangan dan lingkungan produksi. Untuk informasi selengkapnya tentang mode ruang kerja, lihat Perbedaan antara mode ruang kerja.
Operasi pengembangan untuk CDP dan CDH di DataWorks hampir identik. Topik ini menggunakan kluster CDH sebagai contoh.

Konfigurasikan informasi dasar kluster.

Parameter	Deskripsi
Display Name of Cluster	Nama tampilan kluster di DataWorks. Nama ini harus unik.
Cluster Version	Pilih versi kluster yang ingin Anda daftarkan. DataWorks menyediakan versi berikut: CDH 5.16.2, CDH 6.1.1, CDH 6.2.1, CDH 6.3.2, dan CDP 7.1.7. Versi komponen yang terkait dengan versi kluster ini bersifat tetap. Untuk informasi selengkapnya, lihat Informasi koneksi kluster. Jika versi kluster ini tidak memenuhi kebutuhan bisnis Anda, Anda dapat memilih Custom Version dan mengonfigurasi versi komponen sesuai kebutuhan. Catatan Lihat UI untuk informasi terkini. Jika Anda menggunakan kluster dengan Custom Version untuk mendaftar ke DataWorks, Anda hanya dapat menggunakan grup sumber daya eksklusif legacy untuk penjadwalan. Setelah pendaftaran selesai, Anda harus submit a ticket untuk meminta dukungan teknis menginisialisasi lingkungan.
Cluster Name	Menentukan sumber informasi konfigurasi untuk kluster yang sedang Anda daftarkan. Anda dapat memilih kluster yang sudah terdaftar di ruang kerja lain atau membuat kluster baru. Registered cluster: Menggunakan kembali konfigurasi kluster yang sudah terdaftar di ruang kerja lain. New cluster: Anda harus mengonfigurasi informasi untuk kluster yang sedang Anda daftarkan.

Konfigurasikan informasi koneksi kluster.

Berdasarkan kasus penggunaan Anda, pilih versi komponen untuk kluster Anda dan masukkan informasi endpoint komponen yang telah Anda peroleh. Untuk informasi selengkapnya, lihat Persiapan: Peroleh informasi kluster CDH atau CDP dan konfigurasikan konektivitas jaringan. Di node head kluster CDH, jalankan perintah java -jar dw-tools.jar admin admin untuk memperoleh informasi host dan URL untuk setiap komponen kluster. Kemudian, gunakan alamat koneksi dari output tersebut untuk mengisi bidang berikut: HiveServer2 (format: jdbc:hive2://<host>:<port>/<database>), Metastore (format: thrift://<host>:<port>), Impala JDBC URL (format: jdbc:impala://<host>:<port>/<schema>), Yarn.ResourceManager.Address (format: http://<host>:<port>), Jobhistory.Webapp.Address (ubah port alamat Yarn ResourceManager menjadi 8088), dan Presto JDBC URL (format: jdbc:presto://<host>:<port>/<catalog>/<schema>). Presto bukan komponen default CDH. Tentukan alamat akses berdasarkan penerapan Anda.

Catatan
Jika Anda mengakses komponen CDH melalui nama domain dari grup sumber daya serverless, Anda harus mengonfigurasi resolusi DNS otoritatif untuk nama domain komponen CDH di Alibaba Cloud DNS PrivateZone. Untuk informasi selengkapnya, lihat Tambahkan domain otoritatif bawaan dan Tetapkan cakupan untuk nama domain.

Tambahkan file konfigurasi kluster.

Anda dapat mengunggah file konfigurasi untuk komponen yang diperlukan. Untuk memperoleh file konfigurasi, lihat Persiapan: Peroleh informasi kluster CDH atau CDP dan konfigurasikan konektivitas jaringan.

Tabel berikut menjelaskan file konfigurasi tersebut.

File konfigurasi	Deskripsi	Skenario
core-site.xml	Berisi konfigurasi global untuk library Hadoop Core, seperti pengaturan I/O umum untuk HDFS dan MapReduce.	File ini harus diunggah untuk menjalankan task Spark atau MapReduce.
hdfs-site.xml	Berisi konfigurasi terkait HDFS, seperti ukuran blok data, jumlah replika, dan nama path.
mapred-site.xml	Digunakan untuk mengonfigurasi parameter terkait MapReduce, seperti metode eksekusi dan perilaku penjadwalan job MapReduce.	File ini harus diunggah untuk menjalankan task MapReduce.
yarn-site.xml	Berisi semua konfigurasi terkait daemon YARN, seperti resource manager, node manager, dan lingkungan runtime aplikasi.	File ini harus diunggah untuk menjalankan task Spark atau MapReduce, atau ketika Kerberos dipilih sebagai tipe pemetaan identitas.
hive-site.xml	Berisi berbagai parameter untuk mengonfigurasi Hive, seperti informasi koneksi database, pengaturan Hive Metastore, dan mesin eksekusi.	File ini harus diunggah ketika Kerberos dipilih sebagai tipe pemetaan identitas.
spark-defaults.conf	Menentukan konfigurasi default yang diterapkan saat job Spark dieksekusi. Anda dapat menggunakan file `spark-defaults.conf` untuk menyetel properti secara awal, seperti ukuran memori dan jumlah core CPU. Aplikasi Spark menggunakan pengaturan ini saat runtime.	File ini harus diunggah untuk menjalankan task Spark.
config.properties	Berisi konfigurasi untuk server Presto, seperti properti global untuk node coordinator dan worker di kluster Presto.	File ini harus diunggah ketika Anda menggunakan komponen Presto dan memilih OPEN LDAP atau Kerberos sebagai tipe pemetaan identitas.
presto.jks	File Java KeyStore (JKS) yang menyimpan sertifikat keamanan, termasuk kunci privat dan sertifikat kunci publik yang dikeluarkan untuk aplikasi. Di Presto, file `presto.jks` digunakan untuk mengaktifkan komunikasi terenkripsi SSL/TLS untuk proses Presto dan mengamankan transfer data.

Konfigurasikan identitas akses default.

Pengaturan ini menentukan akun yang digunakan untuk mengakses kluster CDH saat task dijalankan dari DataWorks. Jenis akun yang didukung bervariasi berdasarkan lingkungan.

Catatan

Saat Anda mendaftarkan kluster, jika Anda mengatur Default Access Identity ke akun non-kluster dan tidak ada pemetaan identitas yang dikonfigurasi (atau jika tipe pemetaan diatur ke tanpa autentikasi), semua task akan gagal.

Lingkungan

Identitas akses default

Informasi terkait

Lingkungan pengembangan

Akun kluster: Akun kluster tertentu digunakan untuk mengakses kluster CDH, terlepas dari siapa yang menjalankan task CDH di DataWorks, seperti Akun Alibaba Cloud atau RAM user dengan izin pengembangan saja.
Akun yang dipetakan: Saat pengguna menjalankan task CDH, Anda harus mengonfigurasi pemetaan identitas antara akun pengguna dan akun kluster. Saat task dijalankan, akun yang dipetakan digunakan untuk mengakses kluster CDH.

Untuk mengonfigurasi pemetaan identitas, lihat Konfigurasikan pemetaan identitas kluster.

Lingkungan produksi

Akun kluster: Akun kluster tertentu digunakan untuk mengakses kluster CDH, terlepas dari siapa yang menjalankan task CDH di DataWorks, seperti pemilik task, Akun Alibaba Cloud, atau RAM user.
Akun yang dipetakan: Saat pemilik task, Akun Alibaba Cloud, atau RAM user menjalankan task CDH, Anda harus mengonfigurasi pemetaan identitas antara akun tersebut dan akun kluster. Saat task dijalankan, akun yang dipetakan digunakan untuk mengakses kluster CDH.

Klik Complete Registration untuk mendaftarkan kluster di DataWorks.

Langkah 3: Inisialisasi grup sumber daya

Anda harus menginisialisasi grup sumber daya saat pertama kali mendaftarkan kluster atau setelah mengubah konfigurasi layanan kluster, atau setelah melakukan upgrade versi komponen, misalnya dengan memodifikasi file core-site.xml. Inisialisasi memastikan bahwa grup sumber daya dapat mengakses kluster CDH dan dikonfigurasi dengan benar untuk menjalankan task kluster CDH. Di halaman Clusters, temukan kluster CDH yang telah terdaftar dan klik Initialize Resource Group di pojok kanan atas. Pilih grup sumber daya yang diperlukan dan inisialisasi.

Catatan

DataWorks hanya mendukung menjalankan task kluster CDH menggunakan grup sumber daya serverless baru (disarankan) atau grup sumber daya eksklusif legacy untuk penjadwalan. Oleh karena itu, Anda hanya dapat menginisialisasi dua jenis grup sumber daya ini. Jika tidak tersedia grup sumber daya, buat sesuai kebutuhan. Untuk informasi selengkapnya, lihat Gunakan grup sumber daya serverless dan Gunakan grup sumber daya eksklusif untuk penjadwalan.
Jika Anda menggunakan kluster dengan Custom Version untuk mendaftar ke DataWorks, Anda hanya dapat menggunakan grup sumber daya eksklusif legacy untuk penjadwalan. Setelah pendaftaran selesai, Anda harus submit a ticket untuk meminta dukungan teknis menginisialisasi lingkungan.

(Opsional) Konfigurasikan antrian sumber daya YARN

Tujuan utama antrian sumber daya YARN adalah untuk mempartisi dan mengisolasi sumber daya kluster, sehingga berbagai jenis task dapat menggunakan sumber daya komputasi secara wajar dan adil serta mencegah gangguan. Untuk menyiapkan antrian sumber daya YARN khusus untuk task di modul tertentu, temukan kluster CDH yang telah Anda daftarkan di halaman Clusters. Di tab YARN Resource Queue, klik Edit YARN resource queue untuk mengonfigurasi pengaturan.

(Opsional) Konfigurasikan properti Spark

Tetapkan properti Spark khusus untuk task di berbagai modul.

Di halaman Clusters, temukan kluster CDH yang telah Anda daftarkan.
Di tab Spark-related Parameter, klik tombol Edit Spark properties untuk membuka halaman pengeditan properti Spark untuk kluster CDH.
Klik tombol Add di bawah modul, lalu masukkan Spark Property Name dan Spark Property Value yang sesuai untuk menyetel properti Spark.

Langkah selanjutnya

Konfigurasikan pemetaan identitas kluster: Jika identitas akses default untuk kluster CDH bukan akun kluster tertentu (artinya akses dilakukan melalui Akun Alibaba Cloud Anda), Anda harus mengonfigurasi pemetaan identitas antara Akun Alibaba Cloud dan akun kluster. Hal ini memungkinkan Akun Alibaba Cloud mengakses kluster CDH menggunakan identitas kluster yang dipetakan, sehingga memungkinkan isolasi dan kontrol izin data.
Setelah mendaftarkan resource komputasi CDH, Anda dapat menggunakan node terkait CDH di DataStudio untuk melakukan operasi pengembangan data.