DataWorks dapat terhubung ke kluster Cloudera Distribution for Hadoop (CDH) dan Cloudera Data Platform (CDP). Setelah mendaftarkan kluster CDH atau CDP di DataWorks, Anda dapat melakukan operasi pengembangan dan tata kelola data, seperti pengembangan tugas, penjadwalan, manajemen metadata di Peta Data, serta pemantauan kualitas data.
Informasi latar belakang
CDH adalah distribusi platform open source dari Cloudera yang menyediakan fitur siap pakai seperti manajemen kluster, pemantauan kluster, dan diagnostik kluster. CDH juga mendukung berbagai komponen untuk menjalankan alur kerja data besar end-to-end.
CDP adalah platform data umum yang mengumpulkan dan mengintegrasikan data pelanggan lintas platform. Anda dapat menggunakan CDP untuk mengumpulkan data real-time dan membangun data pengguna individu berbasis data tersebut.
Anda dapat mendaftarkan kluster CDH dan CDP ke DataWorks, lalu memanfaatkan fitur-fitur DataWorks—seperti pengembangan tugas, penjadwalan tugas, manajemen metadata di Peta Data, dan pemantauan kualitas data—untuk mengembangkan dan mengelola data di kluster tersebut sesuai kebutuhan bisnis Anda.
Prasyarat
Anda dapat mendaftarkan kluster CDH atau CDP di ruang kerja saat ini jika memiliki salah satu izin berikut:
Akun Alibaba Cloud.
Anggota ruang kerja DataWorks dengan peran Workspace Administrator. Untuk informasi selengkapnya, lihat Menambahkan anggota ruang kerja dan mengelola peran mereka.
Anggota ruang kerja DataWorks yang disambungkan ke kebijakan AliyunDataWorksFullAccess. Untuk informasi selengkapnya tentang cara memberikan izin, lihat Memberikan izin kepada Pengguna RAM dan Memberikan izin kepada Peran RAM. Untuk informasi selengkapnya tentang cara menambahkan pengguna ke ruang kerja DataWorks sebagai anggota, lihat Menambahkan anggota ruang kerja dan mengelola peran mereka.
Anda telah men-deploy kluster CDH atau CDP dan memperoleh informasi konfigurasi yang diperlukan. Untuk informasi selengkapnya, lihat Persiapan: Memperoleh informasi konfigurasi kluster CDH atau CDP dan mengonfigurasi konektivitas jaringan.
Batasan
Hanya grup sumber daya arsitektur tanpa server (disarankan) atau grup sumber daya eksklusif untuk penjadwalan versi sebelumnya yang dapat digunakan untuk menjalankan tugas kluster CDH atau CDP.
CatatanGrup sumber daya arsitektur tanpa server adalah grup sumber daya serbaguna yang dapat digunakan dalam berbagai skenario, seperti sinkronisasi data dan penjadwalan tugas. Untuk informasi selengkapnya tentang cara membeli grup sumber daya arsitektur tanpa server, lihat Menggunakan grup sumber daya arsitektur tanpa server. Jika Anda telah membeli grup sumber daya eksklusif untuk penjadwalan versi sebelumnya, Anda juga dapat menggunakan grup sumber daya tersebut untuk menjalankan tugas CDH atau CDP. Untuk informasi selengkapnya, lihat Menggunakan grup sumber daya eksklusif untuk penjadwalan.
Pengguna baru hanya dapat membeli grup sumber daya arsitektur tanpa server.
Jika Anda mendaftarkan kluster dengan Custom Version di DataWorks, Anda hanya dapat menggunakan grup sumber daya eksklusif untuk penjadwalan versi sebelumnya. Untuk informasi selengkapnya tentang versi kluster, lihat Langkah 2: Mendaftarkan kluster CDH atau CDP.
Anda hanya dapat mendaftarkan kluster CDH atau CDP di DataWorks di wilayah-wilayah berikut: Tiongkok (Beijing), Tiongkok (Shanghai), Tiongkok (Hangzhou), Tiongkok (Shenzhen), Tiongkok (Zhangjiakou), Tiongkok (Chengdu), dan Jerman (Frankfurt).
Langkah 1: Buka halaman pendaftaran kluster
Buka halaman SettingCenter.
Login ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi kiri, pilih . Di halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Management Center.
Di panel navigasi kiri, klik Cluster Management untuk menuju ke halaman Cluster Management. Klik Register Cluster, pilih CDH sebagai jenis kluster open source, lalu buka halaman pendaftaran kluster.
Langkah 2: Mendaftarkan kluster CDH atau CDP
Jika Anda menggunakan ruang kerja dalam mode standar, Anda harus mendaftarkan kluster untuk lingkungan pengembangan dan produksi. Untuk informasi selengkapnya tentang mode ruang kerja, lihat Perbedaan antara mode ruang kerja.
Operasi pengembangan untuk kluster CDP dan CDH di DataWorks pada dasarnya sama. Topik ini menggunakan kluster CDH sebagai contoh untuk menjelaskan cara mendaftarkan kluster CDH di DataWorks.
Konfigurasikan informasi dasar kluster.
Parameter
Deskripsi
Display Name
Nama kluster di DataWorks. Nama harus unik.
Cluster Version
Pilih versi kluster yang ingin Anda daftarkan.
Anda dapat memilih CDH 5.16.2, CDH 6.1.1, CDH 6.2.1, CDH 6.3.2, atau CDP 7.1.7. Versi komponen untuk versi kluster ini bersifat tetap. Anda dapat melihat versi komponen di bagian Cluster Connection Information. Jika versi kluster ini tidak memenuhi kebutuhan bisnis Anda, pilih Custom Version dan konfigurasikan versi komponen sesuai kebutuhan.
CatatanKomponen yang perlu Anda konfigurasikan bervariasi tergantung pada versi kluster. Komponen aktual yang ditampilkan di halaman berlaku.
Jika Anda mendaftarkan kluster dengan Custom Version ke DataWorks, Anda hanya dapat menggunakan grup sumber daya eksklusif untuk penjadwalan versi sebelumnya. Setelah pendaftaran selesai, Anda harus mengirim tiket untuk menghubungi dukungan teknis guna menginisialisasi lingkungan.
Cluster Name
Digunakan untuk menentukan sumber informasi konfigurasi kluster yang ingin Anda daftarkan. Anda dapat memilih kluster yang telah didaftarkan di ruang kerja lain atau membuat kluster baru.
Kluster terdaftar: Informasi konfigurasi kluster yang ingin Anda daftarkan langsung merujuk pada informasi konfigurasi kluster yang telah didaftarkan di ruang kerja lain.
Kluster baru: Anda harus mengonfigurasi informasi konfigurasi untuk kluster yang ingin Anda daftarkan.
Konfigurasikan informasi koneksi kluster.
Pilih versi komponen yang dideploy di kluster dan masukkan alamat komponen yang telah Anda peroleh. Untuk informasi selengkapnya tentang cara memperoleh informasi komponen, lihat Persiapan: Memperoleh informasi konfigurasi kluster CDH atau CDP dan mengonfigurasi konektivitas jaringan.
CatatanJika Anda menggunakan grup sumber daya arsitektur tanpa server untuk mengakses komponen CDH melalui nama domain, Anda harus mengonfigurasi resolusi otoritatif untuk nama domain komponen CDH di PrivateZone DNS Alibaba Cloud. Untuk informasi selengkapnya, lihat Menambahkan nama domain otoritatif bawaan dan Menetapkan cakupan nama domain.
Tambahkan file konfigurasi kluster.
Unggah file konfigurasi komponen yang diperlukan. Untuk informasi selengkapnya tentang cara memperoleh file konfigurasi, lihat Persiapan: Memperoleh informasi konfigurasi kluster CDH atau CDP dan mengonfigurasi konektivitas jaringan.

Tabel berikut menjelaskan file konfigurasi tersebut.
File konfigurasi
Deskripsi
Skenario
core-site.xml
Berisi konfigurasi global pustaka Hadoop Core, seperti pengaturan I/O umum untuk HDFS dan MapReduce.
Unggah file ini untuk menjalankan tugas Spark atau MapReduce.
hdfs-site.xml
Berisi konfigurasi terkait HDFS, seperti ukuran blok data, jumlah cadangan, dan nama path.
mapred-site.xml
Mengonfigurasi parameter terkait MapReduce, seperti metode eksekusi dan perilaku penjadwalan pekerjaan MapReduce.
Unggah file ini untuk menjalankan tugas MapReduce.
yarn-site.xml
Berisi semua konfigurasi terkait proses daemon YARN, seperti konfigurasi lingkungan untuk resource manager, node manager, dan waktu proses aplikasi.
Unggah file ini untuk menjalankan tugas Spark atau MapReduce, atau jika Anda memilih Kerberos sebagai jenis pemetaan akun.
hive-site.xml
Berisi parameter untuk mengonfigurasi Hive, seperti informasi koneksi database, pengaturan Hive Metastore, dan mesin eksekusi.
Unggah file ini jika Anda memilih Kerberos sebagai jenis pemetaan akun.
spark-defaults.conf
Menentukan konfigurasi default untuk eksekusi pekerjaan Spark. Anda dapat menggunakan file
spark-defaults.confuntuk mengonfigurasi parameter secara awal, seperti ukuran memori dan jumlah core CPU. Aplikasi Spark menggunakan konfigurasi parameter ini saat waktu proses.Unggah file ini untuk menjalankan tugas Spark.
config.properties
Berisi konfigurasi server Presto, seperti properti global untuk coordinator dan node pekerja di kluster Presto.
Unggah file ini jika Anda menggunakan komponen Presto dan memilih OPEN LDAP atau Kerberos sebagai jenis pemetaan akun.
presto.jks
Menyimpan sertifikat keamanan, termasuk kunci privat dan sertifikat kunci publik yang dikeluarkan untuk aplikasi. Di mesin kueri database Presto, file
presto.jksdigunakan untuk mengaktifkan komunikasi terenkripsi SSL/TLS bagi proses Presto guna memastikan keamanan transmisi data.Konfigurasikan identitas akses default untuk kluster.
Konfigurasikan akun yang digunakan untuk mengakses kluster CDH saat menjalankan tugas kluster CDH di DataWorks. Akun yang didukung bervariasi tergantung pada lingkungan.
CatatanSaat mendaftarkan kluster, jika Anda mengatur Default Access Identity ke akun selain akun kluster dan tidak ada pemetaan akun yang dikonfigurasi atau jenis pemetaan diatur ke tanpa autentikasi, semua tugas akan gagal.
Lingkungan
Identitas akses default
Referensi
Lingkungan pengembangan
Akun kluster: Akun kluster tertentu digunakan untuk mengakses kluster CDH, terlepas dari siapa yang menjalankan tugas CDH di DataWorks, seperti Akun Alibaba Cloud atau Pengguna RAM dengan hanya izin pengembangan.
Akun yang dipetakan: Saat pelaksana tugas menjalankan tugas CDH, Anda harus mengonfigurasi pemetaan antara akun pelaksana tugas dan akun kluster. Setelah pemetaan dikonfigurasi, akun kluster yang dipetakan digunakan untuk mengakses kluster CDH saat tugas dijalankan.
Untuk informasi selengkapnya tentang cara mengonfigurasi pemetaan akun, lihat Mengatur pemetaan identitas kluster.
Lingkungan produksi
Akun kluster: Akun kluster tertentu digunakan untuk mengakses kluster CDH, terlepas dari siapa yang menjalankan tugas CDH di DataWorks, seperti Akun Alibaba Cloud atau Pengguna RAM dengan hanya izin pengembangan.
Akun yang dipetakan: Saat pemilik tugas, Akun Alibaba Cloud, atau Pengguna RAM menjalankan tugas CDH, Anda harus mengonfigurasi pemetaan antara akun yang sesuai dan akun kluster. Setelah pemetaan dikonfigurasi, akun kluster yang dipetakan digunakan untuk mengakses kluster CDH saat tugas dijalankan.
Klik Complete Registration untuk mendaftarkan kluster di DataWorks.
Langkah 3: Inisialisasi grup sumber daya
Anda harus menginisialisasi grup sumber daya pertama kali saat mengikat kluster, atau jika konfigurasi layanan kluster berubah atau komponen ditingkatkan (misalnya, jika Anda mengubah file core-site.xml). Hal ini memastikan bahwa grup sumber daya dapat mengakses kluster CDH dan tugas kluster CDH dapat dijalankan menggunakan konfigurasi lingkungan saat ini dari grup sumber daya. Di halaman Cluster Management, temukan kluster CDH yang telah didaftarkan, klik Initialize Resource Group di pojok kanan atas, pilih grup sumber daya yang diperlukan, lalu inisialisasi.
DataWorks hanya memungkinkan Anda menggunakan grup sumber daya arsitektur tanpa server (disarankan) dan grup sumber daya eksklusif untuk penjadwalan untuk menjalankan tugas kluster CDH. Oleh karena itu, Anda hanya dapat menginisialisasi dua jenis grup sumber daya ini. Jika tidak tersedia grup sumber daya, Anda dapat membuatnya sesuai kebutuhan. Untuk informasi selengkapnya, lihat Menggunakan grup sumber daya arsitektur tanpa server dan Menggunakan grup sumber daya eksklusif untuk penjadwalan.
Jika Anda mendaftarkan kluster dengan Custom Version ke DataWorks, Anda hanya dapat menggunakan grup sumber daya eksklusif untuk penjadwalan versi sebelumnya. Setelah pendaftaran selesai, Anda harus mengirim tiket untuk menghubungi dukungan teknis guna menginisialisasi lingkungan.
(Opsional) Menyetel antrian sumber daya YARN
Antrian sumber daya YARN mempartisi dan mengisolasi sumber daya kluster untuk memastikan bahwa berbagai jenis tugas dapat menggunakan sumber daya komputasi secara adil dan menghindari gangguan. Untuk menyetel antrian sumber daya YARN khusus untuk tugas modul yang berbeda, temukan kluster CDH yang telah Anda ikat di halaman Cluster Management. Di tab YARN Resource Queue, klik Edit YARN Resource Queue untuk mengonfigurasi pengaturan.
(Opsional) Menyetel parameter SPARK
Anda dapat menyetel parameter properti SPARK khusus untuk tugas di modul yang berbeda.
Di halaman Cluster Management, temukan kluster CDH yang telah Anda ikat.
Klik tab SPARK Parameters lalu klik Edit SPARK Parameters untuk menuju ke halaman pengeditan parameter SPARK kluster CDH.
Klik Add di bawah modul. Masukkan Spark Property Name dan Spark Property Value yang sesuai untuk menyetel informasi properti Spark.
Langkah selanjutnya
Mengatur pemetaan identitas kluster: Jika identitas akses default untuk kluster CDH bukan akun kluster tertentu (artinya akses dilakukan melalui akun DataWorks), Anda harus mengonfigurasi pemetaan antara akun DataWorks dan akun kluster. Hal ini memungkinkan akun DataWorks mengakses kluster CDH menggunakan identitas kluster yang dipetakan, sehingga menerapkan isolasi dan kontrol izin data.
Setelah Anda mengonfigurasi sumber daya komputasi CDH, Anda dapat menggunakan node terkait CDH di Pengembangan Data untuk melakukan operasi pengembangan data.