All Products
Search
Document Center

DataWorks:DataStudio (legacy): Daftarkan resource komputasi CDH

Last Updated:Jun 21, 2026

DataWorks dapat terhubung ke kluster Cloudera’s Distribution Including Apache Hadoop (CDH) dan Cloudera Data Platform (CDP). Anda dapat mendaftarkan kluster CDH dan CDP di DataWorks untuk operasi pengembangan dan tata kelola data, seperti pengembangan task, penjadwalan, Data Map (manajemen metadata), dan Data Quality.

Informasi latar belakang

  • CDH adalah distribusi platform open-source dari Cloudera yang mencakup fitur siap pakai seperti manajemen kluster, pemantauan, dan diagnostik, serta mendukung berbagai komponen untuk menjalankan alur kerja data besar end-to-end.

  • CDP adalah platform data publik yang mengumpulkan dan mengkonsolidasikan data pelanggan dari berbagai platform serta mengumpulkan data real-time untuk membuat profil data pengguna individual.

Anda dapat mendaftarkan kluster CDH dan CDP di DataWorks untuk pengembangan task, penjadwalan, manajemen metadata di Data Map, dan pemeriksaan Kualitas Data.

Prasyarat

Batasan

  • Anda hanya dapat menjalankan task kluster CDH atau CDP menggunakan grup sumber daya serverless baru (disarankan) atau grup sumber daya eksklusif legacy untuk penjadwalan.

    Catatan
    • Grup sumber daya serverless adalah grup sumber daya serbaguna yang dapat digunakan untuk berbagai skenario, seperti sinkronisasi data dan penjadwalan task. Untuk informasi selengkapnya tentang cara membeli grup sumber daya serverless, lihat Gunakan grup sumber daya serverless. Jika Anda telah membeli grup sumber daya eksklusif legacy untuk penjadwalan, Anda juga dapat menggunakannya untuk menjalankan task CDH atau CDP. Untuk informasi selengkapnya, lihat Gunakan grup sumber daya eksklusif untuk penjadwalan.

    • Pengguna baru hanya dapat membeli grup sumber daya serverless baru.

    • Jika Anda menggunakan kluster dengan Custom Version untuk mendaftar ke DataWorks, Anda hanya dapat menggunakan grup sumber daya eksklusif legacy untuk penjadwalan. Untuk informasi selengkapnya tentang versi kluster, lihat Langkah 2: Daftarkan kluster CDH atau CDP.

  • Anda hanya dapat mendaftarkan kluster CDH atau CDP di wilayah berikut: Tiongkok (Beijing), Tiongkok (Shanghai), Tiongkok (Hangzhou), Tiongkok (Shenzhen), Tiongkok (Zhangjiakou), Tiongkok (Chengdu), dan Jerman (Frankfurt).

Langkah 1: Buka halaman pendaftaran

  1. Masuk ke Konsol DataWorks. Di wilayah target, klik More > Management Center di panel navigasi kiri. Pilih ruang kerja dari daftar drop-down dan klik Go to Management Center.

  2. Di panel navigasi kiri, klik Clusters untuk membuka halaman Clusters. Klik Register Cluster, pilih CDH untuk Open Source Cluster Type, lalu buka halaman pendaftaran kluster.

Langkah 2: Daftarkan kluster CDH atau CDP

Catatan
  • Jika ruang kerja Anda berada dalam mode standar, Anda harus mendaftarkan kluster terpisah untuk lingkungan pengembangan dan lingkungan produksi. Untuk informasi selengkapnya tentang mode ruang kerja, lihat Perbedaan antara mode ruang kerja.

  • Operasi pengembangan untuk CDP dan CDH di DataWorks hampir identik. Topik ini menggunakan kluster CDH sebagai contoh.

  1. Konfigurasikan informasi dasar kluster.

    Parameter

    Deskripsi

    Display Name of Cluster

    Nama tampilan kluster di DataWorks. Nama ini harus unik.

    Cluster Version

    Pilih versi kluster yang ingin Anda daftarkan.

    DataWorks menyediakan versi berikut: CDH 5.16.2, CDH 6.1.1, CDH 6.2.1, CDH 6.3.2, dan CDP 7.1.7. Versi komponen yang terkait dengan versi kluster ini bersifat tetap. Untuk informasi selengkapnya, lihat Informasi koneksi kluster. Jika versi kluster ini tidak memenuhi kebutuhan bisnis Anda, Anda dapat memilih Custom Version dan mengonfigurasi versi komponen sesuai kebutuhan.

    Catatan
    • Lihat UI untuk informasi terkini.

    • Jika Anda menggunakan kluster dengan Custom Version untuk mendaftar ke DataWorks, Anda hanya dapat menggunakan grup sumber daya eksklusif legacy untuk penjadwalan. Setelah pendaftaran selesai, Anda harus submit a ticket untuk meminta dukungan teknis menginisialisasi lingkungan.

    Cluster Name

    Menentukan sumber informasi konfigurasi untuk kluster yang sedang Anda daftarkan. Anda dapat memilih kluster yang sudah terdaftar di ruang kerja lain atau membuat kluster baru.

    • Registered cluster: Menggunakan kembali konfigurasi kluster yang sudah terdaftar di ruang kerja lain.

    • New cluster: Anda harus mengonfigurasi informasi untuk kluster yang sedang Anda daftarkan.

  2. Konfigurasikan informasi koneksi kluster.

    Berdasarkan kasus penggunaan Anda, pilih versi komponen untuk kluster Anda dan masukkan informasi endpoint komponen yang telah Anda peroleh. Untuk informasi selengkapnya, lihat Persiapan: Peroleh informasi kluster CDH atau CDP dan konfigurasikan konektivitas jaringan. Di node head kluster CDH, jalankan perintah java -jar dw-tools.jar admin admin untuk memperoleh informasi host dan URL untuk setiap komponen kluster. Kemudian, gunakan alamat koneksi dari output tersebut untuk mengisi bidang berikut: HiveServer2 (format: jdbc:hive2://<host>:<port>/<database>), Metastore (format: thrift://<host>:<port>), Impala JDBC URL (format: jdbc:impala://<host>:<port>/<schema>), Yarn.ResourceManager.Address (format: http://<host>:<port>), Jobhistory.Webapp.Address (ubah port alamat Yarn ResourceManager menjadi 8088), dan Presto JDBC URL (format: jdbc:presto://<host>:<port>/<catalog>/<schema>). Presto bukan komponen default CDH. Tentukan alamat akses berdasarkan penerapan Anda.

    Catatan

    Jika Anda mengakses komponen CDH melalui nama domain dari grup sumber daya serverless, Anda harus mengonfigurasi resolusi DNS otoritatif untuk nama domain komponen CDH di Alibaba Cloud DNS PrivateZone. Untuk informasi selengkapnya, lihat Tambahkan domain otoritatif bawaan dan Tetapkan cakupan untuk nama domain.

  3. Tambahkan file konfigurasi kluster.

    Anda dapat mengunggah file konfigurasi untuk komponen yang diperlukan. Untuk memperoleh file konfigurasi, lihat Persiapan: Peroleh informasi kluster CDH atau CDP dan konfigurasikan konektivitas jaringan.

    Tabel berikut menjelaskan file konfigurasi tersebut.

    File konfigurasi

    Deskripsi

    Skenario

    core-site.xml

    Berisi konfigurasi global untuk library Hadoop Core, seperti pengaturan I/O umum untuk HDFS dan MapReduce.

    File ini harus diunggah untuk menjalankan task Spark atau MapReduce.

    hdfs-site.xml

    Berisi konfigurasi terkait HDFS, seperti ukuran blok data, jumlah replika, dan nama path.

    mapred-site.xml

    Digunakan untuk mengonfigurasi parameter terkait MapReduce, seperti metode eksekusi dan perilaku penjadwalan job MapReduce.

    File ini harus diunggah untuk menjalankan task MapReduce.

    yarn-site.xml

    Berisi semua konfigurasi terkait daemon YARN, seperti resource manager, node manager, dan lingkungan runtime aplikasi.

    File ini harus diunggah untuk menjalankan task Spark atau MapReduce, atau ketika Kerberos dipilih sebagai tipe pemetaan identitas.

    hive-site.xml

    Berisi berbagai parameter untuk mengonfigurasi Hive, seperti informasi koneksi database, pengaturan Hive Metastore, dan mesin eksekusi.

    File ini harus diunggah ketika Kerberos dipilih sebagai tipe pemetaan identitas.

    spark-defaults.conf

    Menentukan konfigurasi default yang diterapkan saat job Spark dieksekusi. Anda dapat menggunakan file spark-defaults.conf untuk menyetel properti secara awal, seperti ukuran memori dan jumlah core CPU. Aplikasi Spark menggunakan pengaturan ini saat runtime.

    File ini harus diunggah untuk menjalankan task Spark.

    config.properties

    Berisi konfigurasi untuk server Presto, seperti properti global untuk node coordinator dan worker di kluster Presto.

    File ini harus diunggah ketika Anda menggunakan komponen Presto dan memilih OPEN LDAP atau Kerberos sebagai tipe pemetaan identitas.

    presto.jks

    File Java KeyStore (JKS) yang menyimpan sertifikat keamanan, termasuk kunci privat dan sertifikat kunci publik yang dikeluarkan untuk aplikasi. Di Presto, file presto.jks digunakan untuk mengaktifkan komunikasi terenkripsi SSL/TLS untuk proses Presto dan mengamankan transfer data.

  4. Konfigurasikan identitas akses default.

    Pengaturan ini menentukan akun yang digunakan untuk mengakses kluster CDH saat task dijalankan dari DataWorks. Jenis akun yang didukung bervariasi berdasarkan lingkungan.

    Catatan

    Saat Anda mendaftarkan kluster, jika Anda mengatur Default Access Identity ke akun non-kluster dan tidak ada pemetaan identitas yang dikonfigurasi (atau jika tipe pemetaan diatur ke tanpa autentikasi), semua task akan gagal.

    Lingkungan

    Identitas akses default

    Informasi terkait

    Lingkungan pengembangan

    • Akun kluster: Akun kluster tertentu digunakan untuk mengakses kluster CDH, terlepas dari siapa yang menjalankan task CDH di DataWorks, seperti Akun Alibaba Cloud atau RAM user dengan izin pengembangan saja.

    • Akun yang dipetakan: Saat pengguna menjalankan task CDH, Anda harus mengonfigurasi pemetaan identitas antara akun pengguna dan akun kluster. Saat task dijalankan, akun yang dipetakan digunakan untuk mengakses kluster CDH.

    Untuk mengonfigurasi pemetaan identitas, lihat Konfigurasikan pemetaan identitas kluster.

    Lingkungan produksi

    • Akun kluster: Akun kluster tertentu digunakan untuk mengakses kluster CDH, terlepas dari siapa yang menjalankan task CDH di DataWorks, seperti pemilik task, Akun Alibaba Cloud, atau RAM user.

    • Akun yang dipetakan: Saat pemilik task, Akun Alibaba Cloud, atau RAM user menjalankan task CDH, Anda harus mengonfigurasi pemetaan identitas antara akun tersebut dan akun kluster. Saat task dijalankan, akun yang dipetakan digunakan untuk mengakses kluster CDH.

  5. Klik Complete Registration untuk mendaftarkan kluster di DataWorks.

Langkah 3: Inisialisasi grup sumber daya

Anda harus menginisialisasi grup sumber daya saat pertama kali mendaftarkan kluster atau setelah mengubah konfigurasi layanan kluster, atau setelah melakukan upgrade versi komponen, misalnya dengan memodifikasi file core-site.xml. Inisialisasi memastikan bahwa grup sumber daya dapat mengakses kluster CDH dan dikonfigurasi dengan benar untuk menjalankan task kluster CDH. Di halaman Clusters, temukan kluster CDH yang telah terdaftar dan klik Initialize Resource Group di pojok kanan atas. Pilih grup sumber daya yang diperlukan dan inisialisasi.

Catatan
  • DataWorks hanya mendukung menjalankan task kluster CDH menggunakan grup sumber daya serverless baru (disarankan) atau grup sumber daya eksklusif legacy untuk penjadwalan. Oleh karena itu, Anda hanya dapat menginisialisasi dua jenis grup sumber daya ini. Jika tidak tersedia grup sumber daya, buat sesuai kebutuhan. Untuk informasi selengkapnya, lihat Gunakan grup sumber daya serverless dan Gunakan grup sumber daya eksklusif untuk penjadwalan.

  • Jika Anda menggunakan kluster dengan Custom Version untuk mendaftar ke DataWorks, Anda hanya dapat menggunakan grup sumber daya eksklusif legacy untuk penjadwalan. Setelah pendaftaran selesai, Anda harus submit a ticket untuk meminta dukungan teknis menginisialisasi lingkungan.

(Opsional) Konfigurasikan antrian sumber daya YARN

Tujuan utama antrian sumber daya YARN adalah untuk mempartisi dan mengisolasi sumber daya kluster, sehingga berbagai jenis task dapat menggunakan sumber daya komputasi secara wajar dan adil serta mencegah gangguan. Untuk menyiapkan antrian sumber daya YARN khusus untuk task di modul tertentu, temukan kluster CDH yang telah Anda daftarkan di halaman Clusters. Di tab YARN Resource Queue, klik Edit YARN resource queue untuk mengonfigurasi pengaturan.

(Opsional) Konfigurasikan properti Spark

Tetapkan properti Spark khusus untuk task di berbagai modul.

  1. Di halaman Clusters, temukan kluster CDH yang telah Anda daftarkan.

  2. Di tab Spark-related Parameter, klik tombol Edit Spark properties untuk membuka halaman pengeditan properti Spark untuk kluster CDH.

  3. Klik tombol Add di bawah modul, lalu masukkan Spark Property Name dan Spark Property Value yang sesuai untuk menyetel properti Spark.

Langkah selanjutnya

  • Konfigurasikan pemetaan identitas kluster: Jika identitas akses default untuk kluster CDH bukan akun kluster tertentu (artinya akses dilakukan melalui Akun Alibaba Cloud Anda), Anda harus mengonfigurasi pemetaan identitas antara Akun Alibaba Cloud dan akun kluster. Hal ini memungkinkan Akun Alibaba Cloud mengakses kluster CDH menggunakan identitas kluster yang dipetakan, sehingga memungkinkan isolasi dan kontrol izin data.

  • Setelah mendaftarkan resource komputasi CDH, Anda dapat menggunakan node terkait CDH di DataStudio untuk melakukan operasi pengembangan data.