全部产品
Search
文档中心

DataWorks:DataStudio (legacy): Mengikat sumber daya komputasi CDH

更新时间:Nov 19, 2025

DataWorks dapat terhubung ke kluster Cloudera Distribution for Hadoop (CDH) dan Cloudera Data Platform (CDP). Setelah mendaftarkan kluster CDH atau CDP di DataWorks, Anda dapat melakukan operasi pengembangan dan tata kelola data, seperti pengembangan tugas, penjadwalan, manajemen metadata di Peta Data, serta pemantauan kualitas data.

Informasi latar belakang

  • CDH adalah distribusi platform open source dari Cloudera yang menyediakan fitur siap pakai seperti manajemen kluster, pemantauan kluster, dan diagnostik kluster. CDH juga mendukung berbagai komponen untuk menjalankan alur kerja data besar end-to-end.

  • CDP adalah platform data umum yang mengumpulkan dan mengintegrasikan data pelanggan lintas platform. Anda dapat menggunakan CDP untuk mengumpulkan data real-time dan membangun data pengguna individu berbasis data tersebut.

Anda dapat mendaftarkan kluster CDH dan CDP ke DataWorks, lalu memanfaatkan fitur-fitur DataWorks—seperti pengembangan tugas, penjadwalan tugas, manajemen metadata di Peta Data, dan pemantauan kualitas data—untuk mengembangkan dan mengelola data di kluster tersebut sesuai kebutuhan bisnis Anda.

Prasyarat

Batasan

  • Hanya grup sumber daya arsitektur tanpa server (disarankan) atau grup sumber daya eksklusif untuk penjadwalan versi sebelumnya yang dapat digunakan untuk menjalankan tugas kluster CDH atau CDP.

    Catatan
    • Grup sumber daya arsitektur tanpa server adalah grup sumber daya serbaguna yang dapat digunakan dalam berbagai skenario, seperti sinkronisasi data dan penjadwalan tugas. Untuk informasi selengkapnya tentang cara membeli grup sumber daya arsitektur tanpa server, lihat Menggunakan grup sumber daya arsitektur tanpa server. Jika Anda telah membeli grup sumber daya eksklusif untuk penjadwalan versi sebelumnya, Anda juga dapat menggunakan grup sumber daya tersebut untuk menjalankan tugas CDH atau CDP. Untuk informasi selengkapnya, lihat Menggunakan grup sumber daya eksklusif untuk penjadwalan.

    • Pengguna baru hanya dapat membeli grup sumber daya arsitektur tanpa server.

    • Jika Anda mendaftarkan kluster dengan Custom Version di DataWorks, Anda hanya dapat menggunakan grup sumber daya eksklusif untuk penjadwalan versi sebelumnya. Untuk informasi selengkapnya tentang versi kluster, lihat Langkah 2: Mendaftarkan kluster CDH atau CDP.

  • Anda hanya dapat mendaftarkan kluster CDH atau CDP di DataWorks di wilayah-wilayah berikut: Tiongkok (Beijing), Tiongkok (Shanghai), Tiongkok (Hangzhou), Tiongkok (Shenzhen), Tiongkok (Zhangjiakou), Tiongkok (Chengdu), dan Jerman (Frankfurt).

Langkah 1: Buka halaman pendaftaran kluster

  1. Buka halaman SettingCenter.

    Login ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi kiri, pilih More > Management Center. Di halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Management Center.

  2. Di panel navigasi kiri, klik Cluster Management untuk menuju ke halaman Cluster Management. Klik Register Cluster, pilih CDH sebagai jenis kluster open source, lalu buka halaman pendaftaran kluster.

Langkah 2: Mendaftarkan kluster CDH atau CDP

Catatan
  • Jika Anda menggunakan ruang kerja dalam mode standar, Anda harus mendaftarkan kluster untuk lingkungan pengembangan dan produksi. Untuk informasi selengkapnya tentang mode ruang kerja, lihat Perbedaan antara mode ruang kerja.

  • Operasi pengembangan untuk kluster CDP dan CDH di DataWorks pada dasarnya sama. Topik ini menggunakan kluster CDH sebagai contoh untuk menjelaskan cara mendaftarkan kluster CDH di DataWorks.

  1. Konfigurasikan informasi dasar kluster.

    Parameter

    Deskripsi

    Display Name

    Nama kluster di DataWorks. Nama harus unik.

    Cluster Version

    Pilih versi kluster yang ingin Anda daftarkan.

    Anda dapat memilih CDH 5.16.2, CDH 6.1.1, CDH 6.2.1, CDH 6.3.2, atau CDP 7.1.7. Versi komponen untuk versi kluster ini bersifat tetap. Anda dapat melihat versi komponen di bagian Cluster Connection Information. Jika versi kluster ini tidak memenuhi kebutuhan bisnis Anda, pilih Custom Version dan konfigurasikan versi komponen sesuai kebutuhan.

    Catatan
    • Komponen yang perlu Anda konfigurasikan bervariasi tergantung pada versi kluster. Komponen aktual yang ditampilkan di halaman berlaku.

    • Jika Anda mendaftarkan kluster dengan Custom Version ke DataWorks, Anda hanya dapat menggunakan grup sumber daya eksklusif untuk penjadwalan versi sebelumnya. Setelah pendaftaran selesai, Anda harus mengirim tiket untuk menghubungi dukungan teknis guna menginisialisasi lingkungan.

    Cluster Name

    Digunakan untuk menentukan sumber informasi konfigurasi kluster yang ingin Anda daftarkan. Anda dapat memilih kluster yang telah didaftarkan di ruang kerja lain atau membuat kluster baru.

    • Kluster terdaftar: Informasi konfigurasi kluster yang ingin Anda daftarkan langsung merujuk pada informasi konfigurasi kluster yang telah didaftarkan di ruang kerja lain.

    • Kluster baru: Anda harus mengonfigurasi informasi konfigurasi untuk kluster yang ingin Anda daftarkan.

  2. Konfigurasikan informasi koneksi kluster.

    Pilih versi komponen yang dideploy di kluster dan masukkan alamat komponen yang telah Anda peroleh. Untuk informasi selengkapnya tentang cara memperoleh informasi komponen, lihat Persiapan: Memperoleh informasi konfigurasi kluster CDH atau CDP dan mengonfigurasi konektivitas jaringan.image.png

    Catatan

    Jika Anda menggunakan grup sumber daya arsitektur tanpa server untuk mengakses komponen CDH melalui nama domain, Anda harus mengonfigurasi resolusi otoritatif untuk nama domain komponen CDH di PrivateZone DNS Alibaba Cloud. Untuk informasi selengkapnya, lihat Menambahkan nama domain otoritatif bawaan dan Menetapkan cakupan nama domain.

  3. Tambahkan file konfigurasi kluster.

    Unggah file konfigurasi komponen yang diperlukan. Untuk informasi selengkapnya tentang cara memperoleh file konfigurasi, lihat Persiapan: Memperoleh informasi konfigurasi kluster CDH atau CDP dan mengonfigurasi konektivitas jaringan.

    image.png

    Tabel berikut menjelaskan file konfigurasi tersebut.

    File konfigurasi

    Deskripsi

    Skenario

    core-site.xml

    Berisi konfigurasi global pustaka Hadoop Core, seperti pengaturan I/O umum untuk HDFS dan MapReduce.

    Unggah file ini untuk menjalankan tugas Spark atau MapReduce.

    hdfs-site.xml

    Berisi konfigurasi terkait HDFS, seperti ukuran blok data, jumlah cadangan, dan nama path.

    mapred-site.xml

    Mengonfigurasi parameter terkait MapReduce, seperti metode eksekusi dan perilaku penjadwalan pekerjaan MapReduce.

    Unggah file ini untuk menjalankan tugas MapReduce.

    yarn-site.xml

    Berisi semua konfigurasi terkait proses daemon YARN, seperti konfigurasi lingkungan untuk resource manager, node manager, dan waktu proses aplikasi.

    Unggah file ini untuk menjalankan tugas Spark atau MapReduce, atau jika Anda memilih Kerberos sebagai jenis pemetaan akun.

    hive-site.xml

    Berisi parameter untuk mengonfigurasi Hive, seperti informasi koneksi database, pengaturan Hive Metastore, dan mesin eksekusi.

    Unggah file ini jika Anda memilih Kerberos sebagai jenis pemetaan akun.

    spark-defaults.conf

    Menentukan konfigurasi default untuk eksekusi pekerjaan Spark. Anda dapat menggunakan file spark-defaults.conf untuk mengonfigurasi parameter secara awal, seperti ukuran memori dan jumlah core CPU. Aplikasi Spark menggunakan konfigurasi parameter ini saat waktu proses.

    Unggah file ini untuk menjalankan tugas Spark.

    config.properties

    Berisi konfigurasi server Presto, seperti properti global untuk coordinator dan node pekerja di kluster Presto.

    Unggah file ini jika Anda menggunakan komponen Presto dan memilih OPEN LDAP atau Kerberos sebagai jenis pemetaan akun.

    presto.jks

    Menyimpan sertifikat keamanan, termasuk kunci privat dan sertifikat kunci publik yang dikeluarkan untuk aplikasi. Di mesin kueri database Presto, file presto.jks digunakan untuk mengaktifkan komunikasi terenkripsi SSL/TLS bagi proses Presto guna memastikan keamanan transmisi data.

  4. Konfigurasikan identitas akses default untuk kluster.

    Konfigurasikan akun yang digunakan untuk mengakses kluster CDH saat menjalankan tugas kluster CDH di DataWorks. Akun yang didukung bervariasi tergantung pada lingkungan.

    Catatan

    Saat mendaftarkan kluster, jika Anda mengatur Default Access Identity ke akun selain akun kluster dan tidak ada pemetaan akun yang dikonfigurasi atau jenis pemetaan diatur ke tanpa autentikasi, semua tugas akan gagal.

    Lingkungan

    Identitas akses default

    Referensi

    Lingkungan pengembangan

    • Akun kluster: Akun kluster tertentu digunakan untuk mengakses kluster CDH, terlepas dari siapa yang menjalankan tugas CDH di DataWorks, seperti Akun Alibaba Cloud atau Pengguna RAM dengan hanya izin pengembangan.

    • Akun yang dipetakan: Saat pelaksana tugas menjalankan tugas CDH, Anda harus mengonfigurasi pemetaan antara akun pelaksana tugas dan akun kluster. Setelah pemetaan dikonfigurasi, akun kluster yang dipetakan digunakan untuk mengakses kluster CDH saat tugas dijalankan.

    Untuk informasi selengkapnya tentang cara mengonfigurasi pemetaan akun, lihat Mengatur pemetaan identitas kluster.

    Lingkungan produksi

    • Akun kluster: Akun kluster tertentu digunakan untuk mengakses kluster CDH, terlepas dari siapa yang menjalankan tugas CDH di DataWorks, seperti Akun Alibaba Cloud atau Pengguna RAM dengan hanya izin pengembangan.

    • Akun yang dipetakan: Saat pemilik tugas, Akun Alibaba Cloud, atau Pengguna RAM menjalankan tugas CDH, Anda harus mengonfigurasi pemetaan antara akun yang sesuai dan akun kluster. Setelah pemetaan dikonfigurasi, akun kluster yang dipetakan digunakan untuk mengakses kluster CDH saat tugas dijalankan.

  5. Klik Complete Registration untuk mendaftarkan kluster di DataWorks.

Langkah 3: Inisialisasi grup sumber daya

Anda harus menginisialisasi grup sumber daya pertama kali saat mengikat kluster, atau jika konfigurasi layanan kluster berubah atau komponen ditingkatkan (misalnya, jika Anda mengubah file core-site.xml). Hal ini memastikan bahwa grup sumber daya dapat mengakses kluster CDH dan tugas kluster CDH dapat dijalankan menggunakan konfigurasi lingkungan saat ini dari grup sumber daya. Di halaman Cluster Management, temukan kluster CDH yang telah didaftarkan, klik Initialize Resource Group di pojok kanan atas, pilih grup sumber daya yang diperlukan, lalu inisialisasi.

Catatan
  • DataWorks hanya memungkinkan Anda menggunakan grup sumber daya arsitektur tanpa server (disarankan) dan grup sumber daya eksklusif untuk penjadwalan untuk menjalankan tugas kluster CDH. Oleh karena itu, Anda hanya dapat menginisialisasi dua jenis grup sumber daya ini. Jika tidak tersedia grup sumber daya, Anda dapat membuatnya sesuai kebutuhan. Untuk informasi selengkapnya, lihat Menggunakan grup sumber daya arsitektur tanpa server dan Menggunakan grup sumber daya eksklusif untuk penjadwalan.

  • Jika Anda mendaftarkan kluster dengan Custom Version ke DataWorks, Anda hanya dapat menggunakan grup sumber daya eksklusif untuk penjadwalan versi sebelumnya. Setelah pendaftaran selesai, Anda harus mengirim tiket untuk menghubungi dukungan teknis guna menginisialisasi lingkungan.

(Opsional) Menyetel antrian sumber daya YARN

Antrian sumber daya YARN mempartisi dan mengisolasi sumber daya kluster untuk memastikan bahwa berbagai jenis tugas dapat menggunakan sumber daya komputasi secara adil dan menghindari gangguan. Untuk menyetel antrian sumber daya YARN khusus untuk tugas modul yang berbeda, temukan kluster CDH yang telah Anda ikat di halaman Cluster Management. Di tab YARN Resource Queue, klik Edit YARN Resource Queue untuk mengonfigurasi pengaturan.

(Opsional) Menyetel parameter SPARK

Anda dapat menyetel parameter properti SPARK khusus untuk tugas di modul yang berbeda.

  1. Di halaman Cluster Management, temukan kluster CDH yang telah Anda ikat.

  2. Klik tab SPARK Parameters lalu klik Edit SPARK Parameters untuk menuju ke halaman pengeditan parameter SPARK kluster CDH.

  3. Klik Add di bawah modul. Masukkan Spark Property Name dan Spark Property Value yang sesuai untuk menyetel informasi properti Spark.

Langkah selanjutnya

  • Mengatur pemetaan identitas kluster: Jika identitas akses default untuk kluster CDH bukan akun kluster tertentu (artinya akses dilakukan melalui akun DataWorks), Anda harus mengonfigurasi pemetaan antara akun DataWorks dan akun kluster. Hal ini memungkinkan akun DataWorks mengakses kluster CDH menggunakan identitas kluster yang dipetakan, sehingga menerapkan isolasi dan kontrol izin data.

  • Setelah Anda mengonfigurasi sumber daya komputasi CDH, Anda dapat menggunakan node terkait CDH di Pengembangan Data untuk melakukan operasi pengembangan data.