All Products
Search
Document Center

DataWorks:Persiapan: Dapatkan informasi kluster dan konfigurasikan jaringan

Last Updated:Jun 22, 2026

DataWorks terhubung ke kluster Cloudera’s Distribution Including Apache Hadoop (CDH) dan Cloudera Data Platform (CDP). Anda dapat mendaftarkan kluster CDH atau CDP di DataWorks untuk operasi pengembangan dan tata kelola data, seperti pengembangan task, penjadwalan, manajemen metadata di Data Map, serta Pemeriksaan Kualitas Data. Sebelum mendaftarkan kluster, Anda harus memperoleh informasi konfigurasi yang diperlukan dan menetapkan konektivitas jaringan antara kluster dan kelompok sumber daya. Topik ini menggunakan kluster CDH sebagai contoh untuk menunjukkan cara mendapatkan informasi kluster dan mengonfigurasi konektivitas jaringan.

Informasi latar belakang

  • CDH adalah distribusi platform open-source dari Cloudera. Platform ini mencakup fitur siap pakai seperti manajemen kluster, pemantauan, dan diagnostik, serta mendukung berbagai komponen untuk menjalankan alur kerja data besar end-to-end.

  • CDP adalah platform data publik yang mengumpulkan dan mengkonsolidasikan data pelanggan dari berbagai platform. Platform ini mengumpulkan data real-time untuk membuat profil data pengguna individual.

Anda dapat mendaftarkan kluster CDH dan CDP di DataWorks untuk pengembangan task, penjadwalan, manajemen metadata di Data Map, serta Pemeriksaan Kualitas Data.

Prasyarat

  • Kluster CDH telah diterapkan.

    DataWorks mendukung CDH yang diterapkan di lingkungan selain Alibaba Cloud ECS, tetapi Anda harus memastikan adanya konektivitas jaringan antara lingkungan penerapan tersebut dan VPC Alibaba Cloud. Biasanya, Anda dapat menggunakan layanan seperti Express Connect atau VPN untuk menetapkan koneksi ini.

  • Diperlukan kelompok sumber daya serverless DataWorks (disarankan) atau kelompok sumber daya eksklusif lama untuk penjadwalan.

    Secara default, kelompok sumber daya DataWorks terisolasi secara jaringan dari produk cloud lainnya. Untuk terhubung ke CDH, Anda harus terlebih dahulu menetapkan konektivitas jaringan antara kluster CDH dan kelompok sumber daya tersebut.

    Catatan
    • Kelompok sumber daya serverless (disarankan) adalah kelompok sumber daya serbaguna yang mendukung berbagai jenis task, seperti sinkronisasi data dan penjadwalan task. Untuk detail pembelian, lihat Gunakan kelompok sumber daya serverless. Pengguna baru (yang belum mengaktifkan edisi apa pun dari DataWorks di wilayah saat ini) hanya dapat membeli kelompok sumber daya versi baru.

    • Anda juga dapat menggunakan kelompok sumber daya eksklusif lama untuk penjadwalan guna menjalankan task CDH atau CDP. Untuk informasi lebih lanjut, lihat Gunakan kelompok sumber daya eksklusif untuk penjadwalan.

Dapatkan informasi konfigurasi kluster CDH

Ikuti langkah-langkah berikut untuk mendapatkan informasi konfigurasi CDH yang diperlukan guna mendaftarkan kluster di DataWorks.

  1. Dapatkan informasi versi CDH.

    Masuk ke Cloudera Manager. Di halaman utama, temukan informasi versi CDH, seperti Cluster 1 (CDH 6.1.1, Parcel), di panel kluster sebelah kiri. Selain itu, pastikan status layanan seperti HBase, HDFS, Hive, Hue, Impala, Oozie, Solr, Spark, YARN, dan ZooKeeper sedang Berjalan.

  2. Dapatkan informasi alamat host dan komponen yang diperlukan untuk mengonfigurasi koneksi kluster saat pendaftaran.

    Temukan informasi di Cloudera Manager

    Masuk ke Cloudera Manager. Di bilah navigasi atas, klik Hosts > Roles. Halaman Roles mengelompokkan host berdasarkan role yang ditetapkan. Misalnya, host cdh-header-1-cn-shanghai memiliki role seperti HMS, HS2, dan RM, sedangkan host cdh-worker-[1-2]-cn-shanghai memiliki role ID.

    Keterangan:

    • HS2: HiveServer2

    • HMS: Hive Metastore

    • ID: Impala Daemon

    • RM: YARN ResourceManager

  3. Dapatkan file konfigurasi yang akan diunggah selama pendaftaran kluster CDH.

    1. Masuk ke Cloudera Manager.

    2. Di halaman Status, klik menu drop-down untuk kluster dan pilih View Client Configuration URLs.

    3. Unduh paket konfigurasi untuk layanan yang diperlukan. Misalnya, untuk mengunduh konfigurasi YARN, cari YARN di kotak dialog. Kotak dialog tersebut menampilkan tautan unduhan untuk konfigurasi klien layanan seperti YARN (MR2 Included), HBase, Solr, HDFS, dan Hive. Klik ikon unduh untuk layanan target, misalnya YARN (MR2 Included), untuk mendapatkan file konfigurasi klien.

  4. Dapatkan informasi jaringan kluster CDH untuk mengonfigurasi koneksi ke kelompok sumber daya DataWorks.

    1. Masuk ke Konsol ECS tempat kluster CDH diterapkan.

    2. Di daftar instans, temukan Instance ECS tempat kluster CDH diterapkan dan klik nama instans tersebut untuk membuka halaman Instance Details. Lihat dan catat informasi Security Group, VPC, dan vSwitch.

Konfigurasikan konektivitas jaringan

Kelompok sumber daya serverless

Bagian ini menggunakan kelompok sumber daya serverless sebagai contoh untuk menjelaskan cara mengonfigurasi konektivitas jaringan antara kelompok sumber daya dan kluster CDH.

Secara default, kelompok sumber daya serverless DataWorks terisolasi secara jaringan dari produk cloud lainnya. Untuk terhubung ke kluster CDH, Anda harus melakukan bind kelompok sumber daya ke VPC tempat kluster tersebut berada. Hal ini akan menetapkan konektivitas jaringan antara kluster CDH dan kelompok sumber daya.

  1. Buka halaman pengaturan jaringan untuk kelompok sumber daya serverless.

    1. Masuk ke Konsol DataWorks.

    2. Di panel navigasi kiri, klik Resource Group. Halaman Resource Groups akan terbuka pada tab Exclusive Resource Group secara default.

    3. Temukan kelompok sumber daya Anda dan klik Network Settings di kolom Actions.

  2. Tautkan VPC.

    Di tab VPC Binding, pada bagian Data Scheduling & Data Integration, klik Add Binding. Di halaman konfigurasi, pilih VPC, zona, dan vSwitch kluster CDH yang telah Anda catat di Langkah 4 pada bagian Dapatkan informasi konfigurasi kluster CDH.

  3. Konfigurasikan host.

    Buka Konsol Alibaba Cloud DNS. Gunakan Private DNS (PrivateZone) untuk melakukan resolusi otoritatif terhadap alamat host yang telah Anda catat di Langkah 2 pada bagian Dapatkan informasi konfigurasi kluster CDH.

    1. Aktifkan Private DNS. Untuk detailnya, lihat Aktifkan Private DNS.

      Catatan

      Anda dapat melewati langkah ini jika Private DNS sudah diaktifkan.

    2. Tambahkan nama domain otoritatif bawaan. Untuk detailnya, lihat Tambahkan nama domain otoritatif bawaan.

      Catatan
      • Topik ini menggunakan hostname cdh-header-1-cn-shanghai yang diperoleh dari Temukan informasi secara manual di antarmuka Cloudera Manager sebagai contoh untuk resolusi otoritatif. Sesuaikan parameter berdasarkan konfigurasi hostname aktual Anda.

      • Alamat IP yang di-resolve adalah private IP address dari Instance ECS tempat kluster CDH Anda diterapkan.

    3. Tetapkan cakupan untuk zona tersebut. Untuk detailnya, lihat Tetapkan Cakupan untuk Zona.

      Catatan

      Saat menetapkan cakupan VPC untuk zona, pilih VPC tempat kelompok sumber daya dilakukan bind.

Kelompok sumber daya eksklusif untuk penjadwalan

Bagian ini menjelaskan cara mengonfigurasi konektivitas jaringan antara kelompok sumber daya eksklusif untuk penjadwalan dan kluster CDH.

Secara default, kelompok sumber daya eksklusif DataWorks untuk penjadwalan terisolasi secara jaringan dari produk cloud lainnya. Untuk terhubung ke kluster CDH, Anda harus melakukan bind kelompok sumber daya ke VPC tempat kluster tersebut berada. Hal ini akan menetapkan konektivitas jaringan antara kluster CDH dan kelompok sumber daya eksklusif untuk penjadwalan.

  1. Buka halaman pengaturan jaringan untuk kelompok sumber daya eksklusif.

    1. Masuk ke Konsol DataWorks.

    2. Di panel navigasi kiri, klik Resource Group. Halaman Resource Groups akan terbuka pada tab Exclusive Resource Group secara default.

    3. Temukan kelompok sumber daya eksklusif untuk penjadwalan Anda dan klik Network Settings di kolom Actions.

  2. Lakukan bind VPC.

    Di tab VPC Binding, klik Add Binding. Di halaman konfigurasi, pilih VPC, zona, vSwitch, dan security group kluster CDH yang telah Anda catat di Langkah 4 pada bagian Dapatkan informasi konfigurasi kluster CDH.

  3. Konfigurasikan host.

    Klik tab Hostname-to-IP Mapping. Klik Batch Edit dan masukkan informasi alamat host yang telah Anda catat di Langkah 2 pada bagian Dapatkan informasi konfigurasi kluster CDH di kotak dialog.

Langkah selanjutnya

Setelah menyelesaikan persiapan dalam topik ini, Anda dapat mendaftarkan kluster CDH di DataWorks untuk memulai pengembangan. Untuk informasi lebih lanjut, lihat DataStudio (legacy): Bind compute engine CDH.