全部产品
Search
文档中心

DataWorks:Prasyarat: Informasi kluster dan konfigurasi jaringan

更新时间:Mar 04, 2026

DataWorks memungkinkan Anda menghubungkan ke kluster Cloudera's Distribution Including Apache Hadoop (CDH) dan Cloudera Data Platform (CDP). Anda dapat mendaftarkan kluster CDH dan CDP di DataWorks untuk menjalankan berbagai operasi pengembangan dan administrasi data, seperti pengembangan task, penjadwalan, Data Map (manajemen metadata), dan Data Quality. Sebelum mendaftarkan kluster CDH atau CDP, Anda harus mendapatkan informasi konfigurasi yang diperlukan serta mengonfigurasi konektivitas jaringan antara kluster dan kelompok sumber daya. Topik ini menggunakan kluster CDH sebagai contoh dan menjelaskan cara mendapatkan informasi kluster serta mengonfigurasi konektivitas jaringan tersebut.

Informasi latar belakang

  • CDH adalah distribusi platform open source dari Cloudera yang menyediakan fitur siap pakai seperti manajemen kluster, pemantauan, dan diagnostik. CDH juga mendukung berbagai komponen untuk menjalankan alur kerja data besar end-to-end.

  • CDP adalah platform data publik yang mengumpulkan dan mengintegrasikan data pelanggan lintas platform, membantu Anda mengumpulkan data real-time dan membangun profil data pengguna individual.

Anda dapat mendaftarkan kluster CDH dan CDP di DataWorks untuk menjalankan operasi pengembangan dan administrasi data sesuai kebutuhan bisnis Anda, termasuk pengembangan task, penjadwalan, Data Map (manajemen metadata), dan Data Quality.

Prasyarat

  • Kluster CDH telah dideploy.

    DataWorks mendukung kluster CDH yang tidak dideploy pada instans Alibaba Cloud ECS. Namun, Anda harus memastikan bahwa lingkungan tempat kluster CDH dideploy dapat terhubung ke virtual private cloud (VPC) Alibaba Cloud. Biasanya, Anda dapat menggunakan solusi jaringan seperti Express Connect atau VPN untuk menjamin konektivitas tersebut.

  • Anda telah membeli kelompok sumber daya Serverless (direkomendasikan) atau kelompok sumber daya eksklusif versi lama untuk penjadwalan DataWorks.

    Secara default, kelompok sumber daya DataWorks yang telah dibeli tidak dapat terhubung ke produk cloud lainnya. Untuk terhubung ke kluster CDH, Anda harus terlebih dahulu menetapkan konektivitas jaringan antara kluster CDH dan kelompok sumber daya sebelum menjalankan operasi terkait.

    Catatan
    • Kelompok sumber daya Serverless (direkomendasikan) merupakan kelompok sumber daya tujuan umum yang dapat digunakan untuk berbagai jenis task, seperti sinkronisasi data dan penjadwalan task. Untuk informasi lebih lanjut tentang pembelian kelompok sumber daya Serverless, lihat Menggunakan kelompok sumber daya Serverless. Pengguna baru hanya dapat membeli kelompok sumber daya baru. Pengguna baru adalah pengguna yang belum mengaktifkan versi apa pun dari DataWorks di wilayah saat ini.

    • Jika Anda telah membeli kelompok sumber daya eksklusif versi lama untuk penjadwalan, Anda juga dapat menggunakannya untuk menjalankan task CDH atau CDP. Untuk informasi lebih lanjut, lihat Menggunakan kelompok sumber daya eksklusif untuk penjadwalan.

Dapatkan informasi konfigurasi kluster CDH

Ikuti langkah-langkah berikut untuk mendapatkan informasi konfigurasi CDH yang diperlukan saat mendaftarkan kluster CDH di DataWorks.

  1. Dapatkan versi CDH.

    Masuk ke Cloudera Manager. Di halaman utama, temukan versi kluster CDH yang telah dideploy. Versi tersebut ditampilkan di sebelah kanan nama kluster, seperti yang ditunjukkan pada gambar berikut.cdh版本信息

  2. Dapatkan alamat host dan komponen. Informasi ini akan digunakan untuk mengonfigurasi koneksi kluster saat mendaftarkan kluster CDH.

    Memeriksa secara manual di Cloudera Manager

    Masuk ke Cloudera Manager. Dari menu drop-down Hosts, pilih Roles. Identifikasi layanan yang akan dikonfigurasi berdasarkan kata kunci dan ikonnya. Kemudian, temukan Host yang sesuai di sebelah kiri dan catat alamatnya dalam format yang diperlukan.方法二

    Detail:

    • HS2: HiveServer2

    • HMS: Hive Metastore

    • ID: Impala Daemon

    • RM: YARN ResourceManager

  3. Dapatkan file konfigurasi. File ini akan diunggah saat mendaftarkan kluster CDH.

    1. Masuk ke Cloudera Manager.

    2. Di halaman Status, klik menu drop-down kluster dan pilih View Client Configuration URL.配置文件

    3. Di kotak dialog, unduh paket konfigurasi. Contoh ini menggunakan YARN.配置文件2

  4. Dapatkan informasi jaringan kluster CDH. Informasi ini akan digunakan untuk mengonfigurasi konektivitas jaringan dengan kelompok sumber daya DataWorks.

    1. Masuk ke Konsol ECS tempat kluster CDH dideploy.

    2. Di daftar instans, temukan instans ECS tempat kluster CDH dideploy. Klik nama instans untuk membuka halaman Instance Details. Di halaman ini, catat informasi Security Group, VPC, dan Virtual Switch.

Konfigurasikan konektivitas jaringan

Kelompok Sumber Daya Serverless

Bagian ini menjelaskan cara mengonfigurasi konektivitas jaringan antara kelompok sumber daya Serverless dan kluster CDH.

Secara default, kelompok sumber daya Serverless DataWorks yang telah dibeli tidak dapat terhubung ke produk cloud lainnya. Untuk terhubung ke kluster CDH, Anda harus mendapatkan informasi jaringan kluster CDH dan menyambungkan kelompok sumber daya ke VPC tempat kluster tersebut dideploy guna menjamin konektivitas jaringan antara keduanya.

  1. Buka halaman konfigurasi jaringan untuk kelompok sumber daya Serverless.

    1. Masuk ke Konsol DataWorks.

    2. Di panel navigasi sebelah kiri, klik Resource Group. Tab Exclusive Resource Groups di halaman Resource Group List akan ditampilkan secara default.

    3. Klik Network Settings di sebelah kelompok sumber daya Anda.

  2. Sambungkan VPC.

    Di tab VPC Binding, pada bagian Data Scheduling & Data Integration, klik Add Binding. Di halaman konfigurasi, pilih VPC, zona, dan vSwitch tempat kluster CDH berada. Gunakan informasi yang telah Anda catat di Langkah 4 bagian "Dapatkan informasi konfigurasi kluster CDH".

  3. Konfigurasikan host.

    Buka konsol Alibaba Cloud DNS dan tambahkan zona otoritatif di PrivateZone untuk alamat host yang telah Anda catat di Langkah 2 bagian "Dapatkan informasi konfigurasi kluster CDH".

    1. Aktifkan resolusi DNS internal. Untuk informasi lebih lanjut, lihat Aktifkan resolusi DNS internal.

      Catatan

      Jika Anda telah mengaktifkan resolusi DNS internal, Anda dapat melewati langkah ini.

    2. Tambahkan nama domain otoritatif bawaan. Untuk informasi lebih lanjut, lihat Tambahkan nama domain otoritatif bawaan.

      Catatan
      • Topik ini menggunakan nama domain host cdh-header-1-cn-shanghai yang diperoleh di bagian "Dapatkan alamat dari Cloudera Manager Admin Console" sebagai contoh. Resolusi otoritatif dikonfigurasi untuk nama domain cdh-header-1-cn-shanghai. Sesuaikan parameter ini berdasarkan nama domain host Anda.

      • Alamat IP yang di-resolve adalah Private IP Address dari instans ECS tempat kluster CDH dideploy.

    3. Tetapkan cakupan nama domain. Untuk informasi lebih lanjut, lihat Tetapkan cakupan nama domain.

      Catatan

      Saat menetapkan cakupan nama domain, pilih VPC tempat kluster CDH dan kelompok sumber daya disambungkan.

Kelompok Sumber Daya Eksklusif untuk Penjadwalan

Bagian ini menjelaskan cara mengonfigurasi konektivitas jaringan antara kelompok sumber daya eksklusif untuk penjadwalan dan kluster CDH.

Secara default, kelompok sumber daya eksklusif untuk penjadwalan DataWorks yang telah dibeli tidak dapat terhubung ke produk cloud lainnya. Untuk terhubung ke kluster CDH, Anda harus mendapatkan informasi jaringan kluster CDH dan menyambungkan kelompok sumber daya eksklusif untuk penjadwalan ke VPC tempat kluster tersebut dideploy guna menjamin konektivitas jaringan antara keduanya.

  1. Buka halaman konfigurasi jaringan untuk kelompok sumber daya eksklusif.

    1. Masuk ke Konsol DataWorks.

    2. Di panel navigasi sebelah kiri, klik Resource Group. Halaman Resource Group List akan muncul, dan tab Exclusive Resource Groups dipilih secara default.

    3. Klik Network Settings di sebelah kelompok sumber daya eksklusif untuk penjadwalan Anda.

  2. Sambungkan VPC.

    Di tab VPC Binding, klik Add Binding. Di halaman konfigurasi, pilih VPC, zona, vSwitch, dan security group untuk kluster CDH. Informasi ini telah Anda catat di Langkah 4 bagian "Dapatkan informasi konfigurasi kluster CDH".

  3. Konfigurasikan host.

    Di tab Host Configuration, klik Batch Modify. Di kotak dialog, masukkan informasi alamat host yang telah Anda catat di Langkah 2 bagian "Dapatkan informasi konfigurasi kluster CDH".Host configuration

Langkah selanjutnya

Setelah menyelesaikan persiapan yang dijelaskan dalam topik ini, Anda dapat mendaftarkan kluster CDH di DataWorks dan menjalankan operasi pengembangan. Untuk informasi lebih lanjut, lihat Pengembangan Data (Legacy): Menyambungkan resource komputasi CDH.