All Products
Search
Document Center

DataWorks:Mengaitkan sumber daya komputasi CDH

Last Updated:Mar 27, 2026

Untuk mengembangkan dan mengelola task pada kluster Cloudera Distribution Including Apache Hadoop (CDH) di DataWorks, daftarkan kluster tersebut sebagai sumber daya komputasi. Setelah terdaftar, sumber daya komputasi tersebut dapat digunakan untuk task sinkronisasi data dan pengembangan data.

Wilayah yang tersedia: Tiongkok (Beijing), Tiongkok (Shanghai), Tiongkok (Shenzhen), Tiongkok (Hangzhou), Tiongkok (Zhangjiakou), Tiongkok (Chengdu), dan Jerman (Frankfurt).

Prasyarat

Sebelum memulai, pastikan Anda telah:

  • Menambahkan pengguna RAM ke ruang kerja dengan peran Workspace Administrator.

  • Men-deploy kluster CDH — DataWorks mendukung kluster CDH yang dideploy di luar Alibaba Cloud ECS, selama lingkungan deployment terhubung ke virtual private cloud (VPC) Alibaba Cloud. Lihat Konektivitas jaringan untuk sumber data IDC.

  • Memiliki kelompok sumber daya yang dikaitkan dengan ruang kerja, dengan konektivitas jaringan yang telah dikonfirmasi:

Izin

Operator Izin yang diperlukan
Akun Alibaba Cloud Tidak ada
RAM user atau RAM role O&M dan Workspace administrator, atau izin AliyunDataWorksFullAccess. Lihat Memberikan izin administrator ruang kepada pengguna.

Buka daftar sumber daya komputasi

  1. Login ke Konsol DataWorks dan beralih ke wilayah target.

  2. Pada panel navigasi kiri, pilih More > Management Center. Pilih ruang kerja Anda dan klik Go To Management Center.

  3. Pada panel navigasi kiri, klik Computing Resource.

Mengaitkan sumber daya komputasi CDH

  1. Pada halaman Computing Resource, klik Associate Computing Resource.

  2. Pada halaman Associate Computing Resource, atur tipe sumber daya komputasi menjadi CDH. Anda akan dialihkan ke halaman Associate CDH Computing Resource.

  3. Konfigurasikan parameter yang dijelaskan di bawah ini, lalu klik Confirm.

Versi dan nama kluster

Parameter Deskripsi
Cluster version Versi CDH atau CDP yang akan didaftarkan. Untuk versi yang didukung beserta versi komponen tetapnya, lihat Informasi koneksi kluster. Pilih Custom version untuk menentukan versi komponen secara manual.
Cluster name Pilih kluster yang sudah terdaftar di ruang kerja lain untuk memuat konfigurasinya, atau masukkan nama untuk membuat konfigurasi baru.
Computing resource instance name Nama tampilan untuk sumber daya komputasi ini. Saat waktu proses, task mereferensikan sumber daya komputasi berdasarkan nama ini.
Kluster versi kustom hanya mendukung kelompok sumber daya eksklusif lama untuk penjadwalan. Setelah pendaftaran, kirim tiket untuk menginisialisasi lingkungan.

Informasi koneksi kluster

Konfigurasikan titik akhir koneksi untuk komponen Hadoop yang akan digunakan oleh task Anda. Sistem secara otomatis mendeteksi versi komponen berdasarkan versi kluster yang dipilih.

Component Format koneksi Kapan dikonfigurasi
Hive — HiveServer2 jdbc:hive2://<host>:<port>/<database> Kirim pekerjaan Hive
Hive — Metastore thrift://<host>:<port> Kirim pekerjaan Hive
Impala jdbc:impala://<host>:<port>/<schema> Kirim pekerjaan Impala
Spark Pilih versi default dari daftar Jalankan task Spark
YARN — alamat ResourceManager http://<host>:<port> Kirim task Spark atau MapReduce
YARN — alamat webapp JobHistory http://<host>:<port2> Lihat detail task historis di antarmuka web JobHistory Server
MapReduce Pilih versi default dari daftar Jalankan task MapReduce
Presto jdbc:presto://<host>:<port>/<catalog>/<schema> Kirim pekerjaan Presto (bukan komponen CDH default)

Untuk mengetahui parameter koneksi kluster Anda, lihat Mendapatkan informasi kluster CDH atau CDP dan mengonfigurasi konektivitas jaringan.

Jika Anda menggunakan serverless resource group dan mengakses komponen CDH melalui nama domain, konfigurasikan authoritative resolution untuk nama domain komponen CDH dan set their effective scope di Alibaba Cloud DNS PrivateZone.

File konfigurasi kluster

Unggah file konfigurasi yang sesuai dengan task yang akan Anda jalankan.

File Deskripsi Unggah saat
Core-site file Pengaturan I/O global Hadoop Distributed File System (HDFS) dan MapReduce Running Spark or MapReduce tasks
Hdfs-site file Pengaturan HDFS: ukuran blok, faktor replikasi, dan nama path
Mapred-site file Mode eksekusi MapReduce dan perilaku penjadwalan Running MapReduce tasks
Yarn-site file Pengaturan resource manager YARN, node manager, dan waktu proses aplikasi Running Spark or MapReduce tasks, or using Kerberos account mapping
Hive-site file Pengaturan koneksi database Hive, metastore, dan mesin eksekusi Using Kerberos account mapping
Spark-defaults file Pengaturan default job Spark (spark-defaults.conf): memori, core CPU, dan parameter waktu proses lainnya Running Spark tasks
Config.properties file Pengaturan coordinator dan node pekerja Presto Using Presto with OPEN LDAP or Kerberos authentication
Presto.jks file Sertifikat SSL/TLS untuk komunikasi Presto terenkripsi

Identitas akses default

Atur identitas kluster yang digunakan saat task dijalankan terhadap kluster CDH. Untuk mengonfigurasi pemetaan identitas, buka tab Account Mapping pada halaman Computing Resources. Lihat Set the cluster identity mapping.

Lingkungan Opsi yang tersedia
Development environment Akun kluster; Akun kluster terpetakan dari pelaksana task
Production environment Akun kluster; Akun kluster terpetakan dari pemilik task; Akun kluster terpetakan dari Akun Alibaba Cloud; Akun kluster terpetakan dari RAM user

Inisialisasi kelompok sumber daya

Inisialisasi kelompok sumber daya saat Anda mendaftarkan kluster untuk pertama kalinya atau setelah mengubah konfigurasi layanan kluster (misalnya, memodifikasi core-site.xml). Inisialisasi memastikan kelompok sumber daya dapat menjangkau kluster CDH setelah konektivitas jaringan dikonfigurasi.

  1. Pada halaman Computing Resource, temukan sumber daya komputasi CDH yang telah Anda buat.

  2. Di pojok kanan atas, klik Initialize Resource Group.

  3. Klik Initialize di sebelah kelompok sumber daya target, lalu klik OK.

Operasi tambahan

Atur antrian sumber daya YARN (opsional)

Pada halaman Computing Resource, temukan kluster CDH. Pada tab YARN Resource Queue, klik EditYARN Resource Queue untuk menetapkan antrian sumber daya YARN khusus bagi task di berbagai modul.

Atur parameter Spark (opsional)

Pada halaman Computing Resource, temukan kluster CDH. Pada tab Spark-related Parameter, klik EditSpark-related Parameter. Klik Add di bawah modul target, masukkan Spark Property Name dan Spark Property Value. Untuk daftar lengkap properti Spark, lihat Spark configuration.

Konfigurasi pemetaan host untuk autentikasi Kerberos (opsional)

Saat menggunakan serverless resource group dengan kluster CDH yang memiliki autentikasi Kerberos aktif, pengiriman task dapat gagal jika DNS tidak dapat menyelesaikan alamat IP kluster ke hostname yang terdaftar di Kerberos.

Fitur Host Configuration memungkinkan Anda menentukan tabel pemetaan statis dari IP ke hostname untuk sumber daya komputasi tersebut. DataWorks menggunakan pemetaan ini saat mengakses kluster CDH Anda, sehingga memastikan autentikasi Kerberos berhasil.

Untuk mengonfigurasi pemetaan host:

  1. Pada halaman Computing Resource, temukan sumber daya komputasi CDH dan klik Host Configuration.

  2. Pada kotak dialog, masukkan pemetaan dalam format berikut. Setiap baris merupakan satu catatan pemetaan:

    <IP address> <Hostname>

    Pisahkan alamat IP dan hostname dengan satu atau beberapa spasi. Konfigurasikan pemetaan untuk semua node utama yang terlibat dalam autentikasi Kerberos dan eksekusi task, termasuk NameNode, ResourceManager, dan NodeManagers.

  3. Klik OK untuk menyimpan. Hostname yang dikonfigurasi akan muncul pada kartu sumber daya komputasi, yang menandakan konfigurasi telah aktif.

Penting

Konfigurasi host hanya berlaku untuk sumber daya komputasi saat ini dan tidak memengaruhi sumber daya komputasi lain di ruang kerja.

Langkah berikutnya

Setelah mengonfigurasi sumber daya komputasi CDH, gunakan node terkait CDH di Data Studio untuk pengembangan data.