全部产品
Search
文档中心

DataWorks:Pengembangan Data Baru: Menyambungkan sumber daya komputasi CDH

更新时间:Nov 19, 2025

Untuk menggunakan DataWorks dalam mengembangkan dan mengelola tugas pada kluster Cloudera Distribution Including Apache Hadoop (CDH), Anda harus menyambungkan kluster CDH ke DataWorks sebagai sumber daya komputasi. Setelah terhubung, sumber daya komputasi ini dapat digunakan di DataWorks untuk operasi seperti sinkronisasi data dan pengembangan.

Prasyarat

  • Pengguna Resource Access Management (RAM) yang melakukan operasi telah ditambahkan ke ruang kerja dan diberi peran Administrator Ruang Kerja.

  • Kluster CDH telah diterapkan.

    Catatan

    DataWorks mendukung kluster CDH yang diterapkan di lingkungan non-ECS Alibaba Cloud, asalkan lingkungan tersebut terhubung ke virtual private cloud (VPC) Alibaba Cloud. Untuk membuat koneksi tersebut, lihat Konektivitas Jaringan untuk Sumber Data IDC.

  • Kelompok sumber daya telah disambungkan ke ruang kerja, dan konektivitas jaringan telah dikonfirmasi.

Batasan

  • Batasan wilayah: Fitur ini tersedia di Tiongkok (Beijing), Tiongkok (Shanghai), Tiongkok (Shenzhen), Tiongkok (Hangzhou), Tiongkok (Zhangjiakou), Tiongkok (Chengdu), dan Jerman (Frankfurt). Computing Resource Computing Resource

  • Batasan izin:

    Operator

    Izin yang diperlukan

    Akun Alibaba Cloud

    Tidak diperlukan izin tambahan.

    Pengguna RAM/Peran RAM Alibaba Cloud

Buka halaman daftar sumber daya komputasi

  1. Masuk ke Konsol DataWorks. Beralih ke wilayah tujuan. Di panel navigasi sebelah kiri, pilih More > Management Center. Dari daftar drop-down, pilih ruang kerja Anda dan klik Go To Management Center.

  2. Di panel navigasi sebelah kiri, klik Computing Resources.

Menyambungkan sumber daya komputasi CDH

Di halaman Sumber Daya Komputasi, Anda dapat mengonfigurasi dan menyambungkan sumber daya komputasi CDH.

  1. Pilih jenis sumber daya komputasi yang akan disambungkan.

    1. Klik Attach Computing Resource untuk membuka halaman Attach Computing Resource.

    2. Di halaman Attach Computing Resource, atur jenis sumber daya komputasi menjadi CDH. Anda akan dialihkan ke halaman konfigurasi Attach CDH Computing Resource.

  2. Konfigurasikan sumber daya komputasi CDH.

    Di halaman Attach CDH Computing Resource, konfigurasikan parameter sesuai dengan tabel berikut.

    Parameter

    Deskripsi konfigurasi

    Cluster Version

    Pilih versi kluster yang ingin Anda daftarkan.

    Anda dapat memilih versi CDH 5.16.2, CDH 6.1.1, CDH 6.2.1, CDH 6.3.2, atau CDP 7.1.7 yang disediakan oleh DataWorks. Untuk versi-versi ini, versi komponennya telah ditetapkan sesuai dengan versi yang ditentukan untuk setiap komponen dalam Informasi koneksi kluster. Jika versi kluster ini tidak memenuhi kebutuhan Anda, pilih Custom Version dan konfigurasikan versi komponen sesuai kebutuhan.

    Catatan
    • Komponen yang perlu Anda konfigurasi bervariasi tergantung pada versi kluster. Antarmuka pengguna menentukan komponen yang diperlukan.

    • Jika Anda mendaftarkan kluster Custom Version ke DataWorks, hanya kelompok sumber daya eksklusif lama untuk penjadwalan yang didukung. Setelah pendaftaran selesai, Anda harus mengirimkan tiket ke helpdesk untuk melakukan inisialisasi lingkungan.

    Cluster Name

    Pilih nama kluster yang telah didaftarkan di ruang kerja lain untuk memuat konfigurasinya, atau masukkan nama kustom untuk membuat konfigurasi baru.

    Cluster Connection Information

    Informasi koneksi Hive

    Digunakan untuk mengirimkan pekerjaan Hive ke kluster.

    • Format konfigurasi HiveServer2: jdbc:hive2://<host>:<port>/<database>

    • Format konfigurasi Metastore:thrift://<host>:<port>

    Cara mendapatkan parameter: Untuk informasi selengkapnya, lihat Mendapatkan informasi kluster CDH atau CDP dan mengonfigurasi konektivitas jaringan.

    Pemilihan versi komponen: Sistem secara otomatis mendeteksi versi komponen untuk kluster saat ini.

    Catatan

    Jika Anda menggunakan kelompok sumber daya arsitektur tanpa server untuk mengakses komponen CDH menggunakan nama domain, Anda harus mengonfigurasi resolusi otoritatif untuk nama domain komponen CDH dan menetapkan cakupan efektifnya di PrivateZone DNS Alibaba Cloud.

    Informasi koneksi Impala

    Digunakan untuk mengirimkan pekerjaan Impala.

    Format konfigurasi: jdbc:impala://<host>:<port>/<schema>.

    Informasi koneksi Spark

    Untuk menggunakan komponen Spark di DataWorks, Anda dapat memilih versi default dan mengonfigurasinya di sini.

    Informasi koneksi Yarn

    Konfigurasi untuk mengirimkan tugas dan melihat detail tugas.

    • Format konfigurasi Yarn.Resourcemanager.Address: http://<host>:<port>

      Catatan

      Alamat untuk mengirimkan tugas Spark atau MapReduce.

    • Format konfigurasi Jobhistory.Webapp.Address: http://<host>:<port2>

      Catatan

      Alamat antarmuka web Server JobHistory. Anda dapat mengakses alamat ini di browser untuk melihat detail tugas historis.

    Informasi koneksi MapReduce

    Untuk menggunakan komponen MapReduce di DataWorks, Anda dapat memilih versi default dan mengonfigurasinya di sini.

    Informasi koneksi Presto

    Digunakan untuk mengirimkan pekerjaan Presto.

    Format konfigurasi alamat JDBC: jdbc:presto://<host>:<port>/<catalog>/<schema>

    Catatan

    Ini bukan komponen CDH default. Konfigurasikan sesuai kebutuhan.

    Cluster Configuration Files

    Konfigurasi file Core-Site

    Berisi konfigurasi global untuk pustaka Hadoop Core, seperti pengaturan I/O umum untuk Sistem File Terdistribusi Hadoop (HDFS) dan MapReduce.

    Unggah file ini untuk menjalankan tugas Spark atau MapReduce.

    Konfigurasi file Hdfs-Site

    Berisi konfigurasi HDFS, seperti ukuran blok, jumlah cadangan, dan nama path.

    Konfigurasi file Mapred-Site

    Digunakan untuk mengonfigurasi parameter MapReduce, seperti mode eksekusi dan perilaku penjadwalan pekerjaan MapReduce.

    Unggah file ini untuk menjalankan tugas MapReduce.

    Konfigurasi file Yarn-Site

    Berisi semua konfigurasi terkait daemon YARN, seperti konfigurasi lingkungan untuk manajer sumber daya, manajer node, dan waktu proses aplikasi.

    Unggah file ini untuk menjalankan tugas Spark atau MapReduce, atau jika Anda mengatur jenis pemetaan akun ke Kerberos.

    Konfigurasi file Hive-Site

    Berisi berbagai parameter untuk mengonfigurasi Hive, seperti informasi koneksi database, pengaturan Hive Metastore, dan mesin eksekusi.

    Unggah file ini jika Anda mengatur jenis pemetaan akun ke Kerberos.

    Konfigurasi file Spark-Defaults

    Digunakan untuk menentukan konfigurasi default untuk eksekusi pekerjaan Spark. Anda dapat menggunakan file spark-defaults.conf untuk menyetel parameter sebelumnya, seperti ukuran memori dan jumlah core CPU. Aplikasi Spark menggunakan pengaturan parameter ini pada waktu proses.

    Unggah file ini untuk menjalankan tugas Spark.

    Konfigurasi file Config.Properties

    Berisi konfigurasi untuk server Presto, seperti properti global untuk koordinator dan node pekerja di kluster Presto.

    Unggah file ini jika Anda menggunakan komponen Presto dan mengatur jenis pemetaan akun ke OPEN LDAP atau Kerberos.

    Konfigurasi file Presto.Jks

    Digunakan untuk menyimpan sertifikat keamanan, termasuk kunci privat dan sertifikat kunci publik yang dikeluarkan untuk aplikasi. Dalam mesin kueri database Presto, file presto.jks digunakan untuk mengaktifkan komunikasi terenkripsi SSL/TLS untuk proses Presto guna memastikan keamanan transmisi data.

    Default Access Identity

    Jika Anda memilih untuk menggunakan identitas yang terkait dengan akun kluster yang dipetakan, Anda dapat membuka tab Account Mapping di halaman Computing Resources untuk mengatur pemetaan identitas kluster.

    • Lingkungan pengembangan: Anda dapat memilih Cluster account atau Mapped cluster account of task executor.

    • Lingkungan produksi: Anda dapat memilih Cluster account, Mapped cluster account of task owner, Mapped cluster account of Alibaba Cloud account, atau Mapped cluster account of RAM user.

    Computing Resource Instance Name

    Masukkan nama kustom untuk instans sumber daya komputasi. Saat waktu proses, Anda dapat memilih sumber daya komputasi untuk suatu tugas berdasarkan nama ini.

  3. Klik Confirm untuk menyelesaikan konfigurasi sumber daya komputasi CDH.

Inisialisasi kelompok sumber daya

Jika Anda mendaftarkan kluster untuk pertama kalinya atau mengubah konfigurasi layanan kluster (seperti memodifikasi core-site.xml), Anda harus menginisialisasi kelompok sumber daya. Hal ini memastikan bahwa kelompok sumber daya dapat mengakses kluster CDH setelah Anda mengonfigurasi konektivitas jaringan.

  1. Di halaman Computing Resource, temukan sumber daya komputasi CDH yang telah Anda buat. Di pojok kanan atas, klik Initialize Resource Group.

  2. Klik Inisialisasi di sebelah kelompok sumber daya yang diinginkan. Setelah kelompok sumber daya diinisialisasi, klik OK.

(Opsional) Mengatur antrian sumber daya YARN

Di halaman Computing Resource, temukan kluster CDH yang telah Anda sambungkan. Di tab YARN Resource Queue, klik Edit YARN Resource Queue untuk mengatur antrian sumber daya YARN khusus bagi tugas-tugas di modul yang berbeda.

(Opsional) Mengatur parameter SPARK

Anda dapat mengatur parameter properti Spark khusus bagi tugas-tugas di modul yang berbeda.

  1. Di halaman Computing Resource, temukan kluster CDH yang telah Anda sambungkan.

  2. Di tab SPARK Parameters, klik Edit SPARK Parameters untuk membuka halaman tempat Anda dapat mengedit parameter Spark untuk kluster CDH.

  3. Klik Add di bawah modul. Masukkan Spark Property Name dan Spark Property Value yang sesuai untuk mengatur informasi properti Spark.

(Opsional) Mengonfigurasi pengaturan host

Jika Anda menggunakan kelompok sumber daya arsitektur tanpa server DataWorks untuk menghubungkan ke kluster CDH yang telah mengaktifkan otentikasi Kerberos, pengiriman tugas mungkin gagal.

Masalah ini terjadi karena mekanisme otentikasi Kerberos bergantung pada hostname untuk komunikasi aman. Di beberapa lingkungan jaringan, layanan resolusi DNS standar mungkin gagal mengubah alamat IP kluster menjadi hostname yang terdaftar di Kerberos, sehingga menyebabkan otentikasi gagal.

Fitur Konfigurasi Host memungkinkan Anda mengonfigurasi secara manual tabel pemetaan IP-ke-hostname statis untuk sumber daya komputasi CDH. Setelah dikonfigurasi, DataWorks memprioritaskan pemetaan ini saat mengakses kluster CDH Anda untuk memastikan keberhasilan otentikasi Kerberos.

  1. Temukan sumber daya komputasi CDH yang ingin Anda konfigurasi dan klik Host Configuration.

  2. Di kotak dialog yang muncul, masukkan pemetaan dalam format Alamat IP Hostname. Setiap baris merepresentasikan satu catatan pemetaan.

  3. Klik OK untuk menyimpan konfigurasi.

  4. Setelah Anda menyimpan konfigurasi, informasi hostname yang dikonfigurasi akan muncul di kartu sumber daya komputasi, menunjukkan bahwa konfigurasi telah berlaku.

Penting
  • Persyaratan format: Alamat IP dan Hostname harus dipisahkan oleh satu atau lebih spasi.

  • Kelengkapan konfigurasi: Pastikan Anda mengonfigurasi pemetaan yang benar untuk semua node kunci yang terlibat dalam otentikasi Kerberos dan eksekusi tugas, seperti NameNode, ResourceManager, dan NodeManagers.

  • Cakupan penerapan: Konfigurasi host ini hanya berlaku untuk sumber daya komputasi saat ini dan tidak memengaruhi sumber daya komputasi lain di ruang kerja.

Langkah selanjutnya

Setelah Anda mengonfigurasi sumber daya komputasi CDH, Anda dapat menggunakan node terkait CDH di Pengembangan Data untuk melakukan operasi pengembangan data.