Integrasikan kluster CDH ke DataWorks untuk pengembangan Spark - DataWorks

Untuk mengembangkan dan mengelola task pada kluster Cloudera Distribution Including Apache Hadoop (CDH) di DataWorks, daftarkan kluster tersebut sebagai sumber daya komputasi. Setelah terdaftar, sumber daya komputasi tersebut dapat digunakan untuk task sinkronisasi data dan pengembangan data.

Wilayah yang tersedia: Tiongkok (Beijing), Tiongkok (Shanghai), Tiongkok (Shenzhen), Tiongkok (Hangzhou), Tiongkok (Zhangjiakou), Tiongkok (Chengdu), dan Jerman (Frankfurt).

Prasyarat

Sebelum memulai, pastikan Anda telah:

Menambahkan pengguna RAM ke ruang kerja dengan peran Workspace Administrator.
Men-deploy kluster CDH — DataWorks mendukung kluster CDH yang dideploy di luar Alibaba Cloud ECS, selama lingkungan deployment terhubung ke virtual private cloud (VPC) Alibaba Cloud. Lihat Konektivitas jaringan untuk sumber data IDC.
Memiliki kelompok sumber daya yang dikaitkan dengan ruang kerja, dengan konektivitas jaringan yang telah dikonfirmasi:
- Jika Anda menggunakan serverless resource group, verifikasi konektivitas antara sumber daya komputasi CDH dan serverless resource group.
- Jika Anda menggunakan legacy exclusive resource groups, verifikasi konektivitas antara sumber daya komputasi CDH dan exclusive resource group for scheduling.

Izin

Operator	Izin yang diperlukan
Akun Alibaba Cloud	Tidak ada
RAM user atau RAM role	O&M dan Workspace administrator, atau izin `AliyunDataWorksFullAccess`. Lihat Memberikan izin administrator ruang kepada pengguna.

Buka daftar sumber daya komputasi

Login ke Konsol DataWorks dan beralih ke wilayah target.
Pada panel navigasi kiri, pilih More > Management Center. Pilih ruang kerja Anda dan klik Go To Management Center.
Pada panel navigasi kiri, klik Computing Resource.

Mengaitkan sumber daya komputasi CDH

Pada halaman Computing Resource, klik Associate Computing Resource.
Pada halaman Associate Computing Resource, atur tipe sumber daya komputasi menjadi CDH. Anda akan dialihkan ke halaman Associate CDH Computing Resource.
Konfigurasikan parameter yang dijelaskan di bawah ini, lalu klik Confirm.

Versi dan nama kluster

Parameter	Deskripsi
Cluster version	Versi CDH atau CDP yang akan didaftarkan. Untuk versi yang didukung beserta versi komponen tetapnya, lihat Informasi koneksi kluster. Pilih Custom version untuk menentukan versi komponen secara manual.
Cluster name	Pilih kluster yang sudah terdaftar di ruang kerja lain untuk memuat konfigurasinya, atau masukkan nama untuk membuat konfigurasi baru.
Computing resource instance name	Nama tampilan untuk sumber daya komputasi ini. Saat waktu proses, task mereferensikan sumber daya komputasi berdasarkan nama ini.

Kluster versi kustom hanya mendukung kelompok sumber daya eksklusif lama untuk penjadwalan. Setelah pendaftaran, kirim tiket untuk menginisialisasi lingkungan.

Informasi koneksi kluster

Konfigurasikan titik akhir koneksi untuk komponen Hadoop yang akan digunakan oleh task Anda. Sistem secara otomatis mendeteksi versi komponen berdasarkan versi kluster yang dipilih.

Component	Format koneksi	Kapan dikonfigurasi
Hive — HiveServer2	`jdbc:hive2://<host>:<port>/<database>`	Kirim pekerjaan Hive
Hive — Metastore	`thrift://<host>:<port>`	Kirim pekerjaan Hive
Impala	`jdbc:impala://<host>:<port>/<schema>`	Kirim pekerjaan Impala
Spark	Pilih versi default dari daftar	Jalankan task Spark
YARN — alamat ResourceManager	`http://<host>:<port>`	Kirim task Spark atau MapReduce
YARN — alamat webapp JobHistory	`http://<host>:<port2>`	Lihat detail task historis di antarmuka web JobHistory Server
MapReduce	Pilih versi default dari daftar	Jalankan task MapReduce
Presto	`jdbc:presto://<host>:<port>/<catalog>/<schema>`	Kirim pekerjaan Presto (bukan komponen CDH default)

Untuk mengetahui parameter koneksi kluster Anda, lihat Mendapatkan informasi kluster CDH atau CDP dan mengonfigurasi konektivitas jaringan.

Jika Anda menggunakan serverless resource group dan mengakses komponen CDH melalui nama domain, konfigurasikan authoritative resolution untuk nama domain komponen CDH dan set their effective scope di Alibaba Cloud DNS PrivateZone.

File konfigurasi kluster

Unggah file konfigurasi yang sesuai dengan task yang akan Anda jalankan.

File	Deskripsi	Unggah saat
Core-site file	Pengaturan I/O global Hadoop Distributed File System (HDFS) dan MapReduce	Running Spark or MapReduce tasks
Hdfs-site file	Pengaturan HDFS: ukuran blok, faktor replikasi, dan nama path	—
Mapred-site file	Mode eksekusi MapReduce dan perilaku penjadwalan	Running MapReduce tasks
Yarn-site file	Pengaturan resource manager YARN, node manager, dan waktu proses aplikasi	Running Spark or MapReduce tasks, or using Kerberos account mapping
Hive-site file	Pengaturan koneksi database Hive, metastore, dan mesin eksekusi	Using Kerberos account mapping
Spark-defaults file	Pengaturan default job Spark (`spark-defaults.conf`): memori, core CPU, dan parameter waktu proses lainnya	Running Spark tasks
Config.properties file	Pengaturan coordinator dan node pekerja Presto	Using Presto with OPEN LDAP or Kerberos authentication
Presto.jks file	Sertifikat SSL/TLS untuk komunikasi Presto terenkripsi	—

Identitas akses default

Atur identitas kluster yang digunakan saat task dijalankan terhadap kluster CDH. Untuk mengonfigurasi pemetaan identitas, buka tab Account Mapping pada halaman Computing Resources. Lihat Set the cluster identity mapping.

Lingkungan	Opsi yang tersedia
Development environment	Akun kluster; Akun kluster terpetakan dari pelaksana task
Production environment	Akun kluster; Akun kluster terpetakan dari pemilik task; Akun kluster terpetakan dari Akun Alibaba Cloud; Akun kluster terpetakan dari RAM user

Inisialisasi kelompok sumber daya

Inisialisasi kelompok sumber daya saat Anda mendaftarkan kluster untuk pertama kalinya atau setelah mengubah konfigurasi layanan kluster (misalnya, memodifikasi core-site.xml). Inisialisasi memastikan kelompok sumber daya dapat menjangkau kluster CDH setelah konektivitas jaringan dikonfigurasi.

Pada halaman Computing Resource, temukan sumber daya komputasi CDH yang telah Anda buat.
Di pojok kanan atas, klik Initialize Resource Group.
Klik Initialize di sebelah kelompok sumber daya target, lalu klik OK.

Operasi tambahan

Atur antrian sumber daya YARN (opsional)

Pada halaman Computing Resource, temukan kluster CDH. Pada tab YARN Resource Queue, klik EditYARN Resource Queue untuk menetapkan antrian sumber daya YARN khusus bagi task di berbagai modul.

Atur parameter Spark (opsional)

Pada halaman Computing Resource, temukan kluster CDH. Pada tab Spark-related Parameter, klik EditSpark-related Parameter. Klik Add di bawah modul target, masukkan Spark Property Name dan Spark Property Value. Untuk daftar lengkap properti Spark, lihat Spark configuration.

Konfigurasi pemetaan host untuk autentikasi Kerberos (opsional)

Saat menggunakan serverless resource group dengan kluster CDH yang memiliki autentikasi Kerberos aktif, pengiriman task dapat gagal jika DNS tidak dapat menyelesaikan alamat IP kluster ke hostname yang terdaftar di Kerberos.

Fitur Host Configuration memungkinkan Anda menentukan tabel pemetaan statis dari IP ke hostname untuk sumber daya komputasi tersebut. DataWorks menggunakan pemetaan ini saat mengakses kluster CDH Anda, sehingga memastikan autentikasi Kerberos berhasil.

Untuk mengonfigurasi pemetaan host:

Pada halaman Computing Resource, temukan sumber daya komputasi CDH dan klik Host Configuration.
Pada kotak dialog, masukkan pemetaan dalam format berikut. Setiap baris merupakan satu catatan pemetaan:
```
<IP address> <Hostname>
```
Pisahkan alamat IP dan hostname dengan satu atau beberapa spasi. Konfigurasikan pemetaan untuk semua node utama yang terlibat dalam autentikasi Kerberos dan eksekusi task, termasuk NameNode, ResourceManager, dan NodeManagers.
Klik OK untuk menyimpan. Hostname yang dikonfigurasi akan muncul pada kartu sumber daya komputasi, yang menandakan konfigurasi telah aktif.

Penting

Konfigurasi host hanya berlaku untuk sumber daya komputasi saat ini dan tidak memengaruhi sumber daya komputasi lain di ruang kerja.

Langkah berikutnya

Setelah mengonfigurasi sumber daya komputasi CDH, gunakan node terkait CDH di Data Studio untuk pengembangan data.