Untuk mengembangkan dan mengelola task pada kluster Cloudera Distribution Including Apache Hadoop (CDH) di DataWorks, daftarkan kluster tersebut sebagai sumber daya komputasi. Setelah terdaftar, sumber daya komputasi tersebut dapat digunakan untuk task sinkronisasi data dan pengembangan data.
Wilayah yang tersedia: Tiongkok (Beijing), Tiongkok (Shanghai), Tiongkok (Shenzhen), Tiongkok (Hangzhou), Tiongkok (Zhangjiakou), Tiongkok (Chengdu), dan Jerman (Frankfurt).
Prasyarat
Sebelum memulai, pastikan Anda telah:
-
Menambahkan pengguna RAM ke ruang kerja dengan peran Workspace Administrator.
-
Men-deploy kluster CDH — DataWorks mendukung kluster CDH yang dideploy di luar Alibaba Cloud ECS, selama lingkungan deployment terhubung ke virtual private cloud (VPC) Alibaba Cloud. Lihat Konektivitas jaringan untuk sumber data IDC.
-
Memiliki kelompok sumber daya yang dikaitkan dengan ruang kerja, dengan konektivitas jaringan yang telah dikonfirmasi:
-
Jika Anda menggunakan serverless resource group, verifikasi konektivitas antara sumber daya komputasi CDH dan serverless resource group.
-
Jika Anda menggunakan legacy exclusive resource groups, verifikasi konektivitas antara sumber daya komputasi CDH dan exclusive resource group for scheduling.
-
Izin
| Operator | Izin yang diperlukan |
|---|---|
| Akun Alibaba Cloud | Tidak ada |
| RAM user atau RAM role | O&M dan Workspace administrator, atau izin AliyunDataWorksFullAccess. Lihat Memberikan izin administrator ruang kepada pengguna. |
Buka daftar sumber daya komputasi
-
Login ke Konsol DataWorks dan beralih ke wilayah target.
-
Pada panel navigasi kiri, pilih More > Management Center. Pilih ruang kerja Anda dan klik Go To Management Center.
-
Pada panel navigasi kiri, klik Computing Resource.
Mengaitkan sumber daya komputasi CDH
-
Pada halaman Computing Resource, klik Associate Computing Resource.
-
Pada halaman Associate Computing Resource, atur tipe sumber daya komputasi menjadi CDH. Anda akan dialihkan ke halaman Associate CDH Computing Resource.
-
Konfigurasikan parameter yang dijelaskan di bawah ini, lalu klik Confirm.
Versi dan nama kluster
| Parameter | Deskripsi |
|---|---|
| Cluster version | Versi CDH atau CDP yang akan didaftarkan. Untuk versi yang didukung beserta versi komponen tetapnya, lihat Informasi koneksi kluster. Pilih Custom version untuk menentukan versi komponen secara manual. |
| Cluster name | Pilih kluster yang sudah terdaftar di ruang kerja lain untuk memuat konfigurasinya, atau masukkan nama untuk membuat konfigurasi baru. |
| Computing resource instance name | Nama tampilan untuk sumber daya komputasi ini. Saat waktu proses, task mereferensikan sumber daya komputasi berdasarkan nama ini. |
Kluster versi kustom hanya mendukung kelompok sumber daya eksklusif lama untuk penjadwalan. Setelah pendaftaran, kirim tiket untuk menginisialisasi lingkungan.
Informasi koneksi kluster
Konfigurasikan titik akhir koneksi untuk komponen Hadoop yang akan digunakan oleh task Anda. Sistem secara otomatis mendeteksi versi komponen berdasarkan versi kluster yang dipilih.
| Component | Format koneksi | Kapan dikonfigurasi |
|---|---|---|
| Hive — HiveServer2 | jdbc:hive2://<host>:<port>/<database> |
Kirim pekerjaan Hive |
| Hive — Metastore | thrift://<host>:<port> |
Kirim pekerjaan Hive |
| Impala | jdbc:impala://<host>:<port>/<schema> |
Kirim pekerjaan Impala |
| Spark | Pilih versi default dari daftar | Jalankan task Spark |
| YARN — alamat ResourceManager | http://<host>:<port> |
Kirim task Spark atau MapReduce |
| YARN — alamat webapp JobHistory | http://<host>:<port2> |
Lihat detail task historis di antarmuka web JobHistory Server |
| MapReduce | Pilih versi default dari daftar | Jalankan task MapReduce |
| Presto | jdbc:presto://<host>:<port>/<catalog>/<schema> |
Kirim pekerjaan Presto (bukan komponen CDH default) |
Untuk mengetahui parameter koneksi kluster Anda, lihat Mendapatkan informasi kluster CDH atau CDP dan mengonfigurasi konektivitas jaringan.
Jika Anda menggunakan serverless resource group dan mengakses komponen CDH melalui nama domain, konfigurasikan authoritative resolution untuk nama domain komponen CDH dan set their effective scope di Alibaba Cloud DNS PrivateZone.
File konfigurasi kluster
Unggah file konfigurasi yang sesuai dengan task yang akan Anda jalankan.
| File | Deskripsi | Unggah saat |
|---|---|---|
| Core-site file | Pengaturan I/O global Hadoop Distributed File System (HDFS) dan MapReduce | Running Spark or MapReduce tasks |
| Hdfs-site file | Pengaturan HDFS: ukuran blok, faktor replikasi, dan nama path | — |
| Mapred-site file | Mode eksekusi MapReduce dan perilaku penjadwalan | Running MapReduce tasks |
| Yarn-site file | Pengaturan resource manager YARN, node manager, dan waktu proses aplikasi | Running Spark or MapReduce tasks, or using Kerberos account mapping |
| Hive-site file | Pengaturan koneksi database Hive, metastore, dan mesin eksekusi | Using Kerberos account mapping |
| Spark-defaults file | Pengaturan default job Spark (spark-defaults.conf): memori, core CPU, dan parameter waktu proses lainnya |
Running Spark tasks |
| Config.properties file | Pengaturan coordinator dan node pekerja Presto | Using Presto with OPEN LDAP or Kerberos authentication |
| Presto.jks file | Sertifikat SSL/TLS untuk komunikasi Presto terenkripsi | — |
Identitas akses default
Atur identitas kluster yang digunakan saat task dijalankan terhadap kluster CDH. Untuk mengonfigurasi pemetaan identitas, buka tab Account Mapping pada halaman Computing Resources. Lihat Set the cluster identity mapping.
| Lingkungan | Opsi yang tersedia |
|---|---|
| Development environment | Akun kluster; Akun kluster terpetakan dari pelaksana task |
| Production environment | Akun kluster; Akun kluster terpetakan dari pemilik task; Akun kluster terpetakan dari Akun Alibaba Cloud; Akun kluster terpetakan dari RAM user |
Inisialisasi kelompok sumber daya
Inisialisasi kelompok sumber daya saat Anda mendaftarkan kluster untuk pertama kalinya atau setelah mengubah konfigurasi layanan kluster (misalnya, memodifikasi core-site.xml). Inisialisasi memastikan kelompok sumber daya dapat menjangkau kluster CDH setelah konektivitas jaringan dikonfigurasi.
-
Pada halaman Computing Resource, temukan sumber daya komputasi CDH yang telah Anda buat.
-
Di pojok kanan atas, klik Initialize Resource Group.
-
Klik Initialize di sebelah kelompok sumber daya target, lalu klik OK.
Operasi tambahan
Atur antrian sumber daya YARN (opsional)
Pada halaman Computing Resource, temukan kluster CDH. Pada tab YARN Resource Queue, klik EditYARN Resource Queue untuk menetapkan antrian sumber daya YARN khusus bagi task di berbagai modul.
Atur parameter Spark (opsional)
Pada halaman Computing Resource, temukan kluster CDH. Pada tab Spark-related Parameter, klik EditSpark-related Parameter. Klik Add di bawah modul target, masukkan Spark Property Name dan Spark Property Value. Untuk daftar lengkap properti Spark, lihat Spark configuration.
Konfigurasi pemetaan host untuk autentikasi Kerberos (opsional)
Saat menggunakan serverless resource group dengan kluster CDH yang memiliki autentikasi Kerberos aktif, pengiriman task dapat gagal jika DNS tidak dapat menyelesaikan alamat IP kluster ke hostname yang terdaftar di Kerberos.
Fitur Host Configuration memungkinkan Anda menentukan tabel pemetaan statis dari IP ke hostname untuk sumber daya komputasi tersebut. DataWorks menggunakan pemetaan ini saat mengakses kluster CDH Anda, sehingga memastikan autentikasi Kerberos berhasil.
Untuk mengonfigurasi pemetaan host:
-
Pada halaman Computing Resource, temukan sumber daya komputasi CDH dan klik Host Configuration.
-
Pada kotak dialog, masukkan pemetaan dalam format berikut. Setiap baris merupakan satu catatan pemetaan:
<IP address> <Hostname>Pisahkan alamat IP dan hostname dengan satu atau beberapa spasi. Konfigurasikan pemetaan untuk semua node utama yang terlibat dalam autentikasi Kerberos dan eksekusi task, termasuk NameNode, ResourceManager, dan NodeManagers.
-
Klik OK untuk menyimpan. Hostname yang dikonfigurasi akan muncul pada kartu sumber daya komputasi, yang menandakan konfigurasi telah aktif.
Konfigurasi host hanya berlaku untuk sumber daya komputasi saat ini dan tidak memengaruhi sumber daya komputasi lain di ruang kerja.
Langkah berikutnya
Setelah mengonfigurasi sumber daya komputasi CDH, gunakan node terkait CDH di Data Studio untuk pengembangan data.