Gunakan node CDH Hive di DataWorks untuk menjalankan tugas Hive, seperti kueri data atau pekerjaan pemrosesan batch, pada kluster CDH yang telah Anda deploy. Topik ini menjelaskan cara mengonfigurasi dan menggunakan node CDH Hive.
Prasyarat
Anda telah membuat kluster Alibaba Cloud CDH dan mengaitkannya ke ruang kerja DataWorks. Untuk informasi selengkapnya, lihat Data Studio: Mengaitkan resource komputasi CDH.
PentingKomponen Hive telah diinstal pada kluster CDH Anda, dan Anda telah mengonfigurasi informasi koneksi Hive saat mengaitkan kluster tersebut.
(Opsional) Jika Anda menggunakan pengguna RAM, tambahkan pengguna tersebut ke ruang kerja dan berikan peran Developer atau Workspace Administrator. Peran Workspace Administrator memiliki izin yang luas dan harus diberikan dengan hati-hati. Untuk informasi selengkapnya tentang cara menambahkan anggota ke ruang kerja, lihat Tambahkan anggota ke ruang kerja.
CatatanJika Anda menggunakan akun root, langkah ini dapat dilewati.
Anda telah mengonfigurasi sumber data Hive di DataWorks dan lulus uji konektivitas. Untuk informasi selengkapnya, lihat Manajemen Sumber Data.
Batasan
Anda dapat menjalankan jenis node ini menggunakan Serverless Resource Group (disarankan) atau Exclusive Resource Group for Scheduling.
Buat node
Untuk petunjuknya, lihat Buat node.
Kembangkan node
Tulis kode tugas Anda di editor SQL. Anda dapat mendefinisikan variabel dalam kode menggunakan format ${variable_name} dan memberikan nilai pada variabel tersebut di Scheduling Configuration > Scheduling Parameters. Hal ini memungkinkan pengiriman parameter secara dinamis untuk eksekusi terjadwal. Untuk informasi selengkapnya tentang parameter penjadwalan, lihat Sumber dan ekspresi parameter penjadwalan. Contoh:
SHOW TABLES;
SELECT * FROM userinfo ;
-- Anda dapat menggunakan ini bersama parameter penjadwalan.
SELECT '${var}'; Debug node
Pada bagian Run Configuration di tab Scheduling Configuration, konfigurasikan Compute Resource dan Resource Group.
Untuk Compute Resource, pilih nama kluster CDH yang telah Anda daftarkan di DataWorks.
Untuk Resource Group, pilih kelompok sumber daya penjadwalan yang telah lulus uji konektivitas sumber data. Untuk informasi selengkapnya, lihat Solusi konektivitas jaringan.
Di bilah alat di bagian atas editor node, klik Run.
Langkah berikutnya
Konfigurasi penjadwalan node: Untuk menjalankan node secara berkala, konfigurasikan Time Property dan properti penjadwalan terkait lainnya di panel Scheduling configuration di sisi kanan halaman.
Publikasikan node: Untuk mempublikasikan node ke lingkungan produksi, klik ikon
. Hanya node yang dipublikasikan ke lingkungan produksi yang akan dijadwalkan.Task O&M: Setelah Anda mempublikasikan node, Anda dapat memantau eksekusi terjadwalnya di Operation Center. Untuk informasi selengkapnya, lihat Memulai Operation Center.