Di DataWorks, CDH Impala Node memungkinkan Anda menulis dan menjalankan skrip Impala SQL dengan performa kueri yang lebih cepat dibandingkan CDH Hive. Topik ini menjelaskan cara mengonfigurasi dan menggunakan CDH Impala Node.
Prasyarat
Anda telah membuat kluster Alibaba Cloud CDH dan mengaitkannya ke ruang kerja DataWorks. Untuk informasi selengkapnya, lihat Data Studio: Associate a CDH computing resource.
PentingKomponen Impala telah diinstal pada kluster CDH Anda, dan informasi koneksi telah dikonfigurasi saat pengikatan kluster.
(Opsional) Jika Anda menggunakan pengguna RAM, tambahkan pengguna tersebut ke ruang kerja dan berikan peran Developer atau Workspace Administrator. Peran Workspace Administrator memiliki izin yang luas dan harus diberikan dengan hati-hati. Untuk informasi selengkapnya tentang cara menambahkan anggota ke ruang kerja, lihat Add members to a workspace.
CatatanJika Anda menggunakan akun root, langkah ini dapat dilewati.
Anda telah mengonfigurasi Sumber data Hive di DataWorks dan lulus uji konektivitas. Untuk informasi selengkapnya, lihat Data Source Management.
Create a node
Untuk petunjuknya, lihat Create a node.
Develop a node
Tulis kode task di editor SQL. Anda dapat mendefinisikan variabel dalam kode menggunakan format ${VariableName}, lalu memberikan nilai variabel tersebut di Scheduling Configuration > Scheduling Parameters di sisi kanan halaman editor node. Hal ini memungkinkan pengiriman parameter secara dinamis untuk eksekusi terjadwal. Untuk informasi selengkapnya tentang Scheduling Parameters, lihat Sources and expressions of scheduling parameters. Contoh:
SHOW TABLES;
SELECT * FROM userinfo ;
-- You can use this with Scheduling Parameters.
SELECT '${var}'; Debug a node
Di Run Configuration > Compute Resource, konfigurasikan Compute Resource dan Resource Group.
Untuk Compute Resource, pilih kluster CDH yang telah Anda daftarkan di DataWorks.
Untuk Resource Group, pilih Scheduling Resource Group yang memiliki koneksi sukses ke Sumber data Anda. Untuk informasi selengkapnya, lihat Network connectivity solutions.
Pada bilah alat di bagian atas halaman editor node, klik Run.
Langkah berikutnya
Node scheduling configuration: Untuk menjalankan node secara berkala, konfigurasikan Time Property dan properti penjadwalan terkait di panel Scheduling configuration di sisi kanan halaman.
Publish a node: Untuk menerbitkan node ke lingkungan produksi, klik ikon
. Hanya node yang diterbitkan ke lingkungan produksi yang akan dijadwalkan.Task O&M: Setelah menerbitkan node, Anda dapat memantau eksekusi terjadwalnya di Operation Center. Untuk informasi selengkapnya, lihat Getting started with Operation Center.