Di DataWorks, Anda dapat menggunakan node CDH Impala untuk menulis dan menjalankan skrip SQL Impala. Node ini menawarkan kinerja kueri yang lebih cepat dibandingkan node CDH Hive. Topik ini menjelaskan cara mengonfigurasi dan menggunakan node CDH Impala.
Prasyarat
Kluster Alibaba Cloud CDH telah dibuat dan disambungkan ke ruang kerja DataWorks. Untuk informasi selengkapnya, lihat Pengembangan Data (Baru): Menyambungkan sumber daya komputasi CDH.
PentingKomponen Impala harus diinstal pada kluster CDH, dan informasi koneksi Impala harus dikonfigurasi saat menyambungkan kluster tersebut.
(Opsional) Jika Anda menggunakan Pengguna RAM, pengguna tersebut harus ditambahkan ke ruang kerja yang sesuai untuk pengembangan tugas dan diberikan peran Developer atau Workspace Administrator. Peran Workspace Administrator memiliki izin yang luas dan harus diberikan dengan hati-hati. Untuk informasi selengkapnya tentang penambahan anggota, lihat Menambahkan anggota ke ruang kerja.
CatatanJika Anda menggunakan Akun Alibaba Cloud, Anda dapat melewati langkah ini.
Sumber data Hive telah dikonfigurasi di DataWorks dan lulus uji konektivitas. Untuk informasi selengkapnya, lihat Manajemen Sumber Data.
Create a node
Untuk informasi selengkapnya, lihat Create a node.
Develop the node
Di area pengeditan SQL, Anda dapat mengembangkan kode tugas dan mendefinisikan variabel menggunakan format ${variable_name}. Nilai variabel tersebut kemudian dapat ditetapkan di Scheduling Parameters dalam bagian Scheduling Configuration di sisi kanan halaman pengeditan node untuk meneruskan parameter secara dinamis ke kode Anda dalam skenario penjadwalan. Untuk informasi selengkapnya, lihat Supported formats for scheduling parameters. Berikut adalah contohnya.
SHOW TABLES;
SELECT * FROM userinfo;
-- Use with scheduling parameters.
SELECT '${var}'; Test the node
Di Debug Configuration, pada bagian Computing Resource, konfigurasikan Computing Resource dan Resource Group.
Tetapkan Computing Resource ke nama kluster CDH yang telah Anda daftarkan di DataWorks.
Tetapkan Resource Group ke kelompok sumber daya penjadwalan yang telah lulus uji konektivitas sumber data. Untuk informasi selengkapnya, lihat Network connection solutions.
Pada bilah alat di bagian atas halaman pengeditan node, klik Run.
Langkah Selanjutnya
Schedule a node: Jika sebuah node dalam folder proyek perlu dijalankan secara berkala, Anda dapat mengatur Scheduling Policy dan mengonfigurasi properti penjadwalan di bagian Scheduling Settings pada sisi kanan halaman node.
Publish a node: Jika tugas perlu dijalankan di lingkungan produksi, klik ikon
untuk memublikasikan tugas tersebut. Sebuah node dalam folder proyek hanya akan berjalan sesuai jadwal setelah dipublikasikan ke lingkungan produksi.Task O&M: Setelah memublikasikan tugas, Anda dapat melihat status tugas yang dipicu otomatis di Operation Center. Untuk informasi selengkapnya, lihat Get started with Operation Center.