ClickHouse SQL memungkinkan Anda menjalankan kueri SQL terdistribusi dan memproses data terstruktur untuk eksekusi pekerjaan yang lebih efisien. Di DataWorks, Anda dapat menggunakan node ClickHouse SQL untuk mengembangkan dan menjadwalkan tugas ClickHouse SQL secara berkala serta mengintegrasikannya dengan pekerjaan lain. Topik ini menjelaskan cara mengembangkan tugas menggunakan node ClickHouse SQL.
Prasyarat
Engine EMR dapat berupa tipe DataLake atau Hadoop. Persiapan yang diperlukan berbeda tergantung pada tipe engine. Selesaikan langkah-langkah konfigurasi yang sesuai di EMR dan DataWorks.
DataLake: Untuk informasi selengkapnya, lihat Configure an EMR data lake cluster dan Configure DataWorks.
Data Source ClickHouse telah dibuat dan di-bind ke ruang kerja Anda.
Anda harus membuat Data Source ClickHouse di DataWorks dan meng-bind-nya ke Data Studio agar dapat mengakses data ClickHouse untuk pengembangan. Untuk informasi selengkapnya, lihat Associate a ClickHouse computing resource.
Node ClickHouse SQL telah dibuat. Untuk informasi selengkapnya, lihat Create a node for a scheduled workflow.
Prosedur
Pada halaman edit node ClickHouse SQL, ikuti langkah-langkah berikut:
Kembangkan kode SQL
Di editor SQL, tulis kode untuk tugas Anda. Anda dapat mendefinisikan variabel dalam kode menggunakan format ${variable_name}, lalu memberikan nilai variabel tersebut di Schedule > Scheduling parameters pada panel kanan halaman konfigurasi node. Pendekatan ini memungkinkan pengiriman parameter secara dinamis untuk tugas terjadwal. Untuk informasi selengkapnya tentang penggunaan parameter penjadwalan, lihat Sources and expressions of scheduling parameters. Berikut contoh kodenya:
CREATE DATABASE IF NOT EXISTS ck_test; CREATE TABLE IF NOT EXISTS ck_test.first_table ( `product_code` String, `package_name` String ) ENGINE = MergeTree ORDER BY package_name SETTINGS index_granularity = 8192; INSERT INTO ck_test.first_table (product_code, package_name) VALUES ('1', ${var}); SELECT * FROM ck_test.first_table;CatatanDalam contoh ini, atur ${var} ke
1.Jalankan tugas SQL
Pada panel Run Configuration, konfigurasikan Compute Resource dan Resource Group.
Untuk Compute Resource, pilih kluster CDH yang telah Anda daftarkan.
Untuk Resource Group, pilih kelompok sumber daya penjadwalan yang telah lulus uji konektivitas Data Source. Untuk informasi selengkapnya, lihat Network connectivity solutions.
Pada bilah alat, klik daftar drop-down Select Data Source. Pada kotak dialog yang muncul, pilih Data Source ClickHouse yang telah Anda buat, lalu klik Run.
Untuk menjalankan tugas secara berkala, konfigurasikan pengaturan penjadwalannya. Untuk informasi selengkapnya, lihat Node scheduling configuration.
Setelah mengonfigurasi node, publikasikan node tersebut. Untuk informasi selengkapnya, lihat Node and workflow deployment.
Setelah node dipublikasikan, Anda dapat melihat status eksekusi tugas terjadwal di Pusat Operasi. Untuk informasi selengkapnya, lihat Mulai menggunakan Pusat Operasi.