ClickHouse SQL menjalankan kueri SQL terdistribusi dan memproses data terstruktur untuk meningkatkan efisiensi eksekusi pekerjaan. Di DataWorks, node ClickHouse SQL memungkinkan Anda mengembangkan, menjadwalkan secara berkala, serta mengintegrasikan tugas ClickHouse SQL dengan pekerjaan lainnya. Topik ini menjelaskan cara mengembangkan tugas menggunakan node ClickHouse SQL.
Prasyarat
E-MapReduce (EMR) menyediakan kluster DataLake dan Hadoop. Persiapan yang diperlukan berbeda tergantung pada jenis kluster. Anda harus menyelesaikan persiapan yang diperlukan untuk EMR dan DataWorks.
DataLake: Untuk informasi selengkapnya, lihat Konfigurasi kluster DataLake dan Konfigurasi DataWorks.
Hadoop: Untuk informasi selengkapnya, lihat Persiapan pengembangan kluster Hadoop.
Sumber data ClickHouse telah dibuat dan disambungkan ke ruang kerja.
Anda harus membuat sumber data ClickHouse di DataWorks dan menyambungkannya ke DataStudio untuk mengakses data ClickHouse guna pengembangan. Untuk informasi selengkapnya, lihat Menyambungkan sumber daya komputasi ClickHouse.
Node ClickHouse SQL telah dibuat. Untuk informasi selengkapnya, lihat Membuat node untuk alur kerja penjadwalan.
Prosedur
Pada tab konfigurasi node ClickHouse SQL, Anda dapat mengembangkan tugas sebagai berikut.
Kembangkan kode SQL
Di editor SQL, tulis kode tugas. Anda dapat mendefinisikan variabel dalam kode menggunakan format ${variable_name}. Di sisi kanan tab konfigurasi node, pada bagian Scheduling Configuration, tetapkan nilai variabel di bidang Scheduling Parameters. Hal ini memungkinkan penerusan parameter dinamis untuk tugas terjadwal. Untuk informasi selengkapnya tentang parameter penjadwalan, lihat Format yang didukung untuk parameter penjadwalan. Kode berikut merupakan contoh.
CREATE DATABASE IF NOT EXISTS ck_test; CREATE TABLE IF NOT EXISTS ck_test.first_table ( `product_code` String, `package_name` String ) ENGINE = MergeTree ORDER BY package_name SETTINGS index_granularity = 8192; INSERT INTO ck_test.first_table (product_code, package_name) VALUES ('1', ${var}); SELECT * FROM ck_test.first_table;CatatanSebagai contoh, Anda dapat mengatur variabel ${var} menjadi
1.Jalankan tugas SQL
Pada bagian Debugging Configurations, konfigurasikan Computing Resource dan Resource Group.
Tetapkan Computing Resource ke nama kluster CDH yang telah Anda daftarkan di DataWorks.
Tetapkan Resource Group ke kelompok sumber daya penjadwalan yang terhubung ke sumber data. Untuk informasi selengkapnya, lihat Solusi konektivitas jaringan.
Di bilah alat, klik daftar drop-down Select Data Source. Pada kotak dialog yang muncul, pilih sumber data ClickHouse yang telah Anda buat, lalu klik Run untuk menjalankan tugas SQL.
Untuk menjalankan tugas node secara berkala, Anda dapat mengonfigurasi properti penjadwalannya. Untuk informasi selengkapnya, lihat Konfigurasi penjadwalan node.
Setelah mengonfigurasi tugas node, Anda harus menerbitkan node tersebut. Untuk informasi selengkapnya, lihat Menerbitkan node dan alur kerja.
Setelah tugas dipublikasikan, Anda dapat melihat status berjalan tugas yang dipicu otomatis di Operation Center. Untuk informasi lebih lanjut, lihat Mulai menggunakan Operation Center.