Kembangkan & Jadwalkan Node ClickHouse SQL pada Kluster EMR-DataWorks-Alibaba Cloud - DataWorks

ClickHouse SQL memungkinkan Anda menjalankan kueri SQL terdistribusi pada data terstruktur untuk meningkatkan efisiensi pekerjaan. Di DataWorks, Anda dapat menggunakan node ClickHouse SQL untuk mengembangkan task, menjadwalkannya agar berjalan secara berkala, serta mengintegrasikannya dengan pekerjaan lain. Topik ini menjelaskan alur kerja utama untuk mengembangkan task menggunakan node ClickHouse SQL.

Prasyarat

Jenis engine EMR mencakup DataLake dan Hadoop. Setiap jenis engine memerlukan persiapan berbeda sebelum Anda membuat node. Sesuaikan dengan skenario Anda dan lengkapi persiapan yang diperlukan di EMR dan DataWorks.
- DataLake: Untuk informasi selengkapnya, lihat Configure a DataLake cluster dan Configure DataWorks.
- Hadoop: Untuk informasi selengkapnya, lihat Prepare a Hadoop cluster for development.
Anda telah membuat sumber data ClickHouse dan mengikatnya ke ruang kerja.

Untuk mengakses data dari ClickHouse guna pengembangan, Anda harus membuat sumber data ClickHouse di DataWorks dan mengikatnya ke Data Studio. Untuk informasi selengkapnya, lihat Bind a ClickHouse compute resource.
Anda telah membuat node ClickHouse SQL. Untuk informasi selengkapnya, lihat Create a scheduled workflow node.

Prosedur

Pada halaman pengeditan node ClickHouse SQL, ikuti langkah-langkah berikut:
Develop SQL code

Di editor SQL, tulis kode task Anda. Anda dapat mendefinisikan variabel dalam kode menggunakan format ${variable_name}. Tetapkan nilai variabel tersebut di bawah Scheduling Parameters pada panel Scheduling Settings di sebelah kanan. Hal ini memungkinkan penerusan parameter dinamis saat pekerjaan terjadwal dijalankan. Untuk informasi selengkapnya tentang parameter penjadwalan, lihat Sources and expressions for scheduling parameters. Contoh:
```
CREATE DATABASE IF NOT EXISTS ck_test;
CREATE TABLE IF NOT EXISTS  ck_test.first_table  (
`product_code` String,
`package_name` String
) ENGINE = MergeTree ORDER BY package_name SETTINGS index_granularity = 8192;
INSERT INTO ck_test.first_table (product_code, package_name) VALUES ('1', ${var});
SELECT * FROM ck_test.first_table;
```
Catatan
Dalam contoh ini, parameter ${var} dapat diatur ke 1.
Run SQL task
1. Pada panel Run Configuration, konfigurasikan Compute Resource dan Resource Group.
  1. Untuk Compute Resource, pilih nama kluster CDH yang telah Anda daftarkan di DataWorks.
  2. Untuk Resource Group, pilih kelompok sumber daya penjadwalan yang memiliki koneksi terkonfirmasi ke sumber data. Untuk informasi selengkapnya, lihat Network connectivity solutions.
2. Pada bilah alat, klik menu drop-down Select a data source. Pada kotak dialog, pilih sumber data ClickHouse yang telah Anda buat, lalu klik Run untuk menjalankan task SQL.
Untuk menjalankan node secara berkala, konfigurasikan properti penjadwalannya sesuai kebutuhan bisnis Anda. Untuk detail konfigurasi, lihat Node scheduling configuration.
Setelah mengonfigurasi node, lakukan penerapannya. Untuk informasi selengkapnya, lihat Node and workflow deployment.
Setelah task diterapkan, periksa status eksekusinya di Pusat Operasi. Untuk informasi selengkapnya, lihat Get started with Operation Center.

Prasyarat

Prosedur

Develop SQL code

Run SQL task