ClickHouse SQL可實現分布式SQL查詢及處理結構化資料,提高作業的執行效率。DataWorks的ClickHouse SQL節點可進行ClickHouse SQL任務的開發和周期性調度,以及與其他作業的整合操作。本文為您介紹使用ClickHouse SQL節點進行任務開發的主要流程。
前提條件
EMR引擎類型包括新版資料湖(DataLake)及Hadoop,不同類型引擎建立節點前需執行的準備工作不同。您可根據實際情況完成EMR側及DataWorks側的準備工作。
DataLake:詳情請參見DataLake叢集配置、DataWorks配置。
Hadoop:Hadoop叢集開發前準備工作。
已建立ClickHouse資料來源並綁定至工作空間。
您需要在DataWorks中建立ClickHouse資料來源並綁定至資料開發(Data Studio),才可通過ClickHouse資料來源訪問ClickHouse資料,進行後續的開發操作。詳情請參見綁定ClickHouse計算資源。
已建立ClickHouse SQL節點,詳情請參見建立調度工作流程的節點。
操作步驟
在ClickHouse SQL節點編輯頁面,執行如下開發操作。
開發SQL代碼
在SQL編輯地區開發工作單位代碼,您可在代碼中使用${變數名}的方式定義變數,並在節點編輯頁面右側調度配置的調度參數中為該變數賦值。實現調度情境下代碼的動態傳參,調度參數使用詳情,請參考調度參數支援格式,樣本如下。
CREATE DATABASE IF NOT EXISTS ck_test; CREATE TABLE IF NOT EXISTS ck_test.first_table ( `product_code` String, `package_name` String ) ENGINE = MergeTree ORDER BY package_name SETTINGS index_granularity = 8192; INSERT INTO ck_test.first_table (product_code, package_name) VALUES ('1', ${var}); SELECT * FROM ck_test.first_table;說明樣本中的變數參數${var}可設定為
1。執行SQL任務
在調試配置中選擇配置計算資源和資源群組。
計算資源選擇您在DataWorks上註冊的CDH叢集名稱。
資源群組選擇與資料來源測試連通性成功的調度資源群組。詳情請參見網路連通方案。
單擊工具列的選擇資料來源下拉框,在彈窗中選擇已建立的ClickHouse資料來源,單擊運行SQL任務。
如需定期執行節點任務,請根據業務需求配置調度資訊。配置詳情請參見節點調度。
節點任務配置完成後,需對節點進行發布。詳情請參見節點/工作流程發布。
任務發布後,您可以在營運中心查看周期任務的運行情況。詳情請參見營運中心入門。