DataWorks的資料同步節點支援將MaxCompute中的單表資料同步到Hologres,協助您更高效地進行巨量資料分析和即時查詢。本文將詳細介紹配置流程,讓您輕鬆遷移資料並充分利用Hologres的高效能查詢能力。
背景資訊
在使用此功能將MaxCompute的內部表資料同步到Hologres的內部表時,資料首先會被匯入至Hologres的外部表格中,隨後再從該外部表格同步至Hologres的內部表。其中,MaxCompute的資料向Hologres外部表格的同步過程是通過執行IMPORT FOREIGN SCHEMA命令實現的。
前提條件
將MaxCompute專案和Hologres執行個體綁定為DataWorks計算資源,並完成連通性測試。
使用限制
當MaxCompute的源頭表存在時,您才可以建立外部表格並讀取外部表格資料。
建立同步節點
在配置資料同步節點前,您可以建立資料同步至Hologres節點,並進入其編輯頁面。
管理目標資料來源
在資料同步至Hologres節點編輯頁面後,您可以通過以下操作對目標資料來源進行管理。
在節點編輯頁面資料來源旁邊的下拉框中,選擇您所綁定的目標Hologres資料來源。
單擊旁邊的目標管理,在彈出的視窗中選擇所需的操作:
Holo管控台(執行個體監控):方便您在Hologres管理主控台管理目標Hologres執行個體。
慢Query:方便您通過可視化的方式查看並分析目標Hologres執行個體歷史慢查詢。
活躍串連管理:方便您對目標Hologres執行個體中的串連進行診斷和管理。
DB授權:方便您為目標Hologres執行個體新增資料庫或為資料庫進行授權。
使用者管理:通過Hologres管理主控台的使用者管理模組,您可以為目標Hologres執行個體新增或刪除使用者,並進行許可權授權。
配置同步節點
選擇好目標資料來源後,您可以按照以下步驟在節點編輯頁面完成同步節點任務的配置。
選擇MaxCompute源表
在選擇和配置MaxCompute源表時,您可根據以下參數說明選擇所需的源表進行同步。
參數 | 配置說明 |
源端物件類型 | 預設為 |
專案 | 選擇您所需同步的MaxCompute專案。 |
Schema | 選擇您所使用的Schema名稱。 |
表名 | 選擇您所需同步的表名稱。 |
過濾條件 | 系統會根據您使用的分區表自動產生過濾條件,您也可以根據實際需求進行調整。滿足過濾條件的資料將被保留。 說明 過濾條件即SQL語句中 |
設定Hologres目標表
在設定Hologres目標表時,您可以根據以下參數說明資訊,配置所需同步的目標表資訊。
參數 | 配置說明 | |
執行個體 | 系統會根據您在管理目標資料來源中選擇的資料來源,自動匹配到具體的執行個體資訊。 | |
資料庫 | 系統會根據您在管理目標資料來源中選擇的資料來源,自動匹配到具體的資料庫資訊。 | |
Schema | 指定Hologres內部表所屬的Schema。 | |
表名 | 自訂Hologres內部表名稱。建立內部表時,若表名稱已存在,不同類型的表處理策略如下:
說明 若建立的表與原有表的結構不同,則會報錯。 | |
欄位 | 同步欄位 | 您可以在此勾選需要同步的欄位資訊,並設定Hologres目標表欄位的資料類型。 |
分區配置 | 您可以在此選擇建立表的分區欄位資訊。 | |
索引配置 | 您可以在此為存放MaxCompute資料的Hologres內部表構建索引,以便後續快速查詢資料。建立索引的詳細資料CREATE TABLE。
| |
設定進階參數
在進行資料同步時,您可以在進階設定中配置GUC參數和外部伺服器。
參數 | 配置說明 |
GUC參數 | 在匯入MaxCompute資料前,需要設定一些GUC參數。支援的GUC參數請參見GUC參數。其餘SQL均不支援。 |
外部伺服器 | 預設 |
調試同步節點
如需調試執行同步節點任務,請根據您的業務需求配置相應的調試資訊。
配置調試節點屬性。
您可在同步節點編輯頁面右側調試配置中配置計算資源及資源群組資訊,具體參數資訊如下。
參數名稱
描述
計算資源
選擇您所綁定的Hologres計算資源。
資源群組
選擇您綁定Hologres計算資源時已通過測試連通性的資源群組。
計算 CU
設定您執行任務所需的計算CU,預設值為
0.25。參數
在配置過濾條件中通過
${參數名}的方式定義變數時,需要在指令碼參數處配置參數名、參數值資訊,任務運行時會將它動態替換為真實的取值。詳情請參見節點調度。調試運行節點任務時,您可單擊儲存並運行同步任務。
後續步驟
常見問題
欄位類型不符:如果您在配置過程中遇到欄位資料類型不匹配的問題,會導致同步任務執行失敗,請仔細檢查Hologres表的欄位類型配置是否準確。
同步單一分區資料與實際資料不一致:請檢查您在源端配置的過濾條件是否正確。
表徵圖喚起發布流程,通過該流程將任務發布至生產環境。專案目錄下的節點只有在發布至生產環境後,才會進行周期性調度。