DataWorks的資料同步至MaxCompute節點支援將Hologres中的單表資料移轉到MaxCompute,協助您高效儲存巨量資料。本文將詳細介紹配置流程,讓您輕鬆遷移資料並充分利用MaxCompute的高效能處理能力。
前提條件
將MaxCompute專案和Hologres執行個體綁定為DataWorks計算資源,並完成連通性測試。
使用限制
僅支援將Hologres內部資料庫的資料同步至MaxCompute。
MaxCompute上Hologres外部表格的使用限制,請參見Hologres外部表格。
MaxCompute和Hologres之間的資料類型映射存在差異,Hologres部分資料類型不支援同步至MaxCompute。
配置同步節點
進入資料同步至MaxCompute節點編輯頁面,您可以按照以下步驟在節點編輯頁面完成節點的配置。
選擇Hologres源端
在選擇和配置Hologres源表時,您可根據以下參數說明選擇所需的源表進行同步。
參數 | 配置說明 |
源端物件類型 | 預設為 |
資料來源 | 選擇您所需同步的Hologres計算資源。 |
執行個體 | Hologres執行個體ID,系統會自動擷取。 |
Database | 選擇您所需同步的Hologres資料庫。 |
Schema | 選擇您所需同步的Schema。 |
Table | 選擇您所需同步的表名稱。 |
過濾條件 | 系統會根據您使用的分區表自動產生過濾條件,您也可以根據實際需求進行調整。滿足過濾條件的資料將被保留。 說明 過濾條件即SQL語句中 |
設定MaxCompute目標源
在設定MaxCompute目標表時,您可以根據以下參數說明資訊,配置所需同步的目標表資訊。
參數 | 配置說明 | |
資料來源 | 選擇您所需同步的目標MaxCompute計算資源。 | |
Project | 資料來源對應的MaxCompute專案,系統自動擷取。 | |
Schema | 選擇您想要儲存的Schema。開啟了三層模型的MaxCompute專案需要配置該參數,沒有開啟三層模型的專案不存在該配置參數。 | |
Table | 自訂MaxCompute內部表名稱。 | |
生命週期 | 設定表的生命週期。從最後一次更新時間算起,如果表資料在指定時間內沒有變動,MaxCompute將自動回收該表。 | |
欄位 | 同步欄位 | 您可以在此勾選需要同步的欄位資訊,並設定MaxCompute目標表欄位的資料類型。 |
分區配置 | 您可以在此自訂MaxCompute內部表的分區列。分區資料來源可以通過以下兩種方式擷取:
| |
設定資料同步方式
在進行資料同步時,您可以在資料同步設定中配置資料匯入方式和訪問Hologres執行個體的許可權資訊。以下是詳細的參數配置說明:
參數 | 配置說明 |
匯入方式 | 您可以選擇以下兩種方式之一來匯入資料:
|
訪問Hologres許可權 | 您可以根據實際情況選擇以下方式訪問Hologres執行個體:
|
Location | 在同步過程中,系統會基於Hologres外部儲存路徑自動產生一個MaxCompute表。您可以選擇使用系統產生的預設儲存路徑,或者自訂Hologres外部儲存路徑。 |
調試同步節點
如需調試執行同步節點任務,請根據您的業務需求配置相應的調試資訊。
配置調試節點屬性。
您可在同步節點編輯頁面右側回合組態中配置計算資源及資源群組資訊,具體參數資訊如下。
參數名稱
描述
計算資源
選擇您所綁定的MaxCompute計算資源。
計算配額
選擇您在建立MaxCompute專案時產生的計算配額,或單擊下拉框最下方的建立計算配額,進行建立。詳情請參見計算資源-Quota管理。
資源群組
選擇您綁定MaxCompute計算資源時已通過測試連通性的資源群組。
計算 CU
當前節點使用預設CU值,無需修改。
參數
在配置過濾條件中通過${參數名}的方式定義變數時,需要在指令碼參數處配置參數名、參數值資訊,任務運行時會將它動態替換為真實的取值。詳情請參見節點調度配置。
調試運行節點任務時,您可單擊儲存並運行同步任務。
後續步驟
常見問題
欄位類型不符:如果您在配置過程中遇到欄位資料類型不匹配的問題,會導致同步任務執行失敗,請仔細檢查MaxCompute表的欄位類型配置是否準確。
同步單一分區資料與實際資料不一致:請檢查您在源端配置的過濾條件是否正確。
表徵圖喚起發布流程,通過該流程將任務發布至生產環境。專案目錄下的節點只有在發布至生產環境後,才會進行周期性調度。