Data Integration提供嚮導式的開發引導,您無需編寫任何代碼,通過在介面勾選資料來源與去向,並結合DataWorks調度參數,實現將源端單表或分庫分表的全量或增量資料周期性同步至目標資料表。本文為您介紹嚮導模式配置離線同步任務的常規配置,各資料來源配置存在一定差異,請以支援的資料來源及同步方案為準。
準備工作
已完成資料來源配置。在設定Data Integration同步任務之前,請確保已在DataWorks的資料來源管理中配置好所需的來源資料庫和目標資料庫。資料來源配置詳情請參見資料來源列表。
說明離線同步支援的資料來源及其配置詳情請參見支援的資料來源及同步方案。
資料來源相關能力介紹詳情請參見:資料來源管理。
已購買合適規格的資源群組並與工作空間綁定。詳情請參見:使用Serverless資源群組、使用獨享Data Integration資源群組。
資源群組與資料來源網路已打通。詳情請參見:網路連通配置。
步驟一:建立離線同步節點
新版資料開發
登入DataWorks控制台,切換至目標地區,單擊左側導覽列的,在下拉框中選擇對應工作空間後單擊進入Data Studio。
建立工作流程。詳情請參見:工作流程編排。
建立離線同步節點。可以通過以下兩種方式建立離線同步節點:
方式一:單擊工作流程列表右上方的
,選擇。方式二:雙擊工作流程名稱,將Data Integration目錄下的離線同步節點直接拖拽至右側商務程序編輯面板。
配置節點基本資料和資料來源去向後,單擊確認,完成建立。
舊版資料開發
登入DataWorks控制台,切換至目標地區,單擊左側導覽列的,在下拉框中選擇對應工作空間後單擊進入資料開發。
建立商務程序。詳情請參見:建立商務程序。
建立離線同步節點。可以通過以下兩種方式建立離線同步節點:
方式一:展開商務程序,按右鍵。
方式二:雙擊商務程序名稱,將Data Integration目錄下的離線同步節點直接拖拽至右側商務程序編輯面板。
根據介面提示建立離線同步節點。
步驟二:配置資料來源與資源群組
選擇離線同步任務的來來源資料源和去向資料來源。
選擇用於執行任務的資源群組和所用資源配額。資源配額的推薦配置詳見:資源群組效能指標-Data Integration。
測試資料來源與資源群組的連通性。若資料來源與資源群組網路不通,請參考介面提示或文檔進行網路連通配置。詳情請參見:網路連通配置。
如果已建立資源群組,但此處不展示資源群組時,請確認資源群組是否已綁定至工作空間。詳情請參見:使用Serverless資源群組、使用獨享Data Integration資源群組。
Serverless資源群組支援為同步任務指定運行CU上限,如果您的同步任務因資源不足出現OOM現象,請適當調整資源群組的CU佔用取值。
步驟三:配置資料來源與去向
在資料來源與資料去向的地區,配置任務讀取與寫入的表,及同步的資料範圍。
各外掛程式配置存在一定差異,以下內容僅以常見配置為例進行說明,各外掛程式是否支援相關配置以及配置的具體實現,請以具體外掛程式配置文檔為準。詳情請參見資料來源列表。
資料來源
部分源端類型支援資料過濾。您可以指定一個條件(
WHERE子句,但無需填寫where關鍵字)來篩選源端資料,任務運行時將僅同步滿足該條件的資料。詳情參見:情境:配置增量資料離線同步任務。為了實現增量同步處理,您可以將此過濾條件與調度參數結合使用,使其動態變化。例如,通過
gmt_create >= '${bizdate}',任務每天運行時都將只同步當天的新增資料。同時,在配置調度屬性時,需要為此處定義的變數賦值。詳情參見:調度參數支援的格式。不同資料來源(外掛程式)的增量同步處理配置方法有所不同。
當不配置資料過濾條件時,預設同步該表全量資料。
推薦splitPk使用者使用表主鍵,因為表主鍵通常情況下比較均勻,因此切分出來的分區也不容易出現資料熱點。
目前splitPk僅支援整型資料切分,不支援字串、浮點和日期等其他類型。如果您指定其他非支援類型,忽略splitPk功能,使用單通道進行同步。
如果不填寫splitPk,包括不提供splitPk或者splitPk值為空白,資料同步視作使用單通道同步該表資料。
並非所有外掛程式均支援指定切分鍵配置任務切分邏輯,以上僅為樣本,請以具體外掛程式說明為準。詳情請參見支援的資料來源及同步方案。
資料處理
重要資料處理為新版資料開發功能,舊版資料開發使用者需將工作空間升級為新版後,才可以使用。升級方式見:Data Studio 升級指南。
資料處理支援將來源表中的資料通過字串替換、AI輔助處理、資料向量化等方式,將處理後的資料寫入目標表。

單擊開啟按鈕,開啟資料處理開關。
在資料處理列表中單擊添加節點,選擇資料處理類型:字串替換、AI輔助處理、資料向量化。資料處理節點支援添加多個,DataWorks將按照順序進行處理。
根據介面提示,配置資料的處理規則。其中AI輔助處理和資料向量化可參考:智能資料處理。
說明資料處理需要額外佔據計算資源,增加任務的資源佔用開銷。同時增加資料同步任務啟動並執行時間長度,請盡量減輕處理過程的複雜度,避免影響同步效率。
資料去向
操作
說明
配置同步前後執行語句
部分資料來源支援在同步前(資料寫入目標端資料來源前)與同步完成後(資料寫入目標端後),在目標端執行相關資料庫SQL。
樣本:MySQL Writer支援配置preSql與postSql,即在資料寫入MySQL前或後,可以執行一些MySQL命令。例如在MySQL Writer端匯入前準備語句(preSql)配置項中配置MySQL清空表命令
truncate table tablename,實現同步前(寫入MySQL資料前)先清空表中的舊資料的操作。定義衝突時的寫入模式
定義路徑或主鍵等情境衝突時以何種方式寫入目標端。該配置根據資料來源本身特性及writer外掛程式支援情況,此處配置不同。您需要參考具體writer外掛程式進行配置。
操作 | 說明 |
配置同步範圍 | |
關係型資料庫配置切分鍵 | 定義將源端待同步資料基於源端哪個欄位進行切分,同步任務執行時將根據該欄位切分為多個task,以便並發、分批讀取資料。 |
步驟四:配置欄位對應關係
選擇資料來源和資料去向後,需要指定讀取端和寫入端列的映射關係。配置欄位對應關係後,任務將根據欄位對應關係,將源端欄位寫入目標端對應類型的欄位中。
同步過程中可能存在源端與目標端欄位類型不符,產生髒資料,導致資料無法正常寫入目標端。關於同步過程中髒資料的容忍條數,請參考下一步通道控制進行配置。
當源端某欄位未與目標端欄位進行映射時,源端該欄位資料將不會同步到目標端。
若自動對應與期望的映射不同時,需手動調整映射。
如果不需要某個欄位的映射關係,您可以手動刪除源端與目標欄位對應的連線,源端該欄位資料將不會同步到目標端。
支援同名映射、同行映射。在使用過程中,您還可以:
為目標欄位賦值:通過添加一行的方式,為目標表添加常量、調度參數、內建變數。例如,'123','${調度參數}','#{內建變數}#'。
說明當單擊下一步,配置調度時,可以為調度參數賦值。關於調度參數的使用詳情請參見:調度參數支援的格式。
添加內建變數:您可以通過手動添加內建變數,映射到目標欄位,將內建變數輸出到下遊。
各個外掛程式可用內建變數如下:
內建變數
變數說明
支援外掛程式
'
#{DATASOURCE_NAME_SRC}#'來來源資料源名稱
MySQL Reader
MySQL(分庫分表)Reader
PolarDB Reader
PolarDB(分庫分表)Reader
PostgreSQL Reader
PolarDB-O Reader
PolarDB-O(分庫分表)Reader
'
#{DB_NAME_SRC}#'來源表所在的資料庫名稱
MySQL Reader
MySQL(分庫分表)Reader
PolarDB Reader
PolarDB(分庫分表)Reader
PostgreSQL Reader
PolarDB-O Reader
PolarDB-O(分庫分表)Reader
'
#{SCHEMA_NAME_SRC}#'來源表所在的模式名稱
PolarDB Reader
PolarDB(分庫分表)Reader
PostgreSQL Reader
PolarDB-O Reader
PolarDB-O(分庫分表)Reader
'
#{TABLE_NAME_SRC}#'來源表名稱
MySQL Reader
MySQL(分庫分表)Reader
PolarDB Reader
PolarDB(分庫分表)Reader
PostgreSQL Reader
PolarDB-O Reader
PolarDB-O(分庫分表)Reader
編輯源端欄位:您可以通過單擊手動編輯映射關係實現如下功能:
使用源端資料庫支援的函數,對欄位進行函數處理,例如,通過Max(id)控制僅同步最大值。
在欄位對應未拉取全部欄位的情況下,手動編輯源端欄位。
說明MaxCompute Reader暫不支援使用函數。
步驟五:配置通道
新版資料開發的配置通道功能,在任務配置介面右側的進階配置中。
您可通過通道配置,控制資料同步過程相關屬性。相關參數說明詳情可參見離線同步並發和限流之間的關係。
參數 | 描述 |
任務期望最大並發數 | 用於定義當前任務從源端並行讀取或並行寫入目標端的最大線程數。 說明
|
同步速率 | 用於控制同步速率。
說明 流量度量值是Data Integration本身的度量值,不代表實際網卡流量。通常,網卡流量是通道流量膨脹的1至2倍,實際流量膨脹取決於具體的資料存放區系統傳輸序列化情況。 |
髒資料策略 | 髒資料指資料寫入目標端時因異常(如類型衝突、約束違反)導致失敗的資料記錄。離線同步支援定義髒資料策略,可定義髒資料容忍條數及對任務的影響。
重要 當髒資料過多時,會影響同步任務的整體同步速度。 |
分散式處理能力 | 用於控制是否開啟分布式模式來執行當前任務。
如果您對於同步效能有比較高的訴求可以使用分布式模式。另外分布式模式也可以使用機器的片段資源,對資源使用率友好。 重要
|
時區 | 若源端和目標端需進行跨時區同步,可以通過設定源端時區來進行時區轉換。 |
任務整體同步速度除受到上述配置影響外,還受源端資料來源效能,同步網路環境等多方面影響,關於同步速率說明與調優,詳情請參見離線同步提速或限速。
步驟六:配置調度屬性
周期性調度的離線同步任務需要配置任務自動調度時的相關屬性,進入離線同步節點的編輯頁面,單擊右側的調度配置,配置節點調度屬性。
您需為同步任務配置調度參數、調度策略、調度時間和調度依賴,配置方式與其他資料開發節點一樣。此處不再重複敘述。
新版資料開發調度配置參見:節點調度(新版)。
舊版資料開發調度配置參見:節點調度配置(舊版)。
調度參數使用說明請參見:調度參數在Data Integration的典型應用情境。
步驟七:測試並發布任務
配置調試參數。
在離線同步任務配置頁面右側單擊調試配置,配置以下參數,用於測試回合同步任務使用。
配置項
配置說明
資源群組
選擇與資料來源連通的資源群組。
指令碼參數
為資料同步中的預留位置參數進行賦值。例如:若Data Integration中配置了
${bizdate}參數,則需配置格式為yyyymmdd格式的日期參數。運行任務。
單擊工具列的
運行按鈕,可以在資料開發中對任務進行運行調試。後續,您可以建立目標表類型對應的節點類型來查詢目標表資料,確認同步後的資料是否符合預期。發布任務。
任務測試回合成功後,若任務需要進行周期性調度運行,您需要單擊節點編輯頁面上方的
按鈕,將任務發布至生產環境。關於任務發布,詳情請參見:發布任務。
使用限制
部分資料來源不支援使用嚮導模式配置離線同步任務。
您在選擇資料來源後,如果系統提示當前資料來源不支援嚮導模式。您可單擊工具列中的
表徵圖,切換至指令碼模式繼續配置任務。詳情請參見指令碼模式配置。
嚮導模式的學習成本低,但嚮導模式無法支援部分進階功能。如果您需要實現更精細化的組態管理,您可以單擊工具列中的轉換指令碼表徵圖,切換到指令碼模式配置離線同步任務。
後續步驟
任務發布至生產環境後,您可進入生產環境營運中心查看該調度任務,關於離線同步任務的運行與管理、狀態監控、資源群組營運等操作詳情請參見:離線同步任務營運。