通過嚮導模式配置各資料來源間的單表離線同步任務，離線同步任務 - DataWorks

Data Integration提供嚮導式的開發引導，您無需編寫任何代碼，通過在介面勾選資料來源與去向，並結合DataWorks調度參數，實現將源端單表或分庫分表的全量或增量資料周期性同步至目標資料表。本文為您介紹嚮導模式配置單表離線任務的常規配置，各資料來源配置存在一定差異，請以支援的資料來源及同步方案為準。

準備工作

已完成資料來源配置。在設定Data Integration同步任務之前，請確保已在DataWorks的資料來源管理中配置好所需的來源資料庫和目標資料庫。資料來源配置詳情請參見資料來源列表。
說明
- 單表離線支援的資料來源及其配置詳情請參見支援的資料來源及同步方案。
- 資料來源相關能力介紹詳情請參見：資料來源管理。
已購買合適規格的資源群組並與工作空間綁定。詳情請參見：使用Serverless資源群組。
資源群組與資料來源網路已打通。詳情請參見：網路連通配置。
若需同步非當前工作空間綁定的 MaxCompute 表（如跨專案同步），需先將目標 MaxCompute 專案添加為 DataWorks 資料來源，才能在同步任務中選擇該表作為資料來源或資料去向。資料來源配置詳情請參見資料來源管理。

步驟一：建立Data Integration節點

新版資料開發

登入DataWorks控制台，切換至目標地區，單擊左側導覽列的數據開發與營運 > 數據開發，在下拉框中選擇對應工作空間後單擊<p>進入 <a href={url} target="_blank">LogHubEndpoint</a></p>Data Studio。
建立工作流程。詳情請參見：工作流程。
建立Data Integration節點。可以通過以下兩種方式建立Data Integration節點：
- 方式一：單擊工作流程列表右上方的，選擇新建節點 > 數據集成。
- 方式二：雙擊工作流程名稱，將數據集成目錄下的數據集成節點直接拖拽至右側商務程序編輯面板。
配置節點的資料來源和去向類型，選擇具體類型為單表離線，單擊確認，完成建立。

舊版資料開發

登入DataWorks控制台，切換至目標地區，單擊左側導覽列的數據開發與營運 > 數據開發，在下拉框中選擇對應工作空間後單擊進入數據開發。
建立商務程序。詳情請參見：建立商務程序。
建立離線同步節點。可以通過以下兩種方式建立離線同步節點：
- 方式一：展開商務程序，按右鍵數據集成 > 新建節點 > 離線同步。
- 方式二：雙擊商務程序名稱，將數據集成目錄下的離線同步節點直接拖拽至右側商務程序編輯面板。
根據介面提示建立離線同步節點。

步驟二：配置資料來源與運行資源

本樣本中，來源資料來源類型選擇MySQL，資料來源選擇mysql；去向資料來源類型選擇MaxCompute(ODPS)，資料來源選擇own_mc。資源群組選擇dwGroup，資源佔用(CU)設定為0.5 CU。

在來源數據源和去向數據源中選擇所需讀取和寫入的具體資料來源對象。
在運行資源地區，選擇同步任務所使用的資源組，並為該任務分配資源組CU。如果您的同步任務因資源不足出現OOM現象，請適當調整資源群組的CU佔用取值。資源配額的推薦配置詳見：資源群組效能指標-Data Integration。
並確保來來源資料源與去向資料來源均通過連通性檢查。若資料來源與資源群組網路不通，請參考介面提示或文檔進行網路連通配置。詳情請參見：網路連通配置。

說明

如果已建立資源群組，但此處不展示資源群組時，請確認資源群組是否已綁定至工作空間。詳情請參見：使用Serverless資源群組。

步驟三：配置同步方案

在資料來源與資料去向的地區，配置任務讀取與寫入的表，及同步的資料範圍。

重要

各外掛程式配置存在一定差異，以下內容僅以常見配置為例進行說明，各外掛程式是否支援相關配置以及配置的具體實現，請以具體外掛程式配置文檔為準。詳情請參見資料來源列表。

1. 資料來源

在資料來源區域，配置資料表。並根據介面提示填寫所需參數。

操作

說明

配置資料過濾

部分源端類型支援資料過濾。您可以指定一個條件（WHERE子句，但無需填寫where關鍵字）來篩選源端資料，任務運行時將僅同步滿足該條件的資料。詳情參見：情境：配置增量資料離線同步任務。
資料過濾僅支援 WHERE 子句條件運算式，不支援編寫完整的 SELECT、JOIN 等 SQL 陳述式。如需在同步過程中執行複雜 SQL 查詢（如調用 UDF 函數、多表 JOIN、記憶體中 SQL 轉換等），嚮導模式不直接支援此類操作，建議採用分步方案：先通過 MaxCompute SQL 節點或 PyODPS 節點執行複雜邏輯和資料清洗，將結果寫入暫存資料表，再配置Data Integration節點從暫存資料表讀取資料同步至最終目標端。
為了實現增量同步處理，您可以將此過濾條件與調度參數結合使用，使其動態變化。例如，通過gmt_create >= '${bizdate}'，任務每天運行時都將只同步當天的新增資料。同時，在配置調度屬性時，需要為此處定義的變數賦值。詳情參見：調度參數支援的格式。

不同資料來源（外掛程式）的增量同步處理配置方法有所不同。

當不配置資料過濾條件時，預設同步該表全量資料。

關係型資料庫配置切分鍵

定義將源端待同步資料基於源端哪個欄位進行切分，同步任務執行時將根據該欄位切分為多個task，以便並發、分批讀取資料。

推薦使用表主鍵作為splitPk，因為表主鍵通常情況下比較均勻，因此切分出來的分區也不容易出現資料熱點。

目前splitPk僅支援整型資料切分，不支援字串、浮點和日期等其他類型。如果您指定其他非支援類型，DataWorks將忽略splitPk功能，使用單通道進行同步。

如果不填寫splitPk，包括不提供splitPk或者splitPk值為空白，資料同步視作使用單通道同步該表資料。

並非所有外掛程式均支援指定切分鍵配置任務切分邏輯，以上僅為樣本，請以具體外掛程式說明為準。詳情請參見資料來源列表。

2. 資料處理

重要

資料處理為新版資料開發功能，舊版資料開發需在建立任務時勾選使用新版介面（帶資料處理功能）後，才可以使用。推薦將舊版工作空間升級為新版，以使用更全面的功能：Data Studio 升級指南。

資料處理支援將來源表中的資料通過字串替換、AI輔助處理、資料向量化等方式，將處理後的資料寫入目標表。

以字串替換為例，配置項包括名稱和描述。替換規則中需選擇欄位名，填寫被替換的內容（支援正則匹配和大小寫匹配）及要替換成的內容，可單擊新增規則添加多條替換規則，並通過右上方資料輸出預覽查看處理結果。

單擊開啟按鈕，開啟資料處理開關。
在數據處理列表中單擊加節點，選擇資料處理類型：字符串替換、AI輔助處理、資料向量化。資料處理節點支援添加多個，DataWorks將按照順序進行處理。
根據介面提示，配置資料的處理規則。其中AI輔助處理和資料向量化可參考：資料處理。
說明
資料處理需要額外佔據計算資源，增加任務的資源佔用開銷。同時增加資料同步任務啟動並執行時間長度，請盡量減輕處理過程的複雜度，避免影響同步效率。

3. 資料去向

在資料去向地區，配置資料表。並根據介面提示填寫所需參數。

操作

說明

配置同步前後執行語句

部分資料來源支援在同步前（資料寫入目標端資料來源前）與同步完成後（資料寫入目標端後），在目標端執行相關資料庫SQL。

樣本：MySQL Writer支援配置preSql與postSql，即在資料寫入MySQL前或後，可以執行一些MySQL命令。例如在MySQL Writer端導入前準備語句（preSql）配置項中配置MySQL清空表命令truncate table tablename，實現同步前（寫入MySQL資料前）先清空表中的舊資料的操作。

定義衝突時的寫入模式

定義路徑或主鍵等情境衝突時以何種方式寫入目標端。該配置根據資料來源本身特性及writer外掛程式支援情況而定，此處配置不同。您需要參考具體writer外掛程式進行配置。

MaxCompute 分區表配置說明

當資料去向為 MaxCompute 分區表時，請注意以下事項：

分區欄位識別：DataWorks 會自動識別 MaxCompute 目標表的分區結構。若介面僅顯示部分分區欄位，請檢查該表在開發環境和生產環境中是否均已正確定義所有分區欄位。若任務運行報錯並提示需配置表分區資訊，請在去向配置中補全分區參數。
欄位對應重新整理：當源端或目標端新增欄位後，若欄位對應地區未顯示新欄位，可嘗試以下方法重新整理緩衝：
1. 確認開發環境和生產環境的表結構已同步更新。
2. 在配置頁面切換選擇其他表，再切回原表以重新整理緩衝。
3. 如仍未重新整理，可重啟瀏覽器或使用無痕模式重新進入配置頁面。

4. 配置欄位對應關係

選擇資料來源和資料去向後，需要指定讀取端和寫入端列的映射關係。配置欄位對應關係後，任務將根據欄位對應關係，將源端欄位寫入目標端對應類型的欄位中。

當源端某欄位未與目標端欄位進行映射時，源端該欄位資料將不會同步到目標端。
若自動對應與期望的映射不同時，需手動調整映射。
如果不需要某個欄位的映射關係，您可以手動刪除源端與目標欄位對應的連線，源端該欄位資料將不會同步到目標端。

同步過程中可能存在源端與目標端欄位類型不符，產生髒資料，導致資料無法正常寫入目標端。關於同步過程中髒資料的容忍條數，請參考下一步高級配置進行配置。

支援同名映射、同行映射、智能映射和規則映射。在使用過程中，您還可以：

智能映射：為了提升配置效率，降低人工匹配錯誤率，Data Integration現已支援智能欄位對應功能。系統基於 AI 語義分析，自動識別源表與目標表的欄位名稱、資料類型及注釋，一鍵推薦最優映射關係。您只需確認推薦結果或進行微調即可完成配置。

在欄位對應地區單擊智能映射，開啟智能映射對話方塊。您可以用自然語言描述映射需求，

適用情境	典型特徵樣本	推薦提示詞
全域語義匹配	欄位名完全不同但含義一致 (例：`user_id` ↔ `device_id`)	`請對源表和目標表的所有欄位進行語義匹配，自動識別含義相同的欄位。`
特定業務域匹配	僅需映射某類業務欄位 (例：只關注“使用者”或“訂單”)	`僅將源表中包含“使用者資訊”（如姓名、手機號、ID）的欄位，映射到目標表的對應欄位。` （註：可替換關鍵詞為“訂單”、“物流”、“支付”等）
首碼/尾碼規範差異	核心名相同，但前尾碼不同 (例：`src_user_name` ↔ `tgt_user_name`)	`忽略欄位的首碼和尾碼差異，僅根據核心名稱進行語義匹配。`
縮寫與全稱匹配	一方使用縮寫，一方使用全稱 (例：`amt` ↔ `amount`)	`識別常見的英文縮寫與全稱對應關係（如 amt=amount, addr=address），並建立映射。`
排除特定欄位	某些欄位雖相似但不需要同步 (例：不需要 `create_time`)	`進行語義匹配，但請排除所有包含“時間”或“日誌”字樣的欄位。`
複雜邏輯修正	自動匹配結果有誤，需人工引導	`不要將源表的 id 欄位對應到目標表的 order_id，請重建映射建議。`

輸入完成後，單擊產生預覽，系統會在匹配結果預覽地區展示建議的映射關係。您可以逐條查看並勾選需要的映射，最後單擊應用將選中的映射添加到欄位對應中。如果對結果不滿意，可以調整描述後重建預覽。

規則映射：當源端與目標端欄位名存在規律性的差異時，您可以使用規則映射功能，通過配置前尾碼匹配或字元替換等規則，批量建立欄位對應關係。在欄位對應地區單擊規則映射，選擇映射方式和映射規則，配置完成後預覽映射結果，確認無誤後單擊應用。
為目標欄位賦值：通過在源表字段列加入欄位的方式，為目標表添加常量、調度參數、內建變數。例如，'123'，'${調度參數}'，'#{內建變數}#'。
說明
關於調度參數的使用詳情請參見：調度參數支援的格式。

添加內建變數：您可以通過手動添加內建變數，映射到目標欄位，將內建變數輸出到下遊。

各個外掛程式可用內建變數如下：

內建變數	變數說明	支援外掛程式
'`#{DATASOURCE_NAME_SRC}#`'	來來源資料源名稱	MySQL Reader MySQL（分庫分表）Reader PolarDB Reader PolarDB（分庫分表）Reader PostgreSQL Reader PolarDB-O Reader PolarDB-O（分庫分表）Reader
'`#{DB_NAME_SRC}#`'	來源表所在的資料庫名稱	MySQL Reader MySQL（分庫分表）Reader PolarDB Reader PolarDB（分庫分表）Reader PostgreSQL Reader PolarDB-O Reader PolarDB-O（分庫分表）Reader
'`#{SCHEMA_NAME_SRC}#`'	來源表所在的模式名稱	PolarDB Reader PolarDB（分庫分表）Reader PostgreSQL Reader PolarDB-O Reader PolarDB-O（分庫分表）Reader
'`#{TABLE_NAME_SRC}#`'	來源表名稱	MySQL Reader MySQL（分庫分表）Reader PolarDB Reader PolarDB（分庫分表）Reader PostgreSQL Reader PolarDB-O Reader PolarDB-O（分庫分表）Reader
'`#{FILE_NAME_SRC}#`'	檔案名稱	OSS Reader HDFS Reader FTP Reader TOS Reader COS Reader S3 Reader Azure Blob Reader
'`#{FILE_PATH_SRC}#`'	檔案絕對路徑	OSS Reader HDFS Reader FTP Reader TOS Reader COS Reader S3 Reader Azure Blob Reader

編輯源端欄位：您可以通過單擊手動編輯映射關係實現如下功能：
- 使用源端資料庫支援的函數，對欄位進行函數處理，例如，通過Max（id）控制僅同步最大值。
- 在欄位對應未拉取全部欄位的情況下，手動編輯源端欄位。
說明
MaxCompute Reader暫不支援使用函數。

步驟四：進階配置

重要

進階配置即舊版資料同步中的通道控制功能。

您可通過進階配置，控制資料同步過程相關屬性。相關參數說明詳情可參見離線同步並發和限流之間的關係。

參數	描述
任務期望最大並發數	用於定義當前任務從源端並行讀取或並行寫入目標端的最大線程數。說明由於資源規格等原因，實際執行時並發數可能小於或等於此處配置的並發數，調試資源群組收費將按照實際執行的並發數收費。詳情請參見：效能指標。任務調度收費與單表離線任務個數有關，和任務配置的並發無關。
同步速率	用於控制同步速率。限流：您可以通過限流量控制同步速率，以保護讀取端資料庫，避免抽取速度過大，給源庫造成太大的壓力。限速最小配置為1MB/s。不限流：在不限流的情況下，任務將在所配置的並發數的限制基礎上，提供現有硬體環境下最大的傳輸效能。說明流量度量值是Data Integration本身的度量值，不代表實際網卡流量。通常，網卡流量是通道流量膨脹的1至2倍，實際流量膨脹取決於具體的資料存放區系統傳輸序列化情況。
髒數據策略	髒資料指資料寫入目標端時因異常（如類型衝突、約束違反）導致失敗的資料記錄。單表離線支援定義髒資料策略，可定義髒資料容忍條數及對任務的影響。不配置時預設允許髒資料，即任務產生髒資料時不影響任務執行。配置為0，表示不允許髒資料存在。如果同步過程中產生髒資料，任務將失敗退出。允許髒資料並設定其閾值時：若產生的髒資料在閾值範圍內，同步任務將忽略髒資料（即不會寫入目標端），並正常執行。若產生的髒資料超出閾值範圍，同步任務將失敗退出。重要當髒資料過多時，會影響同步任務的整體同步速度。
分布式處理能力	用於控制是否開啟分布式模式來執行當前任務。開啟：分布式執行模式可以將您的任務切片分成多個進程並發執行，突破單進程執行瓶頸，提高同步效率。未開啟：保持單個進程運行。如果您對同步效能有比較高的訴求可以使用分布式模式。另外分布式模式也可以利用機器的片段資源，對資源使用率友好。重要並發數大於等於8個才能開啟分散式處理能力。開啟分散式處理開關會佔用更多資源，如運行時報錯記憶體溢出（OOM），可嘗試關閉此開關。
時區	若源端和目標端需進行跨時區同步，可以通過設定源端時區來進行時區轉換。

說明

任務整體同步速度除受到上述配置影響外，還受源端資料來源效能，同步網路環境等多方面影響，關於同步速率說明與調優，詳情請參見離線同步提速或限速。

步驟五：配置調度屬性

周期性調度的單表離線任務需要配置任務自動調度時的相關屬性，進入節點的編輯頁面，單擊右側的調度配置，配置節點調度屬性。

您需為同步任務配置調度參數、調度策略、調度時間和調度依賴，配置方式與其他資料開發節點一樣。此處不再重複敘述。

新版資料開發調度配置參見：節點調度（新版）。
舊版資料開發調度配置參見：節點調度配置（舊版）。

調度參數使用說明請參見：調度參數在Data Integration的典型應用情境。

步驟六：測試並發布任務

配置運行參數。

在單表離線任務配置頁面右側單擊回合組態，配置以下參數，用於測試回合任務使用。

配置項	配置說明
資源組	選擇與資料來源連通的資源群組。
腳本參數	為資料同步中的預留位置參數進行賦值。例如：若Data Integration中配置了`${bizdate}`參數，則需配置格式為`yyyymmdd`的日期參數。

運行任務。
單擊工具列的運行按鈕，可以在資料開發中對任務進行運行調試。後續，您可以建立目標表類型對應的節點類型來查詢目標表資料，確認同步後的資料是否符合預期。
發布任務。
任務測試回合成功後，若任務需要進行周期性調度運行，您需要單擊節點編輯頁面上方的按鈕，將任務發布至生產環境。關於任務發布，詳情請參見：發布任務。

使用限制

單表離線任務僅支援在資料開發中配置。
部分資料來源不支援使用嚮導模式配置單表離線任務。
您在選擇資料來源後，如果系統提示當前資料來源不支援嚮導模式。您可單擊工具列中的表徵圖，切換至指令碼模式繼續配置任務。詳情請參見指令碼模式配置。
嚮導模式的學習成本低，但嚮導模式無法支援部分進階功能。如果您需要實現更精細化的組態管理，您可以單擊工具列中的轉換指令碼表徵圖，切換到指令碼模式配置單表離線任務。
嚮導模式下的單表離線任務僅支援配置單張表的同步以及部分分庫分表同步（分庫分表同步僅部分資料來源類型支援，且要求表結構一直），不支援整庫同步（包含表結構和資料的批量同步）。如需整庫同步，請參見整庫離線同步任務。
離線同步任務不能直接轉換為即時同步任務。如需即時資料同步，請建立單表即時同步任務節點。
發布任務時若提示節點名稱過長，可在發佈頁面的進階配置中修改節點名稱，確保名稱長度不超過 128 個字元。

後續步驟

任務發布至生產環境後，您可進入生產環境營運中心查看該調度任務，關於Data Integration任務的運行與管理、狀態監控、資源群組營運等操作詳情請參見：離線同步任務營運。

DataWorks：通過嚮導模式配置單表離線任務