全部產品

DataWorks：離線同步能力說明

更新時間：Oct 25, 2025

Data Integration的離線同步功能為您提供資料讀取（Reader）和寫入外掛程式（Writer），方便您通過定義來源與去向資料來源，並結合DataWorks調度參數使用，將源端資料庫中全量或增量資料的同步至目標資料庫中。本文為您介紹離線同步的相關能力。

核心能力

離線同步支援的能力如下圖所示：

能力	描述
異構資料來源間的資料同步	Data Integration目前支援50+資料來源類型，包括關係型資料庫、非結構化儲存、巨量資料儲存、訊息佇列間的資料同步。您可以通過定義來源與去向資料來源，並通過Data Integration提供的資料幫浦外掛程式（Reader）、資料寫入外掛程式（Writer），實現任意結構化、半結構化資料來源之間資料轉送。詳情請參見：支援的資料來源及同步方案。
複雜網路環境下的資料同步	離線同步支援阿里雲雲資料庫，本地IDC、ECS自建資料庫或非阿里雲資料庫等環境下的資料同步。配置前需確保資源群組與源端/目的端的網路連通性，配置詳情請參見：網路連通方案。
同步情境	1. 支援的同步模式周期性全量：將源表資料完整地、周期性地覆蓋寫入到目標表。適用於全量更新的情境。周期性增量：每天/每小時只同步源表中新增或發生變化的資料。通過內建的調度參數（如`${bizdate}`）配合資料過濾的`WHERE`條件來實現，確保每次只拉取指定的資料寫入對應的時間分區。詳情參見：情境：配置增量資料離線同步任務。歷史資料回填：當需要一次性補錄大量歷史資料時，可利用營運中心的補資料功能，批量執行同步任務，高效完成歷史資料的歸檔。說明調度參數說明參見：調度參數在Data Integration的典型應用情境、調度參數支援的格式。 2. 支援的源端結構單表到單表：最基礎的同步方式，將一張源表的資料同步至一張目標表。分庫分表到單表：自動彙總來自多個物理表（如訂單庫 `order_01`, `order_02`...）的資料，並統一寫入到一張目標表中。支援的資料來源包括：MySQL、SQL Server、Oracle、PostgreSQL、PolarDB和AnalyticDB等。詳情請參見：分庫分表同步。
配置方式	您可以通過以下方式配置Data Integration離線同步任務。嚮導模式：通過可視化引導介面逐步完成配置，適合快速上手。該模式操作簡單學習成本低，但部分進階功能不可用。指令碼模式：採用JSON指令碼直接定義同步邏輯，適合進階使用。該模式支援更複雜的配置情境，可實現精細化控制。 OpenAPI建立：通過OpenAPI介面實現任務全生命週期管理，支援程式化操作。介面說明請參見：。說明任務配置相關能力說明請參見：功能概述。
離線同步任務營運	監控警示：支援對離線同步任務的運行狀態進行監控，包括任務未完成、出錯、完成等情境的監控警示，並且支援通過郵件、簡訊、電話、DingTalk群機器人和WebHook等多種警示方式將警示資訊發送給警示接收人。資料品質：任務提交發布後，可以在營運中心對目標表配置資料品質監控規則。目前僅部分資料庫類型支援配置資料品質監控規則。資料來源環境隔離：同一資料來源名稱綁定開發與生產兩套獨立配置，任務執行時自動按環境切換資料來源——開發調試用開發環境，生產調度用生產環境，防止測試誤操作線上資料的風險。

功能概述

功能	說明
全量或增量資料同步	離線同步任務可以通過配置資料過濾並結合調度參數，實現資料的全量或增量同步處理。不同外掛程式增量同步處理配置方式不同，關於增量資料同步配置詳情請參見：情境：配置增量資料離線同步任務。
欄位對應	通過建立欄位間映射規則，源端資料將按指定關係寫入目標端對應欄位。配置時需確保兩端欄位類型相容。提供多種欄位對應方式：嚮導模式支援同名映射、同行映射，並支援自訂欄位關係。未映射欄位資料自動忽略，需確保目標端對應欄位配置預設值或允許空值，避免寫入失敗。指令碼模式依據column配置順序嚴格映射，要求讀取端與寫入端欄位數量嚴格一致，否則任務觸發執行異常。同步任務同時提供目標欄位動態賦值功能，支援常量、調度參數及內建變數（如`${bizdate}`）的靈活配置，相關參數需在調度環節完成最終賦值。
作業速率上限控制	提供任務並發數控制功能來限制Data Integration讀取和寫入資料庫的最大並發數。提供同步速率功能控制流程量，避免同步速度過快對資料來源端或者資料去向端造成太大的壓力。不限流的情況下則會提供現有硬體環境下最大的傳輸效能。
分布式執行任務	支援分布式執行的資料來源可通過任務切片技術，將同步任務分發至多節點並發執行，實現同步速度隨叢集規模線性提升，突破單機效能瓶頸。該模式尤其適用於高吞吐、低延遲的同步情境，同時能高效調度叢集閑置資源，顯著提升硬體利用率。
髒資料策略	髒資料指資料寫入目標端時因異常（如類型衝突、約束違反）導致失敗的資料記錄。離線同步支援定義髒資料策略，可定義髒資料容忍條數及對任務的影響。忽略髒資料：自動過濾髒資料，僅寫入合規資料，任務持續運行。容忍有限髒資料：設定閾值N（髒資料 ≤ N → 丟棄異常資料，任務繼續；髒資料 > N → 任務失敗退出）不容忍髒資料：任務出現髒資料時立即失敗退出。
時區	若源端和目標端需進行跨時區同步，可以通過設定源端時區來進行時區轉換。
智能資料處理	DataWorks支援在資料同步時接入資料處理能力，將源端的資料經過轉換和處理後寫入目標端：字串替換：DataWorks離線同步任務內建了字串替換功能，允許您在資料轉送過程中直接對資料進行輕量的資料轉換，無需落地或額外的ETL步驟。 AI輔助處理：支援在資料同步過程中接入AI大模型，對源端自然語言進行語義、情感等分析處理，並將處理後的結果直接寫入目標表。資料向量化：支援將源端資料幫浦並向量化（Embedding）後，寫入向量資料庫。

後續步驟

建立任務詳細說明參見：