全部產品
Search
文件中心

DataWorks:離線同步能力說明

更新時間:Oct 25, 2025

Data Integration的離線同步功能為您提供資料讀取(Reader)和寫入外掛程式(Writer),方便您通過定義來源與去向資料來源,並結合DataWorks調度參數使用,將源端資料庫中全量或增量資料的同步至目標資料庫中。本文為您介紹離線同步的相關能力。

核心能力

離線同步支援的能力如下圖所示:

能力

描述

異構資料來源間的資料同步

Data Integration目前支援50+資料來源類型,包括關係型資料庫、非結構化儲存、巨量資料儲存、訊息佇列間的資料同步。您可以通過定義來源與去向資料來源,並通過Data Integration提供的資料幫浦外掛程式(Reader)、資料寫入外掛程式(Writer),實現任意結構化、半結構化資料來源之間資料轉送。詳情請參見:支援的資料來源及同步方案

複雜網路環境下的資料同步

離線同步支援阿里雲雲資料庫,本地IDC、ECS自建資料庫或非阿里雲資料庫等環境下的資料同步。配置前需確保資源群組與源端/目的端的網路連通性,配置詳情請參見:網路連通方案

同步情境

1. 支援的同步模式

  • 周期性全量:將源表資料完整地、周期性地覆蓋寫入到目標表。適用於全量更新的情境。

  • 周期性增量:每天/每小時只同步源表中新增或發生變化的資料。通過內建的調度參數(如${bizdate})配合資料過濾WHERE條件來實現,確保每次只拉取指定的資料寫入對應的時間分區。詳情參見:情境:配置增量資料離線同步任務

  • 歷史資料回填:當需要一次性補錄大量歷史資料時,可利用營運中心的補資料功能,批量執行同步任務,高效完成歷史資料的歸檔。

2. 支援的源端結構

  • 單表到單表:最基礎的同步方式,將一張源表的資料同步至一張目標表。

  • 分庫分表到單表

    • 自動彙總來自多個物理表(如訂單庫 order_01order_02...)的資料,並統一寫入到一張目標表中。

    • 支援的資料來源包括:MySQL、SQL Server、Oracle、PostgreSQL、PolarDB和AnalyticDB等。詳情請參見:分庫分表同步

配置方式

您可以通過以下方式配置Data Integration離線同步任務。

  • 嚮導模式:通過可視化引導介面逐步完成配置,適合快速上手。該模式操作簡單學習成本低,但部分進階功能不可用。

  • 指令碼模式:採用JSON指令碼直接定義同步邏輯,適合進階使用。該模式支援更複雜的配置情境,可實現精細化控制。

  • OpenAPI建立:通過OpenAPI介面實現任務全生命週期管理,支援程式化操作。介面說明請參見:。

說明

任務配置相關能力說明請參見:功能概述

離線同步任務營運

  • 監控警示:支援對離線同步任務的運行狀態進行監控,包括任務未完成、出錯、完成等情境的監控警示,並且支援通過郵件、簡訊、電話、DingTalk群機器人和WebHook等多種警示方式將警示資訊發送給警示接收人。

  • 資料品質:任務提交發布後,可以在營運中心對目標表配置資料品質監控規則。目前僅部分資料庫類型支援配置資料品質監控規則。

  • 資料來源環境隔離同一資料來源名稱綁定開發與生產兩套獨立配置,任務執行時自動按環境切換資料來源——開發調試用開發環境,生產調度用生產環境,防止測試誤操作線上資料的風險。

功能概述

功能

說明

全量或增量資料同步

離線同步任務可以通過配置資料過濾並結合調度參數,實現資料的全量或增量同步處理。不同外掛程式增量同步處理配置方式不同,關於增量資料同步配置詳情請參見:情境:配置增量資料離線同步任務

欄位對應

通過建立欄位間映射規則,源端資料將按指定關係寫入目標端對應欄位。配置時需確保兩端欄位類型相容。

  • 提供多種欄位對應方式:

    • 嚮導模式支援同名映射、同行映射,並支援自訂欄位關係。未映射欄位資料自動忽略,需確保目標端對應欄位配置預設值或允許空值,避免寫入失敗。

    • 指令碼模式依據column配置順序嚴格映射,要求讀取端與寫入端欄位數量嚴格一致,否則任務觸發執行異常。

  • 同步任務同時提供目標欄位動態賦值功能,支援常量、調度參數及內建變數(如${bizdate})的靈活配置,相關參數需在調度環節完成最終賦值。

作業速率上限控制

  • 提供任務並發數控制功能來限制Data Integration讀取和寫入資料庫的最大並發數。

  • 提供同步速率功能控制流程量,避免同步速度過快對資料來源端或者資料去向端造成太大的壓力。不限流的情況下則會提供現有硬體環境下最大的傳輸效能。

分布式執行任務

支援分布式執行的資料來源可通過任務切片技術,將同步任務分發至多節點並發執行,實現同步速度隨叢集規模線性提升,突破單機效能瓶頸。該模式尤其適用於高吞吐、低延遲的同步情境,同時能高效調度叢集閑置資源,顯著提升硬體利用率。

髒資料策略

髒資料指資料寫入目標端時因異常(如類型衝突、約束違反)導致失敗的資料記錄。離線同步支援定義髒資料策略,可定義髒資料容忍條數及對任務的影響。

  • 忽略髒資料:自動過濾髒資料,僅寫入合規資料,任務持續運行。

  • 容忍有限髒資料:設定閾值N(髒資料 ≤ N → 丟棄異常資料,任務繼續;髒資料 > N → 任務失敗退出)

  • 不容忍髒資料:任務出現髒資料時立即失敗退出。

時區

若源端和目標端需進行跨時區同步,可以通過設定源端時區來進行時區轉換。

智能資料處理

DataWorks支援在資料同步時接入資料處理能力,將源端的資料經過轉換和處理後寫入目標端:

字串替換:DataWorks離線同步任務內建了字串替換功能,允許您在資料轉送過程中直接對資料進行輕量的資料轉換,無需落地或額外的ETL步驟。

AI輔助處理:支援在資料同步過程中接入AI大模型,對源端自然語言進行語義、情感等分析處理,並將處理後的結果直接寫入目標表。

資料向量化:支援將源端資料幫浦並向量化(Embedding)後,寫入向量資料庫。

後續步驟

建立任務詳細說明參見: