全部產品
Search
文件中心

DataWorks:整庫即時同步任務能力說明

更新時間:Dec 05, 2025

DataWorksData Integration提供了強大的整庫即時同步解決方案,旨在協助您將來源資料庫中的全部或部分表,以“全量+增量”一體化的方式,低延遲、自動化地複製到目標資料存放區中。該功能基於Realtime Compute引擎,能夠自動完成資料的首次全量初始化,並無縫切換到對增量變更資料(CDC)的持續捕獲,是實現資料庫即時上雲、構建即時數倉ODS層等情境的一站式解決方案。

使用情境

  • 即時數倉ODS層構建

    將線上業務資料庫(如MySQL、Oracle)中的資料,即時、完整地同步至Hologres、StarRocks等即時數倉,為後續的大屏展示、即席查詢等業務情境提供資料支撐。

  • 資料庫即時複製與災備

    在兩個資料庫執行個體之間建立即時複製鏈路,可用於讀寫分離、構建唯讀執行個體或實現同構/異構資料庫的即時災備。

  • 資料即時上雲/遷移

    將本地IDC的資料庫,平滑遷移至雲上資料庫服務。

  • 構建即時資料湖/資料中台

    將多個業務資料庫的即時變更資料統一採集到資料湖(OSS、DLF)或資料倉儲(MaxCompute、Hologres)中,構建企業統一的即時資料中台。

核心能力

即時整庫同步的核心能力如下:

核心能力

功能點

功能說明

異構資料來源間的整庫同步

-

整庫同步支援將本地IDC或其他雲平台的資料移轉至MaxCompute、Hologres、Kafka等數倉或資料湖。詳情請參見:支援的資料來源及同步方案

複雜網路環境下的資料同步

-

即時同步支援阿里雲雲資料庫,本地IDC、ECS自建資料庫或非阿里雲資料庫等環境下的資料同步。配置前需確保資源群組與源端/目的端的網路連通性,配置詳情請參見:網路連通配置

同步情境

全量同步

支援一次性將源端全量資料同步至目標表。

增量同步處理

支援將訊息佇列或CDC日誌等流式資料即時捕獲寫入目標表或指定分區。

全增量一體

  • 自動全量初始化:任務初次開機時,自動讀取來源資料庫所有表的存量資料並寫入目標端。

  • 無縫切換至增量:全量階段完成後,任務自動、不間斷地切換至CDC模式,持續捕獲源端的增、刪、改操作,並以毫秒級的延遲同步至目標端。

任務配置

批量表同步

支援同步整個資料庫的所有表,也支援通過勾選或配置過濾規則,精確選擇需要同步的部分表。

自動建表

一次配置即可處理源端資料庫中的數百張表,系統將自動在目標端建立表結構,無需手動幹預。

靈活映射

支援自訂目標庫/表命名規則;支援自訂來源端和目標端的欄位類型映射,靈活適應目標端的資料結構模型。

DDL變更感知(部分鏈路支援)

當源端表結構發生變更(建立/刪除表或列等)時,可配置同步任務採取以下響應策略之一:

  • 正常處理:由目標端自動執行相應的表結構變更。

  • 警示:不執行變更,僅發送警示通知,等待人工幹預。

  • 出錯:立即停止任務運行,並將狀態置為出錯。

DML規則配置

DML訊息處理用於在資料寫入目標端之前,對源端捕獲的變更資料(InsertUpdateDelete)進行精細化的過濾與控制。通過此規則,可定義不同資料變更操作的最終處理策略。

動態分區

若目標表為分區表,支援根據來源欄位或源端事件變更時間進行動態分區。

重要

注意,分區個數過多會影響同步效率,單日新增分區超過1000個,分區建立失敗並終止任務。

任務營運

線上幹預

支援斷點續傳,在任務中斷後從指定的時間位點處恢複執行,確保資料同步不丟失;支援重跑,用於資料補全、修複異常或驗證邏輯變更,保障資料一致性與商務持續性。

監控警示

支援業務延遲、任務狀態、Failover、DDL通知等監控規則,並支援對觸發的規則進行警示。

資源調優

DataWorksData Integration基於Serverless資源群組,提供按任務粒度的Auto Scaling能力。

此外,您還可以通過配置分時段彈性策略,為任務在不同時間(如業務高峰與低穀)預設不同的資源規格。

開始使用

建立整庫即時同步任務參見:整庫即時同步任務配置

支援的資料來源

來來源資料源

去向資料來源

MaxCompute

AnalyticDB for MySQL(V3.0)

ApsaraDB for OceanBase

Data Lake Formation(DLF)

DataHub

Doris

Elasticsearch

Hologres

Kafka

LogHub

OSS

OSS-HDFS

SelectDB

StarRocks

Lindorm