DataWorksData Integration提供了強大的整庫即時同步解決方案,旨在協助您將來源資料庫中的全部或部分表,以“全量+增量”一體化的方式,低延遲、自動化地複製到目標資料存放區中。該功能基於Realtime Compute引擎,能夠自動完成資料的首次全量初始化,並無縫切換到對增量變更資料(CDC)的持續捕獲,是實現資料庫即時上雲、構建即時數倉ODS層等情境的一站式解決方案。
使用情境
即時數倉ODS層構建
將線上業務資料庫(如MySQL、Oracle)中的資料,即時、完整地同步至Hologres、StarRocks等即時數倉,為後續的大屏展示、即席查詢等業務情境提供資料支撐。
資料庫即時複製與災備
在兩個資料庫執行個體之間建立即時複製鏈路,可用於讀寫分離、構建唯讀執行個體或實現同構/異構資料庫的即時災備。
資料即時上雲/遷移
將本地IDC的資料庫,平滑遷移至雲上資料庫服務。
構建即時資料湖/資料中台
將多個業務資料庫的即時變更資料統一採集到資料湖(OSS、DLF)或資料倉儲(MaxCompute、Hologres)中,構建企業統一的即時資料中台。
核心能力
即時整庫同步的核心能力如下:
核心能力 | 功能點 | 功能說明 |
異構資料來源間的整庫同步 | - | 整庫同步支援將本地IDC或其他雲平台的資料移轉至MaxCompute、Hologres、Kafka等數倉或資料湖。詳情請參見:支援的資料來源及同步方案。 |
複雜網路環境下的資料同步 | - | 即時同步支援阿里雲雲資料庫,本地IDC、ECS自建資料庫或非阿里雲資料庫等環境下的資料同步。配置前需確保資源群組與源端/目的端的網路連通性,配置詳情請參見:網路連通配置。 |
同步情境 | 全量同步 | 支援一次性將源端全量資料同步至目標表。 |
增量同步處理 | 支援將訊息佇列或CDC日誌等流式資料即時捕獲寫入目標表或指定分區。 | |
全增量一體 |
| |
任務配置 | 批量表同步 | 支援同步整個資料庫的所有表,也支援通過勾選或配置過濾規則,精確選擇需要同步的部分表。 |
自動建表 | 一次配置即可處理源端資料庫中的數百張表,系統將自動在目標端建立表結構,無需手動幹預。 | |
靈活映射 | 支援自訂目標庫/表命名規則;支援自訂來源端和目標端的欄位類型映射,靈活適應目標端的資料結構模型。 | |
DDL變更感知(部分鏈路支援) | 當源端表結構發生變更(建立/刪除表或列等)時,可配置同步任務採取以下響應策略之一:
| |
DML規則配置 | DML訊息處理用於在資料寫入目標端之前,對源端捕獲的變更資料( | |
動態分區 | 若目標表為分區表,支援根據來源欄位或源端事件變更時間進行動態分區。 重要 注意,分區個數過多會影響同步效率,單日新增分區超過1000個,分區建立失敗並終止任務。 | |
任務營運 | 線上幹預 | 支援斷點續傳,在任務中斷後從指定的時間位點處恢複執行,確保資料同步不丟失;支援重跑,用於資料補全、修複異常或驗證邏輯變更,保障資料一致性與商務持續性。 |
監控警示 | 支援業務延遲、任務狀態、Failover、DDL通知等監控規則,並支援對觸發的規則進行警示。 | |
資源調優 | DataWorksData Integration基於Serverless資源群組,提供按任務粒度的Auto Scaling能力。 此外,您還可以通過配置分時段彈性策略,為任務在不同時間(如業務高峰與低穀)預設不同的資源規格。 |
開始使用
建立整庫即時同步任務參見:整庫即時同步任務配置。
支援的資料來源
來來源資料源 | 去向資料來源 |
MaxCompute | |
AnalyticDB for MySQL(V3.0) | |
ApsaraDB for OceanBase | |
Data Lake Formation(DLF) | |
DataHub | |
Doris | |
Elasticsearch | |
Hologres | |
Kafka | |
LogHub | |
OSS | |
OSS-HDFS | |
SelectDB | |
StarRocks | |
Lindorm |