DataWorksData Integration提供了強大的整庫即時同步解決方案,旨在協助您將來源資料庫中的全部或部分表,以“全量+增量”一體化的方式,低延遲、自動化地複製到目標資料存放區中。該功能基於Realtime Compute引擎,能夠自動完成資料的首次全量初始化,並無縫切換到對增量變更資料(CDC)的持續捕獲,是實現資料庫即時上雲、構建即時數倉ODS層等情境的一站式解決方案。
使用情境
-
即時數倉ODS層構建
將線上業務資料庫(如MySQL、Oracle)中的資料,即時、完整地同步至Hologres、StarRocks等即時數倉,為後續的大屏展示、即席查詢等業務情境提供資料支撐。
-
資料庫即時複製與災備
在兩個資料庫執行個體之間建立即時複製鏈路,可用於讀寫分離、構建唯讀執行個體或實現同構/異構資料庫的即時災備。
-
資料即時上雲/遷移
將本地IDC的資料庫,平滑遷移至雲上資料庫服務。
-
構建即時資料湖/資料中台
將多個業務資料庫的即時變更資料統一採集到資料湖(OSS、DLF)或資料倉儲(MaxCompute、Hologres)中,構建企業統一的即時資料中台。
核心能力
即時整庫同步的核心能力如下:
|
核心能力 |
功能點 |
功能說明 |
|
異構資料來源間的整庫同步 |
- |
整庫同步支援將本地IDC或其他雲平台的資料移轉至MaxCompute、Hologres、Kafka等數倉或資料湖。詳情請參見:支援的資料來源及同步方案。 |
|
複雜網路環境下的資料同步 |
- |
即時同步支援阿里雲雲資料庫,本地IDC、ECS自建資料庫或非阿里雲資料庫等環境下的資料同步。配置前需確保資源群組與源端/目的端的網路連通性,配置詳情請參見:網路連通配置。 |
|
同步情境 |
全量同步 |
支援一次性將源端全量資料同步至目標表。 |
|
增量同步處理 |
支援將訊息佇列或CDC日誌等流式資料即時捕獲寫入目標表或指定分區。 |
|
|
全增量一體 |
|
|
|
任務配置 |
批量表同步 |
支援同步整個資料庫的所有表,也支援通過勾選或配置過濾規則,精確選擇需要同步的部分表。 |
|
自動建表 |
一次配置即可處理源端資料庫中的數百張表,系統將自動在目標端建立表結構,無需手動幹預。 |
|
|
靈活映射 |
支援自訂目標庫/表命名規則;支援自訂來源端和目標端的欄位類型映射,靈活適應目標端的資料結構模型。 |
|
|
DDL變更感知(部分鏈路支援) |
當源端表結構發生變更(建立/刪除表或列等)時,可配置同步任務採取以下響應策略之一:
|
|
|
DML規則配置 |
DML訊息處理用於在資料寫入目標端之前,對源端捕獲的變更資料( |
|
|
動態分區 |
若目標表為分區表,支援根據來源欄位或源端事件變更時間進行動態分區。 重要
注意,分區個數過多會影響同步效率,單日新增分區超過1000個,分區建立失敗並終止任務。 |
|
|
任務營運 |
線上幹預 |
支援斷點續傳,在任務中斷後從指定的時間位點處恢複執行,確保資料同步不丟失;支援重跑,用於資料補全、修複異常或驗證邏輯變更,保障資料一致性與商務持續性。 |
|
監控警示 |
支援業務延遲、任務狀態、Failover、DDL通知等監控規則,並支援對觸發的規則進行警示。 |
|
|
資源調優 |
DataWorksData Integration基於Serverless資源群組,提供按任務粒度的Auto Scaling能力。 此外,您還可以通過配置分時段彈性策略,為任務在不同時間(如業務高峰與低穀)預設不同的資源規格。 |
開始使用
建立整庫即時同步任務參見:整庫即時同步任務配置。
支援的資料來源
|
來來源資料源 |
去向資料來源 |
|
MaxCompute |
|
|
AnalyticDB for MySQL(V3.0) |
|
|
ApsaraDB for OceanBase |
|
|
Data Lake Formation(DLF) |
|
|
DataHub |
|
|
Doris |
|
|
Elasticsearch |
|
|
Hologres |
|
|
Kafka |
|
|
LogHub |
|
OSS |
|
|
OSS-HDFS |
|
|
SelectDB |
|
|
StarRocks |
|
|
Lindorm |