DataWorksData Integration提供便捷高效的整庫離線同步解決方案,旨在協助您將來源資料庫中的全部或部分表,一次性或周期性地全量/增量遷移到目標資料存放區中。該功能極大地簡化了傳統資料移轉中需要為每張表手動建立同步任務的繁瑣流程,能夠自動在目標端建立表結構,實現高效、可管理的資料整庫搬遷。
使用情境
資料移轉與上雲
將本地IDC的MySQL、Oracle等資料庫遷移到雲上資料倉儲或資料湖。
不同雲平台或資料庫系統之間的資料移轉。
數倉/資料湖構建
周期性地將線上業務資料庫(OLTP)的全量或增量資料,批量同步至資料倉儲或資料湖的貼源層(ODS),作為後續資料分析的源頭。
資料備份與災備
定期將生產資料庫的全量資料備份到低成本的儲存介質(如HDFS、OSS)。
跨地區/可用性區域的資料災備方案實施。
核心能力
整庫同步的核心能力如下:
核心能力 | 功能點 | 功能說明 |
異構資料來源間的整庫同步 | - | 整庫同步支援將本地IDC或其他雲平台的資料移轉至MaxCompute、Hologres、OSS等數倉或資料湖。詳情請參見:支援的資料來源及同步方案。 |
複雜網路環境下的資料同步 | - | 離線同步支援阿里雲雲資料庫,本地IDC、ECS自建資料庫或非阿里雲資料庫等環境下的資料同步。配置前需確保資源群組與源端/目的端的網路連通性,配置詳情請參見:網路連通配置。 |
同步情境 | 全量同步 | 支援一次性或周期性的全量資料同步至目標表或指定分區 |
增量同步處理 | 支援一次性或者周期性基於時間、分區或主鍵的增量資料同步。 | |
全增量一體 | 首次運行:自動執行一次全量資料同步。 後續運行:自動切換為周期性增量資料同步至指定分區。 | |
庫表映射 | 批量表同步 | 支援同步整個資料庫的所有表,也支援通過勾選或配置過濾規則,精確選擇需要同步的部分表。 |
自動建表 | 一次配置即可處理源端資料庫中的數百張表,系統將自動在目標端建立表結構,無需手動幹預。 | |
靈活映射 | 支援自訂目標庫/表命名規則;支援自訂來源端和目標端的欄位類型映射,靈活適應目標端的資料結構模型。 | |
調度與依賴管理 | 調度時間 | 支援按分鐘、小時、天、周、月、年等多種調度周期配置。 如果一次性同步的表數量過多,建議配置調度時間時分批執行,防止任務堆積,造成資源擠兌。 |
任務依賴 | 整庫任務和每個表層級的子任務在DataWorks中都可以作為調度依賴的上遊任務,被其他開發工作單位所依賴。當某個表的同步任務完成後,其下遊的開發工作單位也會被自動觸發。 | |
參數支援 | 支援使用調度參數來實現增量同步處理,如使用${bizdate}表示業務日期。 | |
進階參數 | 髒資料配置 | 髒資料指資料寫入目標端時因異常(如類型衝突、約束違反)導致失敗的資料記錄。預設值為false,即不允許髒資料產生,一旦出現髒資料則任務失敗;若設定為true,則忽略全部髒資料。 |
讀寫端配置 | 支援分別配置讀端和寫端資料來源的最大串連數;支援定義寫入前對目標端的清理策略。 | |
並發與限流 |
| |
任務營運 | 線上幹預 | 支援重跑、補資料、置成功、凍結/解凍等線上幹預操作。 |
監控警示 | 支援設定基準、任務狀態、運行時間長度等監控規則,並支援對觸發的規則進行警示。 | |
資料品質 | 任務提交並發布後,可在營運中心為目標表配置資料品質監控規則。支援AI智能產生和手動設定兩種模式。目前僅部分資料庫類型支援品質規則監控,詳情參見:資料品質。 |
開始使用
建立整庫離線同步任務參見:整庫離線同步任務配置。
支援的資料來源
當前DataWorks支援各類資料來源的資料整庫遷移至MaxCompute、OSS、Elasticsearch等,支援的資料來源類型如下。
來來源資料源 | 去向資料來源 |
MaxCompute | |
Data Lake Formation | |
Hologres | |
OSS | |
Elasticsearch | |
StarRocks |