Data Integration的離線同步功能為您提供資料讀取(Reader)和寫入外掛程式(Writer),方便您通過定義來源與去向資料來源,並結合DataWorks調度參數使用,將源端資料庫中全量或增量資料的同步至目標資料庫中。本文為您介紹離線同步的相關能力。
核心能力
離線同步支援的能力如下圖所示:
能力 | 描述 |
異構資料來源間的資料同步 | Data Integration目前支援50+資料來源類型,包括關係型資料庫、非結構化儲存、巨量資料儲存、訊息佇列間的資料同步。您可以通過定義來源與去向資料來源,並通過Data Integration提供的資料幫浦外掛程式(Reader)、資料寫入外掛程式(Writer),實現任意結構化、半結構化資料來源之間資料轉送。詳情請參見:支援的資料來源及同步方案。 |
複雜網路環境下的資料同步 | 離線同步支援阿里雲雲資料庫,本地IDC、ECS自建資料庫或非阿里雲資料庫等環境下的資料同步。配置前需確保資源群組與源端/目的端的網路連通性,配置詳情請參見:網路連通方案。 |
同步情境 | 1. 支援的同步模式
說明 調度參數說明參見:調度參數在Data Integration的典型應用情境、調度參數支援的格式。 2. 支援的源端結構
|
配置方式 | 您可以通過以下方式配置Data Integration離線同步任務。
說明 任務配置相關能力說明請參見:功能概述。 |
離線同步任務營運 |
功能概述
功能 | 說明 |
全量或增量資料同步 | 離線同步任務可以通過配置資料過濾並結合調度參數,實現資料的全量或增量同步處理。不同外掛程式增量同步處理配置方式不同,關於增量資料同步配置詳情請參見:情境:配置增量資料離線同步任務。 |
欄位對應 | 通過建立欄位間映射規則,源端資料將按指定關係寫入目標端對應欄位。配置時需確保兩端欄位類型相容。
|
作業速率上限控制 |
|
分布式執行任務 | 支援分布式執行的資料來源可通過任務切片技術,將同步任務分發至多節點並發執行,實現同步速度隨叢集規模線性提升,突破單機效能瓶頸。該模式尤其適用於高吞吐、低延遲的同步情境,同時能高效調度叢集閑置資源,顯著提升硬體利用率。 |
髒資料策略 | 髒資料指資料寫入目標端時因異常(如類型衝突、約束違反)導致失敗的資料記錄。離線同步支援定義髒資料策略,可定義髒資料容忍條數及對任務的影響。
|
時區 | 若源端和目標端需進行跨時區同步,可以通過設定源端時區來進行時區轉換。 |
智能資料處理 | DataWorks支援在資料同步時接入資料處理能力,將源端的資料經過轉換和處理後寫入目標端: 字串替換:DataWorks離線同步任務內建了字串替換功能,允許您在資料轉送過程中直接對資料進行輕量的資料轉換,無需落地或額外的ETL步驟。 AI輔助處理:支援在資料同步過程中接入AI大模型,對源端自然語言進行語義、情感等分析處理,並將處理後的結果直接寫入目標表。 資料向量化:支援將源端資料幫浦並向量化(Embedding)後,寫入向量資料庫。 |
後續步驟
建立任務詳細說明參見: