全部產品
Search
文件中心

DataWorks:Data Integration

更新時間:Nov 11, 2025

Data Integration是一個穩定高效、Auto Scaling的資料同步平台,致力於提供在複雜網路環境下、豐富的異構資料來源之間高速穩定的資料移動及同步能力。

流程引導

重要

Data Integration在使用時,僅支援在PC端Chrome瀏覽器69以上版本使用。

Data Integration的通用開發流程如下:

  1. 配置資料來源、準備資源群組並打通資料來源與資源群組之間的網路連通

  2. 根據情境選擇離線或即時同步類型開發工作單位,並根據介面引導完成資源任務配置

  3. 通過資料預覽和試運行調試任務;調試通過後提交發布(離線任務需發布至生產環境)。

  4. 進入持久性營運階段,監控同步狀態、設定警示並最佳化資源,形成閉環管理。

同步方式

DataWorksData Integration提供的資料同步方式可從三個維度進行組合:同步時效、同步範圍和資料策略。更詳細的方案說明和推薦,請參見支援的資料來源及同步方案

  • 同步時效:分為離線、即時。離線同步通過周期性調度任務實現小時或天級的資料移轉;即時同步則捕獲源端變更資料(CDC),實現秒級延遲。

  • 同步範圍:分為單表、整庫和分庫分表。支援從單張表的精細化傳輸,到整個資料庫或分庫分表的批量遷移與合并。

  • 資料策略:分為全量、增量和全增量。全量遷移所有歷史資料,增量僅同步新增或變更的資料。全增量模式結合了兩者,並根據資料來源特性和時效性要求,提供離線、即時和准即時等多種實現方案。

方式

描述

離線

基於批量調度機制的資料轉送方式,通過周期任務(小時/天級)將來源資料全量增量遷移至目標端。

即時

通過串流引擎即時捕獲源端變更資料(CDC日誌),實現秒級延遲的資料同步。

單表

針對單張表的資料轉送,支援精細化的欄位對應與轉換規則及控制配置。

整庫

將來源資料庫執行個體內多張表結構及資料一次性遷移至目標端,支援自動建表。可單任務同步多張表,減少任務數量和資源消耗。

分庫分表

將源端多個表結構一致的表寫入目標端單表,自動識別分庫分表路由規則,合并資料。

全量

一次性遷移源表所有歷史資料,通常用於初始化數倉或資料歸檔。

增量

僅同步源端新增或變更的資料(如INSERT/UPDATE),Data Integration支援離線和即時兩種增量模式,分別通過設定資料過濾(增量條件)和讀取源端CDC資料實現。

全增量

一次性全量同步歷史資料後,自動銜接增量資料的寫入。Data Integration多種情境的全增量同步處理。根據資料來源和去向的資料來源特性及時效性要求,按需選擇使用。

  • 離線情境:一次性全量周期性增量。適用於對資料時效性要求不高,且源端表中有合適的增量欄位(如modify_time)類型的資料來源。

  • 即時情境:一次性全量即時增量。適用於對資料有比較高的時效性要求,且源端為訊息佇列或者支援開啟CDC日誌的資料庫。

  • 准即時情境:一次性全量入Base表,即時增量寫入Log表,T+1將Log表的資料合併入Base表。准即時情境為即時情境的補充,適用於目標端不支援更新或者刪除的表格式類型,如MaxCompute的常規類型表。

基本概念

概念

描述

資料同步

資料同步是指讀取源端資料來源的資料經過一定的抽取和過濾寫入目標端。Data Integration專註於可抽象解析為邏輯二維表結構的資料的傳輸,本身不提供資料流的消費和ETL轉換。

Data Integration同步僅支援至少一次傳輸保障機制(at least once),暫不支援精確傳輸(exactly-once),即傳輸後資料可能出現重複,只能依賴主鍵和目標端能力來保證。

欄位對應

欄位對應定義了同步任務中源端與目標端資料的讀寫對應關係。配置時需嚴格檢查兩端欄位類型的相容性,避免因類型不符引發轉換錯誤,產生髒資料或導致任務失敗。常見風險包括:

  • 類型轉換失敗:源端與目標端欄位類型不一致(如源端為String而目標端為Integer),將直接導致任務中斷或產生髒資料。

  • 精度與範圍損失:如果目標端欄位類型最大值小於源端最大值(或最小值大於源端最小值,或精度低於源端精度),可能會導致寫入失敗或精度被截斷的風險(不區分源端和目標端類型,也不區分離線還是即時同步)。

並發數

並發數是資料同步任務中,可以從源並行讀取或並行寫入資料存放區端的最大線程數。

限速

限速是Data Integration同步任務可以達到的傳輸速度限制。

髒資料

髒資料指無效、格式錯誤或同步異常的資料。當單條資料寫入目標端失敗時,該資料即被歸類為髒資料(如源端VARCHAR類型無法轉換為目標端INT類型)。可在任務配置中控制髒資料容忍策略:設定閾值限制髒資料條數,超過閾值則任務失敗退出。

若因髒資料導致任務失敗,​已成功寫入的資料不會復原。Data Integration採用批量寫入機制,批量異常時復原能力取決於目標端是否支援事務,Data Integration本身不提供事務支援

資料來源

資料來源作為DataWorks中串連外部系統的標準化登錄區,通過預置多種異構資料來源串連模板​(如MaxCompute、MySQL、OSS等),為Data Integration任務提供統一的讀寫端點定義。

資料一致性

Data Integration同步僅支援至少一次傳輸保障機制(at least once),暫不支援精確傳輸(exact once),即傳輸後資料可能出現重複,只能依賴主鍵和目標端能力來保證。

產品功能和核心價值

DataWorksData Integration的產品能力體現在其串連的廣泛性、方案的靈活性、效能的卓越性、開發營運的便捷性以及安全管控的全面性。

廣泛的資料生態串連

打破資料孤島,實現資料匯聚與遷移。
  • 支援豐富的資料來源:覆蓋關係型資料庫、巨量資料儲存、NoSQL資料庫、訊息佇列、檔案儲存體及SaaS應用等多種類型的資料來源

  • 複雜網路相容:通過配置網路連通配置,支援公網、VPC、Express Connect或雲企業網(CEN)實現混合雲/多雲架構下的資料流轉。

靈活豐富的同步方案

滿足從離線到即時、從單表到整庫、從全量到增量的同步需求。
  • 離線同步:支援單表/整庫/分庫分表等多種離線批量同步情境。提供資料過濾、列裁剪和轉換邏輯能力,適用於大規模資料的T+1周期性ETL載入。

  • 即時同步:准即時捕獲MySQL、Oracle、Hologres等資料來源的資料變更,並寫入到即時數倉或訊息佇列中,支撐即時業務決策。

  • 全增量一體化:提供離線整庫、即時整庫和整庫全增量(准即時)等同步方案,首次執行時進行全量資料初始化,後續自動轉為增量資料同步,簡化了資料首次入倉和後續更新的流程,實現全量遷移、增量捕獲及全增量自動銜接​的資料接入能力。

Auto Scaling與效能

自適應資源調度,為核心業務提供高穩定性的資料轉送保障​。
  • 彈性資源Serverless資源群組支援按需Auto Scaling和隨用隨付,有效應對流量波動。

  • 效能調控:支援並發控制、流量限制、髒資料處理及分散式處理,保障不同負載下的穩定同步。

低代碼開發與智能營運

通過可視化配置與流程,降低資料同步的開發複雜度與營運成本。
  • 低代碼開發:嚮導模式提供可視化的配置介面,通過簡單的點選即可完成大部分同步任務的配置,無需編寫代碼;指令碼模式支援通過JSON指令碼進行進階配置,滿足參數化、動態列映射等複雜情境的需求。

  • 全鏈路營運​:離線同步任務可融入DAG工作流程,支援調度編排、監控與警示。

全方位的安全管控

整合多層次安全機制,確保資料在流動全周期中的可控性與合規性。
  • 集中管理:統一的資料來源管理中心,支援對資料來源進行許可權管控,支援開發、生產環境隔離。

  • 安全防護:遵循RAM存取控制,支援角色認證和資料脫敏。

計費說明

Data Integration任務的費用主要包括資源群組費用調度費用公網流量費用。Data Integration任務的執行依賴資源群組,該部分費用由資源群組收取;部分離線/整庫離線同步任務涉及調度運行,會收取調度費用;若資料來源通過公網傳輸,還會產生公網流量費用。具體計費細節,請參見Data Integration涉及費用

網路連通

資料來源與資源群組的網路連通是Data Integration任務執行成功的前提,您需確保兩者之間的網路連通性,否則任務運行必然失敗。

image

Data Integration支援在複雜網路環境下的資料來源進行異構資料來源間的資料同步,支援以下複雜情境:

  • 跨阿里雲帳號/Region的資料同步。

  • 混合雲及本地IDC環境接入。

  • 公網/VPC/CEN等多網路通道配置。

詳細網路設定方案請參考:網路連通方案概述

相關文檔

後續您可以通過配置資料來源,在Data Integration或者資料開發中建立同步作業,完成資料的傳輸和遷移。詳情參見: