全部產品
Search
文件中心

DataWorks:Data Integration側即時同步任務配置

更新時間:Jan 14, 2026

DataWorksData Integration提供了單表即時同步任務,旨在實現不同資料來源之間低延遲、高輸送量的資料複製與流轉。該功能基於先進的Realtime Compute引擎,能夠捕獲源端資料的即時變更(增、刪、改),並將其快速應用到目標端。本文以Kafka單表即時同步至MaxCompute為例,講述單表即時的配置方式。

準備工作

功能入口

登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的数据集成 > 数据集成,在下拉框中選擇對應工作空間後單擊进入数据集成

配置任務

一、建立同步任務

您可以通過以下兩種方式建立同步任務:

  • 方式一:在同步任務頁面,選擇來源去向,單擊新建同步任務,此處來源選擇Kafka,去向選擇MaxCompute,您可以根據實際需求進行選擇。

  • 方式二:在同步任務頁面,如果工作清單為空白,單擊請創建

image

二、配置基本資料

  1. 配置任務名稱、任務描述和責任人等基本資料。

  2. 選擇同步類型:根據來源和去向,Data Integration基於源端資料庫與目標端資料庫類型展示目前支援的任務類型,本文選擇單表即時同步類型。

  3. 同步步驟:單表即時同步任務只支援增量同步處理,同步步驟通常為結構遷移增量同步處理。即初始化來源表結構至目標端,並在任務啟動後,自動捕獲源端變更資料寫入目標表。

    若源端為Hologres還支援全量同步,即先將已有資料全量同步至目標表後,自動進行資料的增量同步處理。
說明

支援的資料來源及同步方案請參見:支援的資料來源及同步方案

三、網路與資源配置

在此步驟中,您需要選擇要執行同步任務的資源組以及同步的來源數據源去向數據源。並測試資源群組與資料來源的網路連通配置

  • Serverless資源群組支援為同步任務指定任務運行資源佔用的CU上限,如果您的同步任務因資源不足出現OOM現象,請適當調整資源群組的CU佔用取值。

  • 若還未建立資料來源,請單擊介面的新增資料來源按鈕,建立資料來源。詳情請參見:資料來源配置

四、配置同步鏈路

1、配置來源資訊

在頁面上方單擊資料來源Kafka,編輯Kafka來源信息

image

  1. Kafka來源信息地區,選擇Kafka資料來源中需要同步的Topic。

    其他配置可使用任務建立時產生的預設值,也可根據需要進行修改,參數詳見:Kafka官方文檔 

  2. 單擊右上方的數據採樣

    在彈出對話方塊中指定開始時間採樣條數後,單擊開始採集按鈕,可以對指定的Kafka Topic進行資料採樣,同時您可以預覽Topic中的資料,為後續資料處理節點的資料預覽和可視化配置提供輸入。

  3. 輸出字段配置地區,按需勾選同步任務需同步的欄位。

    Kafka側欄位中預設提供6個欄位。

    欄位名

    含義

    __key__

    Kafka記錄的Key。

    __value__

    Kafka記錄的Value。

    __partition__

    Kafka記錄所在分區號,分區號為從0開始的整數。

    __headers__

    Kafka記錄的Headers。

    __offset__

    Kafka記錄在所在分區的位移量,位移量為從0開始的整數。

    __timestamp__

    Kafka記錄的13位整數毫秒時間戳記。

    您也可以在後續的資料處理節點對欄位進行更多轉換處理。

2、編輯資料處理節點

單擊image表徵圖可以增加資料處理方式。目前提供5種資料處理方式(資料脫敏字串替換資料過濾JSON解析欄位編輯與賦值),您可根據需要做順序編排,在任務運行時會按照編排的資料處理先後順序執行資料處理。

image

每完成一個資料處理節點配置,可以單擊右上方的數據輸出預覽按鈕:

  1. 在輸入資料下方的表格中,可以看到上個環節數據採樣的結果。您可以單擊重新獲取上遊輸出,來重新整理結果。

  2. 如果上遊沒有輸出結果,也可以通過手工構造數據來類比前置輸出。

  3. 單擊預覽,可以查看上遊環節輸出的資料,經過資料處理組件處理後輸出的結果。

image

說明

資料輸出預覽和資料處理強依賴Kafka來源的數據採樣,在執行資料處理前需要先在Kafka來源表單中完成資料採樣。

3、配置去向資訊

在頁面上方單擊資料去向MaxCompute,編輯MaxCompute去向資訊。

image

  1. MaxCompute去向信息地區,選擇Tunnel資源群組,預設選擇“公用傳輸資源”,即MC的免費quota。

  2. 選擇要寫入目標表是自動建表還是使用已有錶

    1. 如果是自動建表,預設會建立與資料來源端相同的表名,您可以手動修改目標端表名。

    2. 如果是使用已有表,請下拉選擇需要同步的目標表。

  3. (可選)編輯表結構。

    當選擇自動建表時,您需要單擊編輯表結構按鈕,在彈框中編輯目標表結構。同時,支援您單擊根據上遊節點輸出列重新生成表結構按鈕,自動根據上遊節點輸出資料行,產生表結構。您可以在自動產生的表結構中選擇一列配置為主鍵。

  4. 配置欄位對應。

    1. 系統會自動按照同名映射原則產生上遊列與目標表列之間的映射,您可根據需要進行調整,支援一個上遊列映射到多個目標表列,不允許多個上遊列映射到一個目標表列,當上遊列未配置到目標表列的映射時,對應列不會寫入目標表。

    2. Kafka側欄位可自訂配置JSON解析,可以通過資料處理組件擷取value欄位內容,實現更精細的欄位配置。

      image

  5. 分區設定(可選)。

    1. 時間自動分區是根據業務時間(此處為_timestamp)欄位進行分區的,一級分區為年,二級分區為月,以此類推。

    2. 根據欄位內容動態分區通過指定源端表某欄位與目標MaxCompute表分區欄位對應關係,實現源端對應欄位所在資料行寫入到MaxCompute表對應的分區中。

五、其他配置

警示配置

為避免任務出錯導致業務資料同步延遲,您可以對單表即時同步任務設定警示策略。

  1. 單擊頁面右上方的報警配置,進入任務警示設定頁面。

  2. 單擊新增報警,配置警示規則。您可以通過設定警示原因,對任務的業務延遲、Failover情況、任務狀態、DDL通知、任務資源使用率等指標進行監控,並根據指定的閾值設定CRITICAL或WARNING兩種不同層級的警示方式。

    • 通過設定高級參數配置,可以控制警示資訊發送的時間間隔,防止一次性發送資訊太多,造成浪費和訊息堆積。

    • 若警示原因選擇業務延遲任務狀態任務資源利用率,也支援開啟恢複通知,方便任務恢複正常後,通知接收人。

  3. 管理警示規則。

    對於已建立的警示規則,您可以通過警示開關控制警示規則是否開啟,同時,您可以根據警示層級將警示發送給不同的人員。

進階參數配置

同步任務提供進階參數可供精細化配置,系統設有預設值,多數情況下無需修改。如有修改必要,您可以:

  1. 單擊介面右上方的高級參數配置,進入進階參數配置頁面。

  2. 修改自動化佈建運行時配置,設定為false。

  3. 根據參數提示,修改參數值,參數含義見參數名稱後的解釋。

重要

請在完全瞭解參數含義與作用後果再進行修改,以免產生不可預料的錯誤或者資料品質問題。

資源群組配置

您可以單擊介面右上方的資源群組配置,查看並切換當前的任務所使用的資源群組。

六、類比運行

完成上述所有任務配置後,您可以單擊右上方模擬運行來調試任務,類比整個任務針對少量採樣資料的處理,查看資料寫入目標表後的結果。當任務配置錯誤、類比運行過程中異常或者產生髒資料時,會即時反饋出異常資訊,能夠協助您快速評估任務配置的正確性,以及是否能得到預期結果。

  1. 在彈出的對話方塊中設定採樣參數(開始時間採樣條數)。

  2. 單擊開始採集得到採樣資料。

  3. 單擊預覽結果按鈕,類比任務運行,並查看輸出結果。

類比運行輸出的結果僅作預覽,不會寫入目標端資料來源,對生產資料造成影響。

七、啟動任務

  1. 完成所有配置後,單擊頁面底部的完成配置

  2. Data Integration > 同步任務介面,找到已建立的同步任務,單擊操作列的发布。發布完成後即可啟動任務。

    說明

    Data Integration的任務需要發布至生產環境運行,因此建立或者編輯任務均需執行发布操作後方可生效。

  3. 單擊任務列表中對應任務的名稱/ID,查看任務的詳細執行過程。

後續步驟

任務啟動後,您可以點擊任務名稱,查看運行詳情,進行任務營運和調優

常見問題

即時同步任務常見問題請參見即時同步常見問題

更多案例

Kafka單表即時同步至ApsaraDB for OceanBase

LogHub(SLS)單表即時入湖至Data Lake Formation

Hologres單表即時同步至Doris

Hologres單表即時同步至Hologres

Kafka單表即時同步至Hologres

LogHub(SLS)單表即時同步至Hologres

Kafka單表即時同步至Hologres

Hologres單表即時同步至Kafka

LogHub(SLS)單表即時同步至MaxCompute

Kafka單表即時同步至OSS資料湖

Kafka單表即時同步至StarRocks

Oracle單表即時同步至Tablestore