全部產品
Search
文件中心

Dataphin:建立即時整合任務

更新時間:Jan 14, 2026

即時整合支援多種來源端資料來源匯聚組合至目標端資料來源,形成即時同步鏈路進行資料同步。本文為您介紹如何建立即時整合任務。

前提條件

已完成資料來源配置。您需要在配置即時整合任務前,配置好您需要整合的資料來源,以便在配置即時整合任務過程中,選擇對應的來來源資料和目標資料。具體操作,請參見即時整合支援的資料來源

背景資訊

  • 目標資料來源類型選擇Oracle或MySQL時,將採用JDBC協議,不同的訊息將採用以下處理策略。

    • 結果表不存在主鍵時。

      • 接收到INSERT訊息時,將直接進行Append寫入。

      • 接收到UPDATE_BEFORE訊息時,將會被直接丟棄,不做處理;接收UPDATE_AFTER訊息時,將直接進行Append寫入。

      • 接收到DELETE訊息時,將會被直接丟棄,不做處理。

    • 結果表存在主鍵時。

      • 接收到INSERT訊息時,將作為UPSERT訊息進行處理。

      • 接收到UPDATE_BEFORE訊息時,將會被直接丟棄,不做處理;接收UPDATE_AFTER訊息時,將作為UPSERT訊息進行處理。

      • 接收到DELETE訊息時,將作為DELETE訊息進行處理。

  • 因JDBC協議為立即寫,當任務Failover的情況下且結果表沒有主鍵時,可能存在重複資料,不支援Exactly-Once保證。

  • 因JDBC協議僅支援建表DDL和加欄位DDL,其他類型的DDL訊息將會被直接丟棄。

  • Oracle目前僅支援基礎資料型別 (Elementary Data Type),不支援INTERVAL YEARINTERVAL DAY、BFILE、SYS.ANY、XML、地圖類型、ROWID、UROWID資料類型

  • MySQL目前僅支援基礎資料型別 (Elementary Data Type),不支援地圖類型。

  • 為避免亂序導致的資料不一致情況,僅支援單並發。

  • Oracle資料來源支援Oracle Database 11g、Oracle Database 19c、Oracle Database 21c版本。

  • MySQL資料來源支援MySQL8.0、MySQL8.4和MySQL5.7版本。

步驟一:建立即時整合任務

  1. 在Dataphin首頁的頂部功能表列中,選擇研發 > Data Integration

  2. 在頂部功能表列中選擇專案(Dev-Prod模式需要選擇環境)。

  3. 在左側導覽列中,選擇整合 > 即時整合

  4. 單擊即時整合列表中的image表徵圖,選擇即時整合任務,開啟建立即時整合任務對話方塊。

  5. 建立即時整合任務對話方塊中,配置以下參數。

    參數

    描述

    任務名稱

    填寫即時任務名稱。

    以字母開頭,僅包含小寫英文字母、數字、底線(_),長度限制為4~63個字元。

    生產/開發環境隊列資源

    可選擇所有配置為即時任務的資源群組。

    說明

    僅當專案所使用的計算源是部署模式為Kubernetes的Flink計算源時,支援此配置項。

    描述

    填寫任務的簡單描述資訊,長度不超過1000個字元。

    選擇目錄

    選擇即時任務所存放的目錄。

    若未建立目錄,您可以建立檔案夾,操作方法如下:

    1. 在頁面左側即時工作清單上方單擊image表徵圖,開啟建立檔案夾對話方塊。

    2. 建立檔案夾對話方塊中輸入檔案夾名稱並根據需要選擇目錄位置。

    3. 單擊確定

  6. 配置完成後,單擊確定

步驟二:配置即時整合任務

不同Realtime Compute引擎支援的來源和目標資料來源不同,詳情請參見即時整合支援的資料來源

來來源資料源

說明

當來來源資料源為外部資料源,且圈選方式為整庫圈選表、圈選表選擇為批量選擇時,選擇表時將從中繼資料中心擷取表名中繼資料。若資料來源未配置中繼資料採集任務,可前往中繼資料 > 採集任務中建立採集任務。

MySQL

參數

描述

資料來源配置

資料來源類型

選擇MySQL

資料來源

選擇資料來源。您也可以單擊建立,在資料來源頁面建立資料來源,詳情請參見建立MySQL資料來源

重要

需在資料來源端開啟日誌,並需確保配置的賬戶有讀取日誌許可權,否則系統無法即時同步該資料來源。

時區

展示所選資料來源配置的時區資訊。

同步規則配置

同步方案

可選擇即時增量即時增量+全量,預設為即時增量

  • 即時增量:將來源資料庫的增量變更按照變更發生的順序採集並寫入到下遊目標庫中。

  • 即時增量+全量:將來源資料庫的全量資料一次性匯入後再將增量變更按照變更發生的順序採集並寫入下遊目標庫中。

說明

目標資料來源選擇Hive(Hudi表格式)MaxComputeDatabricks時,同步方案支援選擇即時增量+全量

圈選方式

支援整庫、圈選表、排除表三種方式。

  • 整庫:同步所選資料來源下所有資料庫中的所有表。

  • 圈選表/排除表:選中當前資料庫中部分表進行即時同步。選中表後,您可單擊預覽,在選擇/排除表預覽對話方塊中查看所有匹配的表。對話方塊中支援按表名關鍵字進行搜尋,並可進行單個或大量刪除操作(正則匹配不支援刪除操作)。

    • 批量選擇/批量排除批量選擇時,所選擇當前資料庫的多個表將進行即時同步;批量排除時,所選擇當前資料庫的多個表將不進行即時同步。

      支援選擇所選資料來源下所有資料庫中的所有表,列表中以DBname.Tablename格式展示各表。

    • 正則匹配:可在Regex輸入框內填寫表名的Regex。適用JavaRegex,如schemaA.*|schemaB.*

      支援批量匹配所選資料來源下所有資料庫中的所有表,可使用資料庫名(DBname)和表名(Tablename)進行正則匹配。

Microsoft SQL Server

參數

描述

資料來源配置

資料來源類型

選擇Microsoft SQL Server

資料來源

選擇資料來源。您也可以單擊建立,在資料來源頁面建立資料來源,詳情請參見建立Microsoft SQL Server資料來源

重要

需在資料來源端開啟日誌,並需確保配置的賬戶有讀取日誌許可權,否則系統無法即時同步該資料來源。

時區

展示所選資料來源配置的時區資訊。

同步規則配置

同步方案

僅支援即時增量。將來源資料庫的增量變更按照變更發生的順序採集並即時寫入下遊目標庫中。

圈選方式

支援整庫、圈選表、排除表三種方式。

  • 整庫:對當前資料庫進行整庫資料同步。

  • 圈選表/排除表:選中當前資料庫中部分表進行即時同步。選中表後,您可單擊預覽,在選擇/排除表預覽對話方塊中查看所有匹配的表。對話方塊中支援按表名關鍵字進行搜尋,並可進行單個或大量刪除操作。

    批量選擇/批量排除批量選擇時,所選擇當前資料庫的多個表將進行即時同步;批量排除時,所選擇當前資料庫的多個表將不進行即時同步。

PostgreSQL

參數

描述

資料來源配置

資料來源類型

選擇PostgreSQL

資料來源

選擇資料來源。您也可以單擊建立,在資料來源頁面建立資料來源,詳情請參見建立PostgreSQL資料來源

重要

需在資料來源端開啟日誌,並需確保配置的賬戶有讀取日誌許可權,否則系統無法即時同步該資料來源。

時區

展示所選資料來源配置的時區資訊。

同步規則配置

同步方案

僅支援即時增量。將來源資料庫的增量變更按照變更發生的順序採集並即時寫入下遊目標庫中。

圈選方式

支援整庫和圈選表兩種方式。

  • 整庫:對當前資料庫進行整庫資料同步。

  • 圈選表:選中當前資料庫中部分表進行即時同步。選中表後,您可單擊預覽,在選擇表預覽對話方塊中查看所有匹配的表。對話方塊中支援按表名關鍵字進行搜尋,並可進行單個或大量刪除操作。

    批量選擇:所選擇當前資料庫的多個表將進行即時同步。

Oracle

參數

描述

資料來源配置

資料來源類型

選擇Oracle

資料來源

選擇資料來源。您也可以單擊建立,在資料來源頁面建立資料來源,詳情請參見建立Oracle資料來源

重要

需在資料來源端開啟日誌,並需確保配置的賬戶有讀取日誌許可權,否則系統無法即時同步該資料來源。

時區

展示所選資料來源配置的時區資訊。

同步規則配置

同步方案

僅支援即時增量。將來源資料庫的增量變更按照變更發生的順序採集並即時寫入下遊目標庫中。

圈選方式

支援整庫、圈選表、排除表三種方式。

  • 整庫:同步所選資料來源下所有資料庫中的所有表。

  • 圈選表/排除表:選中當前資料庫中部分表進行即時同步。選中表後,您可單擊預覽,在選擇/排除表預覽對話方塊中查看所有匹配的表。對話方塊中支援按表名關鍵字進行搜尋,並可進行單個或大量刪除操作(正則匹配不支援刪除操作)。

    • 批量選擇/批量排除批量選擇時,所選擇當前資料庫的多個表將進行即時同步;批量排除時,所選擇當前資料庫的多個表將不進行即時同步。

    • 正則匹配:可在Regex輸入框內填寫表名的Regex。適用JavaRegex,如schemaA.*|schemaB.*

IBM DB2

參數

描述

資料來源配置

資料來源類型

選擇IBM DB2

資料來源

選擇資料來源。您也可以單擊建立,在資料來源頁面建立資料來源,詳情請參見建立IBM DB2資料來源

重要

需在資料來源端開啟日誌,並需確保配置的賬戶有讀取日誌許可權,否則系統無法即時同步該資料來源。

同步規則配置

同步方案

僅支援即時增量。將來源資料庫的增量變更按照變更發生的順序採集並即時寫入下遊目標庫中。

圈選方式

支援整庫、圈選表、排除表三種方式。

  • 整庫:同步所選資料來源下所有資料庫中的所有表。

  • 圈選表/排除表:選中當前資料庫中部分表進行即時同步。選中表後,您可單擊預覽,在選擇/排除表預覽對話方塊中查看所有匹配的表。對話方塊中支援按表名關鍵字進行搜尋,並可進行單個或大量刪除操作。

    批量選擇/批量排除批量選擇時,所選擇當前資料庫的多個表將進行即時同步;批量排除時,所選擇當前資料庫的多個表將不進行即時同步。

Kafka

參數

描述

資料來源配置

資料來源類型

選擇Kafka

資料來源

選擇資料來源。您也可以單擊建立,在資料來源頁面建立資料來源,詳情請參見建立Kafka資料來源

重要

需在資料來源端開啟日誌,並需確保配置的賬戶有讀取日誌許可權,否則系統無法即時同步該資料來源。

來源topic

選擇來來源資料的Topic,可輸入Topic名稱關鍵字進行模糊搜尋。

資料格式

當前僅支援Canal JSON格式。Canal JSON是Canal的相容格式,其資料存放區格式為Canal JSON。

鍵類型

Kafka的Key類型,決定了初始化KafkaConsumer時的key.deserializer配置,當前僅支援STRING

實值型別

Kafka的Value類型,決定了初始化KafkaConsumer時的value.deserializer配置,當前僅支援STRING

消費群組ID(非必填)

輸入消費群組的ID。消費群組ID用於上報狀態位點。

同步規則配置

表列表

輸入需要同步的表名,多個表名間使用換行分隔,不超過1024個字元。

表名支援以下三種格式:tablenamedb.tablenameschema.tablename

Hive(Hudi表格式)

僅當即時引擎使用Apache Flink,且計算源為Flink on yarn部署模式時,來源端資料來源支援選擇Hive(Hudi資料來源)。

參數

描述

資料來源配置

資料來源類型

選擇Hive

資料來源

僅可選擇Hudi表格式的Hive資料來源。您也可以單擊建立,在資料來源頁面建立資料來源,詳情請參見建立Hive資料來源

重要

需在資料來源端開啟日誌,並需確保配置的賬戶有讀取日誌許可權,否則系統無法即時同步該資料來源。

同步規則配置

同步方案

僅支援即時增量。將來源資料庫的增量變更按照變更發生的順序採集並即時寫入下遊目標庫中。

選擇表

選擇需進行即時同步的單個表。

PolarDB(MySQL資料庫類型)

參數

描述

資料來源配置

資料來源類型

選擇PolarDB

資料來源

僅可選擇MySQL資料庫類型的PolarDB資料來源。您也可以單擊建立,在資料來源頁面建立資料來源,詳情請參見建立PolarDB資料來源

重要

需在資料來源端開啟日誌,並需確保配置的賬戶有讀取日誌許可權,否則系統無法即時同步該資料來源。

時區

展示所選資料來源配置的時區資訊。

同步規則配置

同步方案

可選擇即時增量即時增量+全量,預設為即時增量

  • 即時增量:將來源資料庫的增量變更按照變更發生的順序採集並寫入到下遊目標庫中。

  • 即時增量+全量:將來源資料庫的全量資料一次性匯入後再將增量變更按照變更發生的順序採集並寫入下遊目標庫中。

說明

目標資料來源選擇Hive(Hudi表格式)MaxComputeDatabricks時,同步方案支援選擇即時增量+全量

圈選方式

支援整庫、圈選表、排除表三種方式。

  • 整庫:同步所選資料來源下所有資料庫中的所有表。

  • 圈選表/排除表:選中當前資料庫中部分表進行即時同步。選中表後,您可單擊預覽,在選擇/排除表預覽對話方塊中查看所有匹配的表。對話方塊中支援按表名關鍵字進行搜尋,並可進行單個或大量刪除操作(正則匹配不支援刪除操作)。

    • 批量選擇/批量排除批量選擇時,所選擇當前資料庫的多個表將進行即時同步;批量排除時,所選擇當前資料庫的多個表將不進行即時同步。

    • 正則匹配:可在Regex輸入框內填寫表名的Regex。適用JavaRegex,如schemaA.*|schemaB.*

目標資料來源

MaxCompute

參數

描述

資料來源配置

資料來源類型

選擇MaxCompute

資料來源

選擇目標資料來源。支援選擇MaxCompute資料來源與專案。您也可以單擊建立,在資料來源頁面建立資料來源。具體操作,請參見建立MaxCompute資料來源

目標表建立配置

建立表類型

可選擇普通表Delta表,預設為普通表。

若選擇Delta表,且目標表建立方式為自動建表,則會建立MaxCompute Delta表;建Delta表時,不使用附加欄位。

說明

完成目標表配置後,再修改建立表類型,此時系統會發起二次確認,您若在彈出的對話方塊中單擊確定目標表配置將被清空,後續需重新填寫。

表名轉換

目標表名僅支援英文字母、數字及底線(_),若來源表名含有其他字元,需配置表名轉換規則。

單擊配置表名轉換,開啟配置表名轉換規則對話方塊。

  • 替換字串:單擊建立規則新增一行規則,分別配置來源表待替換字串目標表替換字串,最多增加5條規則。

  • 表名首碼/尾碼不可為空,且僅支援英文字母、數字和底線(_),長度不超過32個字元。

說明
  • 完成配置表名轉換後,系統將根據表名轉化規則從上到下的順序,自動進行匹配替換。

  • 替換字元及表名前尾碼中的英文字元將自動轉換為小寫。

分區格式

建立表類型選擇為普通表時,分區格式僅支援多分區;建立表類型選擇為Delta表時,分區格式支援選擇無分區多分區

分區間隔

當分區格式選擇為無分區時,不支援配置分區間隔;當分區格式選擇為多分區時,分區間隔支援選擇小時(hour)天(day)

說明
  • 小時(hour):為YYYY、MM、DD、HH四級分區。

  • 天(day):為YYYY、MM、DD三級分區。

MySQL

參數

描述

資料來源配置

資料來源類型

選擇MySQL

資料來源

選擇資料來源。您也可以單擊建立,在資料來源頁面建立資料來源,詳情請參見建立MySQL資料來源

時區

展示所選資料來源配置的時區資訊。

目標表建立配置

表名轉換

目標表名僅支援英文字母、數字及底線(_),若來源表名含有其他字元,需配置表名轉換規則。

單擊配置表名轉換,開啟配置表名轉換規則對話方塊。

  • 替換字串:單擊建立規則新增一行規則,分別配置來源表待替換字串目標表替換字串,最多增加5條規則。

  • 表名首碼/尾碼不可為空,且僅支援英文字母、數字和底線(_),長度不超過32個字元。

說明
  • 完成配置表名轉換後,系統將根據表名轉化規則從上到下的順序,自動進行匹配替換。

  • 替換字元及表名前尾碼中的英文字元將自動轉換為小寫。

Microsoft SQL Server

參數

描述

資料來源配置

資料來源類型

選擇Microsoft SQL Server

資料來源

選擇資料來源。您也可以單擊建立,在資料來源頁面建立資料來源,詳情請參見建立Microsoft SQL Server資料來源

時區

展示所選資料來源配置的時區資訊。

目標表建立配置

表名轉換

目標表名僅支援英文字母、數字及底線(_),若來源表名含有其他字元,需配置表名轉換規則。

單擊配置表名轉換,開啟配置表名轉換規則對話方塊。

  • 替換字串:單擊建立規則新增一行規則,分別配置來源表待替換字串目標表替換字串,最多增加5條規則。

  • 表名首碼/尾碼不可為空,且僅支援英文字母、數字和底線(_),長度不超過32個字元。

說明
  • 完成配置表名轉換後,系統將根據表名轉化規則從上到下的順序,自動進行匹配替換。

  • 替換字元及表名前尾碼中的英文字元將自動轉換為小寫。

Oracle

參數

描述

資料來源配置

資料來源類型

選擇Oracle

資料來源

選擇資料來源。您也可以單擊建立,在資料來源頁面建立資料來源,詳情請參見建立Oracle資料來源

時區

展示所選資料來源配置的時區資訊。

目標表建立配置

表名轉換

目標表名僅支援英文字母、數字及底線(_),若來源表名含有其他字元,需配置表名轉換規則。

單擊配置表名轉換,開啟配置表名轉換規則對話方塊。

  • 替換字串:單擊建立規則新增一行規則,分別配置來源表待替換字串目標表替換字串,最多增加5條規則。

  • 表名首碼/尾碼不可為空,且僅支援英文字母、數字和底線(_),長度不超過32個字元。

說明
  • 完成配置表名轉換後,系統將根據表名轉化規則從上到下的順序,自動進行匹配替換。

  • 替換字元及表名前尾碼中的英文字元將自動轉換為小寫。

Kafka

參數

描述

資料來源配置

資料來源類型

選擇Kafka

資料來源

選擇資料來源。您也可以單擊建立,在資料來源頁面建立資料來源,詳情請參見建立Kafka資料來源

目標Topic

目標資料的Topic,可選擇單Topic多Topic。選擇單Topic後,需選擇目標Topic,可輸入Topic名稱關鍵字進行搜尋;選擇多Topic後,支援配置Topic名轉換和Topic參數。

  • 單Topic:所有表訊息寫入同一個Topic。

  • 多Topic:每張表建立一個同名Topic。

資料格式

支援設定寫入資料的儲存格式包括DTS AvroCanal Json

  • DTS Avro:一種資料序列化格式,可以將資料結構或對象轉化成便於儲存或傳輸的格式。

  • Canal Json:對於Canal的相容格式,資料存放區格式為Canal Json。

說明

當目標Topic選擇多Topic時,資料格式僅支援選擇Canal Json

目標topic配置

Topic名轉換

單擊配置Topic名轉換,可在配置Topic名轉換規則對話方塊中,配置Topic名轉換規則以及Topic名稱的前尾碼

  • Topic名轉換規則:單擊建立規則,建立一行規則,您需要分別輸入來源表待替換字串目標Topic替換字串,二者均不可為空白,並且目標Topic替換字串僅支援32個字元以內的英文字母、數字及底線(_)。

  • Topic名稱的前尾碼:支援輸入英文字母、數字和底線(_),不超過32個字元。

說明
  • 替換字元Topic名稱前尾碼中的英文字元,系統將自動轉換為小寫

  • 僅當目標Topic選擇多Topic時,支援配置Topic名轉換。

Topic參數

用於建立Topic時的附加參數,格式為key=value,多個參數間使用換行分隔。

說明

僅當目標Topic選擇多Topic時,支援配置此項。

DataHub

參數

描述

目標資料

資料來源類型

選擇DataHub

資料來源

選擇目標資料來源。

系統提供建立資料來源快捷操作入口,您可以單擊建立,在資料來源頁面建立DataHub資料來源。具體操作,請參見建立DataHub資料來源

目標Topic建立方式

支援建立Topic使用已有Topic建立方式

  • 建立Topic:通過手動填寫目標Topic方式進行建立。

  • 使用已有Topic:使用目標庫已有Topic,需確保該Topic的schema與同步訊息的格式保持一致,否則會導致同步任務失敗。

目標Topic

  • 目標Topic建立方式建立Topic

    您需手動填寫目標Topic目標Topic僅限填寫以小寫字母開頭,3~64個字元以內的數字、字母、底線(_)。

    完成填寫後您可單擊校正,校正目標庫中是否已存在所填寫的Topic。

    • 填寫的Topic在目標庫不存在,將自動在目標庫中進行建立,schema為同步訊息的schema,生命週期預設為7天。

    • 填寫的Topic在目標庫已存在,請確保Topic的schema與同步訊息的schema保持一致,否則將導致任務運行失敗。

  • 目標Topic建立方式使用已有Topic

    單擊下拉式清單選擇目標庫已存在的Topic。Topic較多時,您可輸入Topic名稱搜尋所需Topic。

Databricks

參數

描述

資料來源配置

資料來源類型

選擇Databricks

資料來源

選擇目標資料來源。支援選擇Databricks資料來源與專案。您也可以單擊建立,在資料來源頁面建立資料來源。具體操作,請參見建立Databricks資料來源

時區

將根據當前時區對時間格式資料進行處理,預設為所選資料來源中配置的時區,不支援修改。

說明

僅當來來源資料源類型為MySQL或PostgreSQL,並且目標資料來源類型為Databricks時,支援時區轉換。

目標表建立配置

表名轉換

目標表名僅支援英文字母、數字及底線(_),若來源表名含有其他字元,需配置表名轉換規則。

單擊配置表名轉換,開啟配置表名轉換規則對話方塊。

  • 替換字串:單擊建立規則新增一行規則,分別配置來源表待替換字串目標表替換字串,最多增加5條規則。

  • 表名首碼/尾碼不可為空,且僅支援英文字母、數字和底線(_),長度不超過32個字元。

說明
  • 完成配置表名轉換後,系統將根據表名轉化規則從上到下的順序,自動進行匹配替換。

  • 替換字元及表名前尾碼中的英文字元將自動轉換為小寫。

分區格式

支援選擇無分區多分區

分區間隔

當分區格式選擇為無分區時,不支援配置分區間隔;當分區格式選擇為多分區時,分區間隔支援選擇小時(hour)天(day)

說明
  • 小時(hour):為YYYY、MM、DD、HH四級分區。

  • 天(day):為YYYY、MM、DD三級分區。

SelectDB

參數

描述

資料來源配置

資料來源類型

選擇SelectDB

資料來源

選擇資料來源。您也可以單擊建立,在資料來源頁面建立資料來源,詳情請參見建立SelectDB資料來源

目標表建立配置

表名轉換

目標表名僅支援英文字母、數字及底線(_),若來源表名含有其他字元,需配置表名轉換規則。

單擊配置表名轉換,開啟配置表名轉換規則對話方塊。

  • 替換字串:單擊建立規則新增一行規則,分別配置來源表待替換字串目標表替換字串,最多增加5條規則。

  • 表名首碼/尾碼不可為空,且僅支援英文字母、數字和底線(_),長度不超過32個字元。

說明
  • 完成配置表名轉換後,系統將根據表名轉化規則從上到下的順序,自動進行匹配替換。

  • 替換字元及表名前尾碼中的英文字元將自動轉換為小寫。

Hive

參數

描述

資料來源配置

資料來源類型

選擇資料來源類型為Hive

資料來源

選擇資料來源。您也可以單擊建立,在資料來源頁面建立資料來源,詳情請參見建立Hive資料來源

目標表建立配置

資料湖表格式

可選擇為不選擇HudiIcebergPaimon

  • 不選擇:按照Hive普通表寫入及表建立。

  • Hudi:按照Hudi格式進行寫入及表建立,僅當Hive資料來源版本為CDP7.x Hive 3.1.3時,支援選擇Hudi。

  • Iceberg:按照Iceberg格式進行寫入及表建立,僅當Hive資料來源版本為EMR5.x Hive 3.1.x時,支援選擇Iceberg。

  • Paimon:按照Paimon格式進行寫入及表建立,僅當Hive資料來源版本為EMR5.x Hive 3.1.x時,支援選擇Paimon。

說明

僅當選擇的Hive資料來源開啟資料湖表格式配置時,支援配置此項。

Hudi表類型/Paimon表類型

Hudi表類型可選擇MOR(merge on read)或COW(copy on write)。

Paimon表類型可選擇MOR(merge on read)、COW(copy on write)或MOW(merge on write)。

說明

僅當資料湖表格式選擇為Hudi或Paimon時,支援配置此項。

建表執行引擎

可選擇為HiveSpark,選擇資料湖表格式後,預設選擇Spark。

  • Hive:使用Hive引擎進行建表,建表文法為Hive文法。

  • Spark:使用Spark引擎進行建表,建表文法為Spark文法。僅當Hive資料來源開啟Spark時,支援選擇Spark。

    說明

    當資料湖表格式選擇為Paimon時,建表執行引擎僅支援Spark。

表名轉換

目標表名僅支援英文字母、數字及底線(_),若來源表名含有其他字元,需配置表名轉換規則。

單擊配置表名轉換,開啟配置表名轉換規則對話方塊。

  • 替換字串:單擊建立規則新增一行規則,分別配置來源表待替換字串目標表替換字串,最多增加5條規則。

  • 表名首碼/尾碼不可為空,且僅支援英文字母、數字和底線(_),長度不超過32個字元。

說明
  • 完成配置表名轉換後,系統將根據表名轉化規則從上到下的順序,自動進行匹配替換。

  • 替換字元及表名前尾碼中的英文字元將自動轉換為小寫。

分區格式

可選擇單分區多分區固定分區

說明

當格式選擇為單分區或固定分區時,分區欄位預設名稱為ds,不可修改。

分區間隔

預設選擇小時(hour),可選擇天(day)。單擊分區間隔後的image表徵圖,可查看分區設定詳情。

  • 單分區

    • 小時(hour):展示分區列名為ds的一級分區(yyyyMMddhh)。

    • 天(day):展示分區列名為ds的一級分區(yyMMdd)。

  • 多分區

    • 小時(hour):展示yyyy、mm、dd、hh四級分區。

    • 天(day):顯示yyyy、mm、dd三級分區。

說明

僅當分區格式選擇為單分區多分區時,支援此配置項。

分區值

填寫固定分區值,例如:20250101。

說明

僅當分區格式選擇為固定分區時,支援此配置項。

Hologres

參數

描述

資料來源配置

資料來源類型

選擇Hologres

資料來源

選擇目標資料來源。支援選擇Hologres資料來源與專案。您也可以單擊建立,在資料來源頁面建立資料來源。具體操作,請參見建立Hologres資料來源

Schema

選擇目標Schema。

目標表建立配置

表名轉換

目標表名僅支援英文字母、數字及底線(_),若來源表名含有其他字元,需配置表名轉換規則。

單擊配置表名轉換,開啟配置表名轉換規則對話方塊。

  • 替換字串:單擊建立規則新增一行規則,分別配置來源表待替換字串目標表替換字串,最多增加5條規則。

  • 表名首碼/尾碼不可為空,且僅支援英文字母、數字和底線(_),長度不超過32個字元。

說明
  • 完成配置表名轉換後,系統將根據表名轉化規則從上到下的順序,自動進行匹配替換。

  • 替換字元及表名前尾碼中的英文字元將自動轉換為小寫。

映射配置

說明
  • 目標資料來源類型選擇DataHub、Kafka(目標Topic為單Topic)時,不支援映射配置。

  • 目標資料來源為外部資料源時,映射配置中的目標表名將從中繼資料中心擷取。此時,目標表建立方式不支援自動建表,需前往資料庫中手動建立目標表。

目標資料來源非Kafka

image

區塊

說明

查看附加欄位

即時增量同步處理時,自動建表預設會添加附加欄位以便資料使用。單擊查看附加欄位查看欄位。在附加欄位對話方塊中,可查看當前所附加的欄位資訊。

重要
  • 如選擇已有表作為目標表,且表中無附加欄位,建議自行為已有目標表添加附加欄位,否則影響資料使用。

  • 選擇資料湖表格式後,將不包含附加欄位。

單擊查看添加欄位的DDL可查看添加附加欄位的DDL語句。

說明
  • 當來來源資料源類型選擇為Kafka時,不支援查看附加欄位。

  • 當目標表為主鍵表時,無需添加附加欄位;當目標表為非主鍵表時,則需添加附加欄位。

搜尋與篩選區域

支援按源表目標表名進行搜尋。如需快速篩選目標表,單擊頂部的1表徵圖,支援按映射狀態建表方式進行篩選。

添加全域欄位重新整理映射關係

  • 添加全域欄位

    單擊添加全域欄位,可在添加全域欄位對話方塊中添加全域欄位。

    • 名稱:全域的名稱。

    • 類型:支援StringLongDoubleDateBoolean,5種資料類型。

    • :全域欄位的值。

    • 描述:對欄位的描述。

    說明
    • 全域和單表同時添加了欄位時,僅單表添加欄位生效。

    • 目前僅支援添加常量。

    • 全域欄位僅對方式為自動建表的目標表生效。

    • 當來來源資料源類型選擇為Kafka時,不支援添加全域欄位。

  • 重新整理映射關係

    如需重新整理目標表配置列表,請單擊重新整理映射關係

    重要
    • 目標表配置中已有內容時,重新選擇資料來源類型及資料來源會導致目標表列表及映射關係情況重設,請謹慎操作。

    • 重新整理過程中隨時可點擊再次重新整理。每次點擊重新整理映射關係,只儲存配置的全域增加欄位,其他資訊包括目標表建立方式、目標表名及刪除記錄,都不儲存。

    • 當來來源資料源類型選擇為Kafka時,單擊重新整理映射關係後,系統將按照同步規則配置中的表列表進行映射,若表不存在將報錯。

目標庫列表

目標庫列表包括序號源表映射狀態目標表建立方式目標表名,同時您可以對目標表進行添加欄位查看欄位重新整理刪除的操作。

  • 映射狀態

    • 完成:正常完成映射。

    • 未完成:修改狀態後,未重新整理映射。

    • 映射中:正在等待映射或在映射中。

    • 異常:存在資料來源或系統內部錯誤。

    • 失敗:目標資料分割表與即時任務設定的分區不一致。

    • 警示:來源表與目標表存可能存在不相容的資料類型。

  • 目標表建立方式分為以下三種:

    • 若目標庫中存在與來源表同名的表,則目標表建立方式為使用已有表,預設使用此表作為目標表。如需改為自動建表,需添加表名轉換規則或前尾碼後重新進行映射。

    • 若目標庫中未找到同名表,則目標表建立方式預設為自動建表,也可更換方式為使用已有表,選擇已存在的表進行同步。

    • 僅自動建表的表支援添加欄位或自訂DDL建表,全域欄位也僅對自動建表的表生效。

    說明
    • 當目標資料來源類型選擇Hive時:

      • 自動建表時,若資料湖表格式為不選擇,則自動建表將建立普通Hive表,反之則建立所選表格式對應的表,當前支援Hudi和Iceberg。

      • 自訂建表時,若資料湖表格式為不選擇,則使用普通Hive表的DDL,反之則需使用所選表格式對應的DDL,當前支援Hudi和Iceberg。

    • 當來來源資料源類型選擇為Kafka時,目標表建立方式僅支援使用已有表

    • 當目標資料來源類型選擇為SelectDB時,在自動建表過程中,若來源表沒有主鍵,則建立明細表(Duplicate表);若來源表存在主鍵,則建立主鍵表(Unique表)。

    • 當分區格式為單分區固定分區,且目標表建立方式選擇使用已有表時,系統將自動校正目標表分區是否符合分區設定,若不符合則報錯。

  • 目標表名目標表名僅支援英文字母、數字及底線(_)。如果來源表名中含有其他字元,需配置表名轉換規則。

    當目標資料來源類型為MaxCompute時:目標表建立方式為自動建表,且建立表類型選擇為Delta表時,目標表名後將展示image表徵圖,表示將建立Delta表。當目標表建立方式為使用已有表時,使用者若選中目標表列表中的Delta表,目標表名後也將展示image表徵圖,表示該表為Delta表。

  • 操作

    • 自訂建表:可通過添加欄位DDL方式自訂建表;開啟自訂建表後,全域添加欄位不再生效。

      說明
      • 添加欄位後只在自動建表的操作欄裡展示。

      • 不支援修改已存在的目標表,即建表方式為使用已有表的目標表。

    • 查看欄位:可查看源表及目標表的欄位和類型。

    • 重新整理:重新進行源表和目標表的映射。

    • 刪除:源表刪除後不可撤銷。

大量操作

您可對目標表進行批量刪除操作。

目標資料來源為Kafka(目標Topic為多Topic)

image

區塊

說明

搜尋與篩選區域

支援按源表目標Topic名進行搜尋。如需快速篩選目標表,單擊頂部的1表徵圖,支援按映射狀態目標Topic建立方式進行篩選。

重新整理映射關係

如需重新整理目標表配置列表,請單擊重新整理映射關係

重要

目標Topic配置中已有內容時,重新選擇資料來源類型及資料來源會導致目標Topic列表及映射關係情況重設,請謹慎操作。

列表

列表包括序號源表映射狀態目標Topic建立方式目標Topic名,同時您可以對目標表進行刪除操作。

  • 目標Topic建立方式:若目標Topic已存在,則建立方式為使用已有Topic;若目標Topic不存在,則建立方式為自動建Topic

    自動建Topic時,系統將根據已產生的目標Topic名稱以及Topic參數進行建立。

  • 映射狀態:僅檢測目標Topic是否存在。

  • 刪除:刪除對應行,刪除操作不可撤銷。

大量操作

您可對目標表進行批量刪除操作。

DDL處理策略

說明
  • 來來源資料源類型選擇DataHub、Kafka時,不支援DDL處理策略。

  • 目標資料來源類型選擇PostgreSQL、Hive(Hudi表類型)時,不支援DDL處理策略。

  • 當目標資料來源類型選擇Hive(Hudi表類型),且資料湖表格式選擇為Hudi時,DDL處理策略均只支援忽略。

  • 當來來源資料源類型選擇為Kafka時,DDL處理策略均只支援忽略。

  • 對Hive、MaxCompute表已存在的分區添加的新增列無法被同步資料,即已存在分區中新增列的資料均為NULL,下一個建立分區正常生效可用。

  • 建立表新增列:即正常處理(包含建立表、新增列、刪除列、重新命名列和修改列類型),此DDL資訊將繼續下發給目標資料來源,由目標資料來源處理,不同目標資料來源處理策略會不同。

  • 忽略:丟棄掉此DDL資訊,不再向目標資料來源發送此資訊。

  • 出錯:直接讓即時同步任務以出錯狀態終止運行。

步驟三:配置即時整合任務屬性

  1. 單擊當前即時整合任務頁簽頂部功能表列中的資源配置,或單擊右側邊欄的屬性,開啟屬性面板。

  2. 分別配置當前即時整合任務的基本資料資源配置

    • 基本資料:選擇當前即時整合任務的開發負責人營運負責人,並填入當前任務的相應描述,不超過1000個字元。

    • 資源配置:詳情請參見即時整合資源配置

步驟四:提交即時整合任務

  1. 單擊提交,提交當前即時整合任務。

  2. 提交對話方塊,輸入提交備忘資訊並單擊確定並提交

  3. 完成提交後,在提交對話方塊中,可查看提交詳情。

    如果專案的模式為Dev-Prod,則您需要發布即時整合任務至生產環境。具體操作,請參見管理髮布任務

後續步驟

可在營運中心查看並營運即時整合任務,保證任務的正常運行。具體操作,請參見查看並管理即時任務