全部產品
Search
文件中心

DataWorks:MySQL整庫離線同步到OSS資料湖

更新時間:Aug 22, 2025

Data Integration目前支援將AnalyticDB for MySQL 3.0、MySQL、Oracle、PolarDB、PostgreSQL等源頭的資料整庫離線同步至OSS。本文以MySQL為源端,OSS為目標端情境為例,為您介紹如何將MySQL整個資料庫的資料離線同步到OSS資料湖。

前提條件

操作步驟

一、選擇同步任務類型

  1. 進入Data Integration頁面。

    登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的Data Integration > Data Integration,在下拉框中選擇對應工作空間後單擊進入Data Integration

  2. 在左側導覽列單擊同步任務,然後在頁面頂部單擊建立同步任務,進入同步任務的建立頁面,配置如下基本資料。

    • 資料來源和去向MySQLOSS

    • 新任務名稱:自訂同步任務名稱。

    • 同步類型整庫離線

    • 同步步驟:選中全量同步增量同步處理

二、網路與資源配置

  1. 網路與資源配置地區,選擇同步任務所使用的資源群組。您可以為該任務分配任務資源佔用CU數。

  2. 來來源資料源選擇已添加的MySQL資料來源,去向資料來源選擇已添加的OSS資料來源後,單擊測試連通性image

  3. 確保來來源資料源與去向資料來源均連通成功後,單擊下一步

三、目標側基本配置

整庫離線同步至OSS鏈路支援Paimonlcebergcsvtextparquetorc多種寫入格式。

不同寫入格式,配置參數存在差異,請按需配置:

Paimon、lceberg

參數

參數說明

儲存直接選取

選擇入湖後資料存放區在OSS的哪個路徑下。

選擇中繼資料庫自動構建位置

您可以選擇是否要自動構建中繼資料庫至DLF。

說明

僅支援將中繼資料庫構建至同地區的DLF中。

csv、text

參數

參數說明

目標根路徑

書寫格式:di_to_oss_path/${bizdate}/,其中調度參數${bizdate}表示業務日期,調度值填寫$bizdate。等於調度日期的前一天,更多調度參數詳情請參見:調度參數支援的格式

說明

在使用調度參數$bizdate時,需要包含在全增量控制周期調度參數配置中。

資料行分隔符號

資料的欄位分割符號,例如逗號(,)。如果分隔字元不可見,請填寫Unicode編碼,例如\\u001b\\u007c

首碼衝突

在進行資料寫入時,若目標對象與待寫入對象名稱具有相同首碼,可以進行以下操作:

  • 替換原有檔案:刪除首碼相同的檔案,重建新的檔案替換原有檔案。

  • 保留原有檔案:保留原始檔案,重建新檔案,名稱為原檔案名稱加隨機尾碼。

  • 退出報錯:同步任務停止執行。

輸出表頭

設定是否將表頭作為內容輸出。

parquet、orc

需配置參數

參數說明

目標根路徑

書寫格式:di_to_oss_path/${bizdate}/,其中調度參數${bizdate}表示業務日期,調度值填寫$bizdate。等於調度日期的前一天,更多調度參數詳情請參見:調度參數支援的格式

說明

在使用調度參數$bizdate時,需要包含在全增量控制周期調度參數配置中。

首碼衝突

在進行資料寫入時,若目標對象與待寫入對象名稱具有相同首碼,可以進行以下操作:

  • 替換原有檔案:刪除首碼相同的檔案,重建新的檔案替換原有檔案。

  • 保留原有檔案:保留原始檔案,重建新檔案,名稱為原檔案名稱加隨機尾碼。

  • 退出報錯:同步任務停止執行。

四、選擇要同步的庫表

此步驟中,您可以在源端庫表地區選取項目源端資料來源下需要同步的表,並單擊image表徵圖,將其移動至右側已選庫表

image

五、設定全增量控制

  1. 配置任務的全增量類型。

    • 如果您的同步步驟勾選了全量同步增量同步處理,此處預設展示一次性全量,周期性增量,不可更改。

    • 如果您的同步步驟選擇了全量同步,此處可以選擇任務的類型是一次性全量還是周期性全量。

    • 如果您的同步步驟選擇了增量同步處理,此處可以選擇任務的類型為一次性增量還是周期性增量。

      說明

      以下以一次性全量周期性增量為例,為您樣本後續的配置要點。

  2. 配置周期調度參數。

    如果您的任務涉及周期性同步,則可單擊周期調度參數配置進行配置。

六、目標表映射

在上一步驟選擇完需要同步的表後,將自動在此介面展示當前待同步的表,但目標檔案的相關屬性預設為待重新整理映射狀態,需要您定義並確認源表與目標檔案映射關係,即資料的讀取與寫入關係,然後單擊重新整理映射後才可進入下一步操作。您可以直接重新整理映射,或自訂目標檔案規則後,再重新整理映射。

說明
  • 您可以選中待同步表後,單擊批量重新整理映射,未配置映射規則時,預設目標OSS檔案名稱規則為${源表名}/data_${bizdate}

  • 由於需要進行周期性調度,所以需要在此定義周期性調度任務時的相關屬性,包括調度周期重跑屬性調度資源群組等。當前同步的調度配置與資料開發中節點的調度配置一致,參數詳情可參見節點調度

  • 同步步驟不同,您需要分別對應設定增量條件全量條件,對源端進行WHERE字句過濾,此處只需寫WHERE子句,不需要寫出WHERE關鍵字。如果啟用了周期性配置,可以使用系統參數變數。

  • 您可以在目標路徑映射自訂列和目標檔案名映射自訂列,單擊配置按鈕自訂目標OSS檔案的存放路徑規則和命名規則,具體配置說明,請參見附錄:最終目標OSS檔案路徑及名稱說明

1. 編輯欄位類型映射

同步任務存在預設的源端欄位類型與目標端欄位類型映射,您可以單擊表格右上方的編輯欄位類型映射,自訂來源端表與目標端表欄位類型映射關係,配置完後單擊應用並重新整理映射

2. 為目標檔案添加欄位並賦值

您可以為目標檔案在原有表結構基礎上新增欄位。操作如下:

  • 單表添加欄位並賦值:單擊目標檔案附加欄位列的配置按鈕,在附加欄位頁面,單擊新增欄位,為目標檔案添加欄位並賦值。

  • 批量賦值:選擇多個表,在列表底部選擇批量修改 > 目標檔案附加欄位,為目標表大量新增相同的欄位並批量賦值。

    說明

    在賦值時支援賦值常量與變數,您可通過image表徵圖切換賦值模式。

3. 自訂進階參數

如果需要對任務做精細化配置,達到自訂同步需求,可以單擊自訂進階參數列的配置,修改進階參數。

重要

請在完全明白對應參數的含義情況下再進行修改,以免產生不可預料的錯誤或者資料品質問題。

4. 設定源端切分列

您可以在源端切分列中下拉選擇源端表中的欄位或選擇不切分

七、進階參數配置

同步任務提供部分參數可供修改,您可以按需對該參數值進行修改,例如通過最大串連數上限限制,避免當前同步方案對資料庫造成過大的壓力從而影響生產。

說明

請在完全瞭解對應參數含義的情況下再進行修改,以免產生不可預料的錯誤或者資料品質問題。

  1. 單擊介面右上方的進階參數配置,進入進階參數配置頁面。

  2. 進階參數配置頁面修改相關參數值。

八、資源群組配置

您可以單擊介面右上方的資源群組配置,查看並切換當前的任務所使用的資源群組。

九、執行同步任務

  1. 完成所有配置後,單擊頁面底部的完成配置

  2. Data Integration > 同步任務介面,找到已建立的同步任務,單擊操作列的啟動

  3. 單擊工作清單中對應任務的名稱/ID,查看任務的詳細執行過程。

十、警示配置

任務運行後,將在營運中心產生調度任務,為避免任務出錯導致業務資料同步延遲,您可以對同步任務設定警示策略。

  1. 工作清單中找到正在啟動並執行同步任務,單擊操作列的更多 > 編輯,進入任務編輯頁。

  2. 單擊下一步,然後在頁面右上方單擊警示配置,進入警示設定頁面。

  3. 調度資訊列,單擊產生的調度任務,進入營運中心任務詳情頁,擷取任務ID

  4. 在營運中心左側導覽列,單擊任務監控 > 監控警示 > 規則管理,進入規則管理頁。

  5. 單擊建立自訂規則,設定規則對象觸發方式警示行為等,更多資訊,請參見規則管理

    您可以在規則對象中搜尋已擷取的任務ID,找到目標任務並為其設定警示。

同步任務營運

查看任務運行狀態

建立完成同步任務後,您可以在同步任務頁面查看當前已建立的同步工作清單及各個同步任務的基本資料。

image

  • 您可以在操作列啟動停止同步任務,在更多中可以對同步任務進行編輯查看等操作。

  • 已啟動的任務您可以在執行概況中看到任務啟動並執行基本情況,也可以單擊對應的概況地區查看執行詳情。image

    MySQL到OSS的整庫離線同步任務中:

    • 如果您的任務同步步驟為全量同步,此處展示結構遷移以及全量同步。

    • 如果您的任務同步步驟為增量同步處理,此處展示結構遷移以及增量同步處理。

    • 如果您的任務同步步驟為全量同步+增量同步處理,此處展示結構遷移、全量同步以及增量同步處理。

任務重跑

  • 直接重跑:不修改任務配置,直接點擊重跑操作。

    效果:重跑一次性任務、週期性任務屬性做更新。

  • 修改後重跑(增減表情境):編輯任務,進行增減表的操作, 單擊完成。這個時候任務的操作會變成應用程式更新,單擊應用程式更新會直接觸發修改後的任務重跑。

    效果:新增的表才會進行同步,之前同步過的表不會再同步。

  • 修改後重跑(修改表名資訊):編輯任務,進行目標表的名稱修改或者切換同步的目標表,點擊完成。這個時候任務的操作會變成應用程式更新,單擊應用程式更新會直接觸發修改後的任務重跑。

    效果:同步修改過的表,沒有修改的表不會再進行同步

資料開發相關情境

如果您有下遊資料依賴,需要進行資料開發操作的情境,可以參考節點調度,進行節點上下遊的設定,對應的周期任務節點資訊可以在此處周期配置列中查看。

image

附錄:最終目標OSS檔案路徑及名稱說明

DataWorksData Integration在六、目標表映射時,提供了自訂規則,用於映射目標OSS路徑目標OSS檔案名稱

  • 內建目標OSS路徑映射自訂規則default_path_convert_rule

    將來源庫名稱作為目標OSS路徑。例如,來源資料庫名稱為di_ide_yufa時,使用上述規則,該名稱會直接被用作OSS的目標路徑,即在OSS中的儲存路徑將是di_ide_yufa。

  • 內建的目標OSS檔案名稱映射自訂規則有以下兩個規則:

    • default_file_convert_rule_with_schedule_params:該規則定義${srcTableName}/data_${bizdate},源表名${srcTableName}會作為OSS路徑的一部分,而目標檔案為data_後面跟上調度參數${bizdate}的值。

      說明

      例如,源表名為base_c_app_config,調度日期的值是20230101,那麼在OSS中產生的目標表名為:base_c_app_config/data_20230101。

    • default_file_convert_rule:該規則定義${srcTableName}/data,源表名${srcTableName}作為OSS路徑的一部分,並且預設的目標檔案名為data

      說明

      例如,源表名為base_c_app_config,轉換後的目標表名為base_c_app_config/data。

  • 最終的OSS檔案寫入路徑以及檔案名稱,由如下三者拼接而成。

    • 目標根路徑。image

    • 目標OSS路徑映射自訂轉換得到的目標檔案路徑。

    • 目標OSS檔案名稱映射自訂規則轉換得到的目標檔案名。

      image