Data Integration目前支援將MySQL源頭的資料整庫離線同步至StarRocks。本文以MySQL離線同步寫入StarRocks情境為例,為您介紹如何一次性把MySQL整個資料庫的資料離線同步至StarRocks。
前提條件
操作步驟
一、選擇同步任務類型
進入Data Integration頁面。
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的,在下拉框中選擇對應工作空間後單擊進入Data Integration。
在左側導覽列單擊同步任務,然後在頁面頂部單擊建立同步任務,進入同步任務的建立頁面,配置如下基本資料。
資料來源和去向:
MySQL→StarRocks新任務名稱:自訂同步任務名稱。
同步類型:
整庫離線。同步步驟:選中全量同步和增量同步處理。
二、網路與資源配置
在網路與資源配置地區,選擇同步任務所使用的資源群組。您可以為該任務分配任務資源佔用CU數。
來來源資料源選擇已添加的
MySQL資料來源,去向資料來源選擇已添加的StarRocks資料來源後,單擊測試連通性。
確保來來源資料源與去向資料來源均連通成功後,單擊下一步。
三、選擇要同步的庫表
此步驟中,您可以在源端庫表地區選取項目源端資料來源下需要同步的表,並單擊
表徵圖,將其移動至右側已選庫表。

四、設定全增量控制
配置任務的全增量類型。
如果您的同步步驟勾選了全量同步和增量同步處理,此處預設展示一次性全量,周期性增量,不可更改。
如果您的同步步驟選擇了全量同步,此處可以選擇任務的類型是一次性全量還是周期性全量。
如果您的同步步驟選擇了增量同步處理,此處可以選擇任務的類型為一次性增量還是周期性增量。
說明以下以一次性全量周期性增量為例,為您樣本後續的配置要點。
配置周期調度參數。
如果您的任務涉及周期性同步,則可單擊周期調度參數配置進行配置。
五、目標表映射
在上一步驟選擇完需要同步的表後,將自動在此介面展示當前待同步的表,但目標表的相關屬性預設為待重新整理映射狀態,需要您定義並確認源表與目標表映射關係,即資料的讀取與寫入關係,然後單擊重新整理映射後才可進入下一步操作。您可以直接重新整理映射,或自訂目標表規則後,再重新整理映射。
您可以選中待同步表後,單擊批量重新整理映射,未配置映射規則時,預設表名規則為
${源端庫名}_${表名},若目標端不存在同名表時,將自動建立。由於需要進行周期性調度,所以需要在此定義周期性調度任務時的相關屬性,包括調度周期、調度時間、調度資源群組等。當前同步的調度配置與資料開發中節點的調度配置一致,參數詳情可參見節點調度。
您需要設定增量條件,對源端進行WHERE字句過濾,此處只需寫WHERE子句,不需要寫出WHERE關鍵字。如果啟用了周期性配置,可以使用系統參數變數。
您可以在目標表名映射自訂列,單擊編輯按鈕可以自訂目標表名規則。
可以使用內建變數和手動輸入的字串拼接成為最終目標表名。其中,支援您編輯內建變數,例如,建立一個表名規則,將源表名增加尾碼作為目標表名。
1. 編輯欄位類型映射
同步任務存在預設的源端欄位類型與目標端欄位類型映射,您可以單擊表格右上方的編輯欄位類型映射,自訂來源端表與目標端表欄位類型映射關係,配置完後單擊應用並重新整理映射。
2. 編輯目標表結構並添加欄位賦值
當目標表為待建立狀態時,您可以為目標表在原有表結構基礎上新增欄位。操作如下:
為目標表添加欄位
單表新增欄位:單擊目標表名列的
按鈕添加欄位。批量新增欄位:選中待同步的所有表,在表格底部選擇。
為欄位賦值。您可以通過以下操作為上述步驟中新增的欄位賦值。
單表賦值:單擊目標表欄位賦值列的配置按鈕,為目標表欄位賦值。
批量賦值:在列表底部選擇為目標表中相同的欄位批量賦值。
說明在賦值時支援賦值常量與變數,您可通過
表徵圖切換賦值模式。
3. 自訂進階參數
如果需要對任務做精細化配置,達到自訂同步需求,可以單擊自訂進階參數列的配置,修改進階參數。
請在完全明白對應參數的含義情況下再進行修改,以免產生不可預料的錯誤或者資料品質問題。
六、進階參數配置
同步任務提供部分參數可供修改,您可以按需對該參數值進行修改,例如通過最大串連數上限限制,避免當前同步方案對資料庫造成過大的壓力從而影響生產。
請在完全瞭解對應參數含義的情況下再進行修改,以免產生不可預料的錯誤或者資料品質問題。
單擊介面右上方的進階參數配置,進入進階參數配置頁面。
在進階參數配置頁面修改相關參數值。
七、資源群組配置
您可以單擊介面右上方的資源群組配置,查看並切換當前的任務所使用的資源群組。
八、執行同步任務
完成所有配置後,單擊頁面底部的完成配置。
在介面,找到已建立的同步任務,單擊操作列的啟動。
單擊工作清單中對應任務的名稱/ID,查看任務的詳細執行過程。
九、警示配置
任務運行後,將在營運中心產生調度任務,為避免任務出錯導致業務資料同步延遲,您可以對同步任務設定警示策略。
在工作清單中找到正在啟動並執行同步任務,單擊操作列的,進入任務編輯頁。
單擊下一步,然後在頁面右上方單擊警示配置,進入警示設定頁面。
在調度資訊列,單擊產生的調度任務,進入營運中心任務詳情頁,擷取任務ID。
在營運中心左側導覽列,單擊,進入規則管理頁。
單擊建立自訂規則,設定規則對象、觸發方式和警示行為等,更多資訊,請參見規則管理。
您可以在規則對象中搜尋已擷取的任務ID,找到目標任務並為其設定警示。
同步任務營運
查看任務運行狀態
建立完成同步任務後,您可以在同步任務頁面查看當前已建立的同步工作清單及各個同步任務的基本資料。

您可以在操作列啟動或停止同步任務,在更多中可以對同步任務進行編輯、查看等操作。
已啟動的任務您可以在執行概況中看到任務啟動並執行基本情況,也可以單擊對應的概況地區查看執行詳情。

MySQL到StarRocks的整庫離線同步任務中:
如果您的任務同步步驟為全量同步,此處展示結構遷移以及全量同步。
如果您的任務同步步驟為增量同步處理,此處展示結構遷移以及增量同步處理。
如果您的任務同步步驟為全量同步+增量同步處理,此處展示結構遷移、全量同步以及增量同步處理。
任務重跑
直接重跑:不修改任務配置,直接點擊重跑操作。
效果:重跑一次性任務、週期性任務屬性做更新。
修改後重跑(增減表情境):編輯任務,進行增減表的操作, 單擊完成。這個時候任務的操作會變成應用程式更新,單擊應用程式更新會直接觸發修改後的任務重跑。
效果:新增的表才會進行同步,之前同步過的表不會再同步。
修改後重跑(修改表名資訊):編輯任務,進行目標表的名稱修改或者切換同步的目標表,點擊完成。這個時候任務的操作會變成應用程式更新,單擊應用程式更新會直接觸發修改後的任務重跑。
效果:同步修改過的表,沒有修改的表不會再進行同步