本文為您介紹如何通過Data Integration嚮導模式配置周期性調度的離線同步任務。
前提條件
- 已完成資料來源配置。您需要在Data Integration同步任務配置前,配置好您需要同步的源端和目標端資料庫,以便在同步任務配置過程中,可通過選擇資料來源名稱來控制同步任務的讀取和寫入資料庫。離線同步支援的資料來源及其配置詳情請參見支援的資料來源與讀寫外掛程式。說明 資料來源相關能力介紹詳情請參見:資料來源概述。
- 已購買合適規格的獨享Data Integration資源群組。詳情請參見:新增和使用獨享Data Integration資源群組。
- 獨享Data Integration資源群組與資料來源網路已打通。詳情請參見:配置資源群組與網路連通。
進入資料開發介面
- 登入DataWorks控制台。
- 在左側導覽列,單擊工作空間列表。
- 選擇工作空間所在地區後,單擊相應工作空間後的資料開發。進入資料開發介面。
開發流程
- 步驟一:建立離線同步節點
- 步驟二:配置離線同步任務
- 配置同步網路鏈路
- 選擇要同步的具體對象
- 配置欄位的映射關係
- 配置作業速率上限、髒資料檢查規則等資訊
- 配置調度屬性
- 步驟三:提交並發布任務
步驟一:建立離線同步節點
- 建立商務程序。詳情請參見:建立商務程序。
- 建立離線同步節點。你可以通過以下兩種方式建立離線同步節點:
- 方式一:展開商務程序,按右鍵。
- 方式二:雙擊商務程序名稱,將Data Integration目錄下的離線同步節點直接拖拽至右側商務程序編輯面板。
- 根據介面提示建立離線同步節點。
步驟二:配置離線同步任務
- 配置同步網路連結。
選擇離線同步任務的資料來源和資料去向,以及用於執行同步任務的資源群組,並測試連通性。- 還支援同步源端分庫分表資料至目標單表,詳情請參見:情境:配置分庫分表離線同步任務。
- 若資料來源與資源群組網路不通,請參考介面提示或文檔進行網路連通配置。詳情請參見:配置資源群組與網路連通。
重要 各外掛程式配置存在一定差異,以下內容僅以常見配置為例進行說明,各外掛程式是否支援相關配置以及配置的具體實現,請以具體外掛程式配置文檔為準。詳情請參見支援的資料來源與讀寫外掛程式。 - 單擊下一步,配置同步任務。
- 選擇要同步的具體對象。在選擇資料來源地區,配置任務讀取與寫入的表,及同步的資料範圍。

- 讀取端
操作 說明 配置同步範圍 - 當您在資料過濾文字框配置過濾條件時,執行同步任務時將只同步滿足過濾條件的資料。同時,過濾條件可以結合調度參數使用,實現過濾條件隨任務調度時間的動態變化,進而實現增量資料的同步。不同外掛程式增量同步處理配置與實現方式不同,關於增量資料同步配置詳情請參見:情境:配置增量資料離線同步任務。說明
- 在資料過濾和目標表相關配置中定義的變數,當單擊下一步,配置調度屬性時,您可以為此處定義的變數賦值。實現增量或全量資料寫入目標表對應時間分區等功能,關於調度參數的使用詳情請參見:調度參數支援的格式。
- 增量同步處理過濾條件的文法與資料庫文法基本一致,同步時,離線同步將拼接為完整SQL向對應資料來源抽取資料。
- 當不配置資料過濾條件時,預設同步該表全量資料。
關係型資料庫配置切分鍵 定義將源端待同步資料基於源端哪一個欄位進行切分,同步任務執行時將根據該欄位切分為多個task,以便並發、分批讀取資料。說明- 推薦splitPk使用者使用表主鍵,因為表主鍵通常情況下比較均勻,因此切分出來的分區也不容易出現資料熱點。
- 目前splitPk僅支援整型資料切分,不支援字串、浮點和日期等其他類型 。如果您指定其他非支援類型,忽略splitPk功能,使用單通道進行同步。
- 如果不填寫splitPk,包括不提供splitPk或者splitPk值為空白,資料同步視作使用單通道同步該表資料 。
- 並非所有外掛程式均支援指定切分鍵配置任務切分邏輯,以上僅為樣本,請以具體外掛程式說明為準。詳情請參見支援的資料來源與讀寫外掛程式。
- 當您在資料過濾文字框配置過濾條件時,執行同步任務時將只同步滿足過濾條件的資料。同時,過濾條件可以結合調度參數使用,實現過濾條件隨任務調度時間的動態變化,進而實現增量資料的同步。不同外掛程式增量同步處理配置與實現方式不同,關於增量資料同步配置詳情請參見:情境:配置增量資料離線同步任務。
- 寫入端
操作 說明 配置同步前後執行語句 部分資料來源支援在同步前(資料寫入目標端資料來源前)與同步完成後(資料寫入目標端後),在目標端執行相關資料庫SQL。 樣本:MySQL Writer支援配置preSql與postSql,即在資料寫入MySQL前或後,可以執行一些MySQL命令。例如在MySQL Writer端匯入前準備語句(preSql)配置項中配置MySQL清空表命令
truncate table tablename,實現同步前(寫入MYSQL資料前)先清空表中的舊資料的操作。定義衝突時的寫入模式 定義路徑或主鍵等情境衝突時以何種方式寫入目標端。該配置根據資料來源本身特性及writer外掛程式支援情況,此處配置不同。您需要參考具體writer外掛程式進行配置。
- 讀取端
- 配置欄位對應關係。配置欄位對應關係後,任務將根據欄位對應關係,將源端欄位寫入目標端對應類型的欄位中。說明 同步過程中可能存在源端與目標端欄位類型不符,產生髒資料,導致資料無法正常寫入目標端,同步過程中關於髒資料的容忍條數,請參考下一步通道控制進行配置。
支援同名映射、同行映射。在使用過程中,您還可以:- 為目標欄位賦值:通過添加一行的方式,為目標表添加常量、變數。例如,‘123’,'${變數名}'。說明 在此處定義的變數,當單擊下一步,配置調度時,可以為變數賦值。關於調度參數的使用詳情請參見:調度參數支援的格式。
- 編輯源端欄位:您可以通過單擊類型右側的
表徵圖實現如下功能:- 使用源端資料庫支援的函數,對欄位進行函數處理,例如,通過Max(id)控制僅同步最大值。
- 在欄位對應未拉取全部欄位的情況下,手動編輯源端欄位。
說明 MaxCompute Reader暫不支援使用函數。
- 為目標欄位賦值:通過添加一行的方式,為目標表添加常量、變數。例如,‘123’,'${變數名}'。
- 通道控制。您可通過通道配置,控制資料同步過程相關屬性。

參數 描述 任務期望最大並發數 用於定義當前任務從源端並行讀取或並行寫入目標端的最大線程數。 說明 由於資源規格等原因,實際執行時並發數可能小於等於此處配置的並發數,調試資源群組收費將按照實際執行的並發數收費。詳情請參見:效能指標。同步速率 用於控制同步速率。 - 限流:您可以通過限流量控制同步速率,以保護讀取端資料庫,避免抽取速度過大,給源庫造成太大的壓力。限速最小配置為1MB/S。
- 不限流:在不限流的情況下,任務將在所配置的並發數的限制基礎上,提供現有硬體環境下最大的傳輸效能。
說明 流量度量值是Data Integration本身的度量值,不代表實際網卡流量。通常,網卡流量是通道流量膨脹的1至2倍,實際流量膨脹取決於具體的資料存放區系統傳輸序列化情況。錯誤記錄數控制(髒資料控制) 用於定義髒資料閾值,及對任務的影響。 重要 當髒資料過多時,會影響同步任務的整體同步速度。- 不配置時預設允許髒資料,即任務產生髒資料時不影響任務執行。
- 配置為0,表示不允許髒資料存在。如果同步過程中產生髒資料,任務將失敗退出。
- 允許髒資料並設定其閾值時:
- 若產生的髒資料在閾值範圍內,同步任務將忽略髒資料(即不會寫入目標端),並正常執行。
- 若產生的髒資料超出閾值範圍,同步任務將失敗退出。
說明 髒資料認定標準:髒資料是對業務沒有意義,格式非法或者同步過程中出現問題的資料。單條資料寫入目標資料來源過程中發生了異常,則此條資料為髒資料。 因此只要是寫入失敗的資料均被歸類於髒資料。例如,源端是VARCHAR類型的資料寫到INT類型的目標列中,則會因為轉換不合理導致髒資料不會成功寫入目的端。您可以在同步任務配置時,控制同步過程中是否允許髒資料產生,並且支援控制髒資料條數,即當髒資料超過指定條數時,任務失敗退出。
分散式處理能力 用於控制是否開啟分布式模式來執行當前任務。 - 開啟:分布式執行模式可以將您的任務切片分散到多台執行節點上並發執行,進而做到同步速度隨執行叢集規模做水平擴充,突破單機執行瓶頸。
- 未開啟:配置的並發資料僅僅是單機上的進程並發,無法利用多機聯合計算。
重要- 如果獨享資源群組只有1台機器,不建議使用分布式,因為無法利用多機資源能力。
- 如果單機已經滿足速度需要,建議優選單機模式,簡化任務執行模式。
- 並發數大於等於8個才能開啟分散式處理能力。
- 部分資料來源支援分布式模式執行任務,詳情請參見各外掛程式配置文檔:支援的資料來源與讀寫外掛程式。
說明 任務整體同步速度除受到上述配置影響外,還受源端資料來源效能,同步網路環境等多方面影響,關於同步速率說明與調優,詳情請參見離線同步任務調優。
- 選擇要同步的具體對象。
- 單擊下一步,配置調度屬性。周期性調度的離線同步任務需要配置任務自動調度時的相關屬性,此步驟為您介紹如何配置調度相關屬性。調度參數使用說明請參見Data Integration使用調度參數的相關說明。
- 配置節點調度屬性:用於為上文中使用的變數賦值調度參數,您在上述配置中定義的變數均可以在此處進行賦值,支援賦值常量與變數。
- 配置時間屬性:用於定義任務在生產環境的周期調度方式。您可以在調度配置的時間屬性地區,配置任務組建循環執行個體的方式、調度類型、調度周期等屬性。
- 配置資源屬性:用於定義調度情境下,將當前任務下發至Data Integration任務執行資源時所使用的調度資源群組,您可以在調度配置的資源屬性地區,選擇任務調度運行時需要使用的資源群組。說明 Data Integration離線任務通過調度資源群組下發至對應的Data Integration任務執行資源組上運行,會產生調度相關費用,關於任務下發機制說明,請參見任務下發機制。
- 單擊完成配置。
步驟三:提交並發布任務
若任務需要進行周期性調度運行,您需要將任務發布至生產環境。關於任務發布,詳情請參見:發布任務。