DataWorksData Integration支援複雜網路環境下的資料同步,您可在資料開發(DataStudio)介面直接建立離線同步節點,用於離線(批量)資料周期性同步;即時同步任務營運,用於單表或整庫增量資料即時同步。本文為您介紹資料同步的相關內容。
背景資訊
除資料開發(DataStudio)的資料同步節點外,Data Integration模組還支援多種類型同步方案,例如,全增量資料即時同步,整庫離線同步等。Data Integration模組與同步解決方案的更多介紹,詳情請參見支援的資料來源及同步方案。
使用限制
您需要擁有開發角色許可權,才可以在資料開發(DataStudio)介面建立同步任務。授權詳情,請參見增加空間成員並管理成員角色許可權。
離線同步任務
- 情境介紹
離線資料同步支援源端單表同步至目標端單表、源端分庫分表同步至目標端單表兩類同步情境。同時,結合DataWorks調度參數,可實現增量資料和全量資料周期性寫入目標表的對應分區;再配合營運中心的補資料功能,可實現基於一套完整的任務配置,批量將歷史資料同步至目標資料庫或資料倉儲指定表或指定分區。
- 資料來源支援情況
Data Integration目前支援40種以上的資料來源類型(包括關係型資料庫、非結構化儲存、巨量資料儲存、訊息佇列等),通過定義來源與去向資料來源,並使用Data Integration提供的資料幫浦外掛程式(Reader)、資料寫入外掛程式(Writer),實現任意結構化、半結構化資料來源之間的資料轉送。
- 功能介紹
功能描述 相關文檔 Data Integration離線同步,通過讀取外掛程式與寫入外掛程式實現資料的讀取與寫入,並且支援在DataWorks建立資料來源,通過資料來源名稱決定同步資料的來源與去向。 在DataWorks建立資料來源後,可通過嚮導模式進行資料同步。 通過嚮導模式配置離線同步任務 以下情境需使用指令碼模式配置同步任務: - 無法通過DataWorksData Integration建立的資料來源。
- 資料來源本身不支援使用嚮導模式配置任務。
- 部分外掛程式的參數僅支援使用指令碼模式配置任務。
通過指令碼模式配置離線同步任務
即時同步任務
即時同步支援將多種資料來源進行星型鏈路組合,您可將多種輸入及輸出資料來源搭配,組成多種同步鏈路進行資料同步。Data Integration通過配置輸入輸出,可實現單表資料同步至目標單表,以及整庫資料同步,詳情請參見即時同步支援的資料來源、即時同步能力說明。
同步任務調度配置
節點依賴關係
- 離線同步任務
- 離線同步任務的上遊任務:由於同步任務可依賴平台側血緣,因此,您可根據工作空間業務複雜性,選擇掛載依賴至工作空間根節點或虛擬節點,即由工作空間根節點調度當前節點執行,還是由虛擬節點直接調度當前節點執行。
- 離線同步任務的下遊任務:為保障下遊SQL任務對錶資料進行加工時,可正常通過自動解析掛載該同步任務節點依賴,建議將同步任務產出的表添加為同步節點的輸出,格式為
projectname.tablename。
- 即時同步任務的下遊任務由於DataWorks僅支援為周期調度節點產出的表設定依賴,因此,當下遊任務需對即時同步產出的表資料進行加工(即下遊任務的上遊依賴為即時同步任務),無法基於血緣關係設定依賴。您可根據工作空間業務複雜性,選擇掛載依賴至工作空間根節點或虛擬節點,即由工作空間根節點調度當前節點執行,還是由虛擬節點直接調度當前節點執行。說明 為保障即時同步任務資料順利產出,您可針對即時同步任務設定監控警示。
節點調度參數配置
${bizdate}格式的變數名,該變數自動被授予系統內建參數$bizdate。- 調度參數在Data Integration的使用原理,詳情請參見Data Integration使用調度參數的相關說明。
- 調度參數在Data Integration的應用情境,詳情請參見情境:調度參數在Data Integration的典型應用情境。