DataWorks支援在資料開發(Data Studio)模組中直接建立和管理Data Integration任務。旨在為開發人員提供統一的工作環境,將資料的抽取、轉換和載入全鏈路整合在同一視圖下,無需在不同功能模組間切換。
功能概述
DataWorks允許在資料開發模組中,以建立普通任務節點的方式,來定義和管理Data Integration任務。旨在為開發人員提供統一的工作環境,將資料的抽取、轉換和載入(ETL/ELT)全鏈路整合在同一視圖下,無需在不同功能模組間切換。
其中,單表離線同步任務可以作為節點加入工作流程並設定依賴,而其他類型的整合任務則作為獨立節點存在。
核心機制:
配置一致:無論是資料開發還是在Data Integration模組中建立任務,其配置介面、參數設定和底層功能完全一致。
雙向同步:在Data Integration模組中建立的任務,會自動同步並顯示在資料開發模組的
data_integration_jobs目錄下。這些任務會按照源端類型-目的端類型的通道進行歸類,便於統一管理。
準備工作
資料來源準備
已建立來源與去向資料來源,資料來源配置詳見:資料來源管理。
確保資料來源支援即時同步能力,參見:支援的資料來源及同步方案。
部分資料來源需要開啟日誌,如Hologres、Oracle等。不同的資料來源開啟方式不同,詳見資料來源配置:資料來源列表。
資源群組:已購買並配置Serverless資源群組。
網路連通:資源群組與資料來源之間需完成網路連通配置。
在資料開發中建立整合任務
以下步驟將引導您在資料開發中建立一個Data Integration任務(以“MySQL到MaxCompute的單表離線同步”為例):
建立節點
進入DataWorks工作空間列表頁,在頂部切換至目標地區,找到目標工作空間,單擊操作列的,進入Data Studio。
點擊頂部的 + 表徵圖,或在工作流程頂部的工具列中,選擇 。
配置基本資料
根據時效性要求、資料規模及同步複雜度,確定應採用離線同步還是即時同步;同時,結合源端與目標端的資料庫類型、網路環境及功能支援情況,選擇相容的資料來源組合與對應的同步方案(如單表離線、整庫即時或整庫全增量等)。
在彈出的建立節點對話方塊中,填寫以下核心資訊:
路徑:選擇該任務節點在資料開發分類樹中的存放位置。
資料來源類型: 選擇您的來源資料源,例如
MySQL。資料去向類型: 選擇您的目標資料來源,例如
MaxCompute(ODPS)。具體類型:根據您的需求選擇同步方案,如
整庫即時、整庫離線、整庫全增量或單表離線。名稱:為您的任務節點命名,例如
mysql_to_mc_user_table。

點擊確認,完成建立並自動跳轉到其可視化配置頁面。
配置任務詳情
除配置入口和建立節點外,任務詳情的配置方式與在Data Integration中的使用完全一致,不再贅述。
配置調度(僅單表離線)
為節點配置調度時間、調度依賴及調度策略等屬性,使其能夠被調度系統周期性地自動執行。同時,通過設定調度參數,可為節點執行個體在運行時動態傳遞變數。
發布和營運
完成任務配置後,單擊任務工具列中的發布按鈕,將整合任務提交至生產環境,並在營運中心中納入統一調度與監控體系。
任務發布後,其運行狀態、日誌、警示及依賴關係均可在營運中心查看。關於整合任務的執行個體管理、失敗重跑、效能調優、髒資料處理等營運操作,請參見任務營運和調優。
任務類型選擇
建立Data Integration節點時,您可以選擇多種不同的同步模式。瞭解每種模式的適用情境和調度依賴特性,是構建高效、可靠工作流程的關鍵。
單表離線同步
配置詳情參見:嚮導模式配置、指令碼模式配置。
描述:在兩個資料存放區之間,對單個源表和單個目標表進行周期性的批量資料同步。任務按設定的調度周期(如天、小時)運行。
適用情境:
每日T+1的業務資料同步,用於構建資料倉儲的ODS層或DWD層。
定期將生產資料庫的業務表歸檔至資料湖或數倉。
跨資料來源進行周期性的報表資料移轉。
單表即時同步
配置詳情參見:單表即時任務配置。
描述:基於日誌變更資料擷取 (CDC) 或本身就是訊息佇列,對單個源表的資料變更(增、刪、改)進行即時捕捉,並將其同步至目標表。
適用情境:
將業務資料庫的即時變更資料同步至資料倉儲(如MaxCompute、Hologres),用於構建即時數倉。
為即時監控大屏或即時推薦系統提供資料來源。
在不同資料庫執行個體間實現單表的即時資料複製。
整庫離線同步
配置詳情參見:整庫離線同步任務。
描述:對來源資料庫中的全部或多個表進行一次性或周期性的批量資料同步。
適用情境:
首次將整個業務資料庫完整遷移至雲上資料倉儲。
對整個資料庫進行定期全量或增量備份。
初始化一個新的資料分析環境,需要一次性匯入所有歷史資料。
整庫即時同步
配置詳情參見:整庫即時同步任務。
描述:即時捕捉整個來源資料庫中所有或指定表的結構變更(Schema Change)與資料變更(Data Change),並將其同步至目標端。
適用情境:
將整個生產OLTP資料庫即時複製到AnalyticDB中,實現讀寫分離和即時分析。
構建資料庫的即時災備或容災方案。
保持資料湖或資料平台與上遊多個業務系統的資料即時一致。
整庫全增量同步處理
配置詳情參見:整庫全增量任務。
描述:即時同步捕獲的CDC資料包含
Insert(插入)、Update(更新)和Delete(刪除)三類操作。對於MaxCompute的非Delta Table類型表等原生不支援在物理層面執行Update/Delete的Append-Only(僅追加)儲存系統,直接寫入CDC流會導致資料狀態不一致(例如,刪除操作無法體現)。需通過在目標端建立Base表(全量快照)和Log表(增量日誌)來解決此問題。適用情境:
目的表為MaxCompute的非Delta Table類型,且源端表不具備自增欄位條件,無法使用離線增量同步處理,可使用整庫全增量任務,實現資料分鐘級寫入增量表,最終狀態T+1合并可見。
差異說明
任務類型 | 可建立位置 | 是否支援工作流程內部編排 | 是否支援調度配置 | 是否支援在資料開發中調試 | 是否支援資料來源開發生產隔離 |
單表離線同步 | 僅資料開發 | ||||
單表即時同步 | 資料開發 / Data Integration |
(僅作為獨立節點) | (需發布至營運中心運行) | ||
整庫離線同步 | 資料開發 / Data Integration | (僅作為獨立節點) | (可為子任務單獨設定調度時間) | (需發布至營運中心運行) | |
整庫即時同步 | 資料開發 / Data Integration | (僅作為獨立節點) | (需發布至營運中心運行) | ||
整庫全增量 | 資料開發 / Data Integration | (僅作為獨立節點) | (可為子任務單獨設定調度時間) | (需發布至營運中心運行) |
常見問題
Data Integration常見問題參見:Data Integration常見問題。