全部產品
Search
文件中心

DataWorks:DataWorks模組使用指引

更新時間:Oct 14, 2025

DataWorks 是阿里雲提供的一站式巨量資料開發與治理平台,旨在協助使用者解決從資料接入、處理、治理到服務化的全鏈路資料問題。它通過一系列高度協同的功能模組,將複雜的資料工程流程化、可視化,顯著降低了巨量資料開發的門檻。本文將為您逐一介紹DataWorks的核心功能模組,闡明其核心用途、關鍵能力及適用情境。

使用流程

  1. 資源準備:首先在管理中心配置基礎環境,包括定義資料來源串連、劃分資源群組、綁定計算引擎(如MaxCompute、Hologres)以及管理成員許可權。

  2. 資料上雲與整合:使用Data Integration模組將源業務系統的資料擷取至巨量資料平台。支援離線(批量)、即時(流式)、全量及增量等多種同步方式。

  3. 規範模型設計:在進行大規模資料開發前,進行正常化的模型設計,以保證資料體系的有序與可維護性。此環節涵蓋數倉規劃資料標準定義、維度建模(如設計維度資料表和事實表)以及核心業務資料指標的定義。

  4. 資料處理加工

    • 資料開發的WebIDE或Notebook中編寫代碼(如SQL、Python),通過工作流程編排將獨立的任務節點群組織成有向非循環圖(DAG)。

    • 配置調度策略後,提交發布至營運中心,由營運中心負責周期性調度、監控任務運行狀態、處理警示,並支援補資料等營運操作。在此過程中,可為產出的資料表配置資料品質監控規則以保障其準確性。

    • 作為AI助手,DataWorks Copilot貫穿於開發與營運過程中,輔助代碼產生與最佳化、智能排錯等。

  5. 資料分析使用:通過資料分析向分析師、營運等提供SQL查詢、資料洞察、試算表等工具,從而進行即席查詢和自助式BI分析。

  6. 資料共用交換:通過資料服務將資料封裝成標準的資料API服務,或使用資料推送功能,實現資料的程式化調用。

  7. 全鏈路資料治理:資料治理能力貫穿於整個資料流轉過程,確保資料的可信、可控、可用。中繼資料採集會自動同步至資料地圖,便於使用者探索資料和血緣溯源。資料資產治理可以通過治理計劃,發現開發過程和資料的問題進行治理。資訊安全中心則對整個過程中的敏感性資料進行保護。

整個流程由DataWorks進行統一的組織和調度,而實際的資料計算和儲存則由底層的MaxCompute、Hologres、Flink、E-MapReduce等多種計算引擎執行。

組合使用情境

DataWorks的模組可以靈活組合,以滿足不同的資料處理與應用需求。以下是幾種典型的組合模式:

組合模式一:離線數倉構建

這是最經典、最基礎的組合,適用於構建企業級資料倉儲,進行周期性的批量資料處理和商業智慧(BI)分析。

  • 核心目標:建立穩定、可靠、可追溯的離線資料倉儲體系。

  • 模組組合

  • 實現方式

    1. Data Integration:每日淩晨,將業務庫(如RDS)的增量資料同步至MaxCompute的資料引入層 ODS

    2. 智能資料建模:預先規劃數倉分層,並設計好詳細資料層DWD、摘要資料層DWS、公用維度層DIM和應用資料層ADS的資料模型,如使用者維度資料表、訂單事實表。

    3. 資料開發:編寫MaxCompute SQL任務,對ODS層資料進行清洗、轉換,並載入到已設計的模型表中。開發過程中可藉助Copilot產生或最佳化代碼。

    4. 資料品質:為核心的DWS、DWD層報表配置監控規則,例如“每日分區行數不得為0”、“關鍵金額欄位範圍不得異常”。

    5. 營運中心:在資料開發將所有任務配置成一個有依賴關係的DAG,設定調度周期為每日執行後,提交發布至營運中心,並設定基準、資料品質規則等進行監控與營運。

    6. 資料地圖: 資料分析師或業務人員通過資料地圖,搜尋並理解報表指標的口徑,並查看其完整的上遊加工鏈路。

  • 適用角色:資料工程師、資料架構師。

組合模式二:即時資料開發

此組合適用於需要低延遲資料反饋的情境,如即時大屏、即時推薦、即時風控等。

  • 核心目標:對流式資料進行即時處理與分析,實現秒級或分鐘級的業務洞察。

  • 模組組合

  • 實現方式

    1. Data Integration:配置即時同步任務,將使用者行為日誌表或訊息佇列(Kafka)中的資料即時寫入資料湖或訊息中介軟體。

    2. 資料開發:建立Flink SQL任務,對即時資料流進行開窗、彙總等計算,例如“統計過去1分鐘內各商品的點擊量”。

    3. 結果輸出:Flink任務將計算結果即時寫入高效能的互動式分析引擎,如Hologres。

    4. 通過以下方式構建報表或大屏:

      1. 資料分析: 在資料分析模組將資料來源串連到Hologres,通過SQL查詢或者資料洞察產生卡片,並將卡片組合成報告,配置報告動態更新,從而構建資料動態更新的報表。

      2. 資料服務:產生資料來源類型為Hologres的API,並將資料提供給DataV、QuickBI等工具,構建即時分析大屏。

  • 適用角色:即時開發工程師、資料分析師。

組合模式三:資料探索與分析

此組合主要服務於資料分析師或營運人員,需要快速驗證想法、進行臨時性的資料探查。

  • 核心目標:提供自助、高效的資料查詢與分析環境,降低資料擷取門檻。

  • 模組組合

  • 實現方式

    1. 資料地圖:分析師首先通過資料地圖搜尋索引鍵(如“GMV”、“活躍使用者”),找到相關的指標和資料表。通過查看錶的中繼資料和血緣關係,確認資料是否符合分析需求。

    2. 資訊安全中心:通過資料存取控制、分級分類、資料脫敏等手段,確保分析師在合規、安全的範圍內使用資料。

    3. 資料分析:確認目標表後,進入資料分析的SQL查詢與分析資料洞察功能,編寫SQL對該表進行探索性查詢,例如“查詢上個季度華東地區各類目商品的銷售額分布”。

    4. 結果呈現:查詢結果可以直接匯出,或在資料分析中快速組建圖表,用於分享或製作報表。

  • 適用角色:資料分析師、業務營運、資料產品經理。

組合模式四:資料服務化封裝

當資料需要被上層業務系統(如Web應用、小程式)直接調用時,可採用此組合模式。

  • 核心目標:將資料倉儲中的資料表或複雜查詢,快速、安全地封裝成標準API介面。

  • 模組組合

  • 實現方式

    1. 資料準備:首先通過離線數倉構建模式(組合一),在Data Studio中加工出一張結果表,例如“使用者畫像標籤表”。

    2. 資料服務:進入資料服務模組,建立一個新的API。

    3. API配置:將API的查詢邏輯指向“使用者畫像標籤表”,佈建要求參數為“使用者ID”,並選擇需要返回的標籤欄位。

    4. 效能與安全:為API配置緩衝策略以提升高頻查詢效能,並進行分組、授權管理。

    5. 發布與調用:發布API後,並進行相關授權後,後端工程師即可獲得API的調用地址和認證資訊,在業務代碼中進行整合,實現根據使用者ID即時擷取畫像標籤的功能。

  • 適用角色:資料工程師、後端開發工程師。

後續步驟

瞭解以上使用組合後,可以通過參考以下實踐案例,開始使用DataWorks: