DataWorks主要模組有哪些使用情境 - DataWorks

DataWorks 是阿里雲提供的一站式巨量資料開發與治理平台，旨在協助使用者解決從資料接入、處理、治理到服務化的全鏈路資料問題。它通過一系列高度協同的功能模組，將複雜的資料工程流程化、可視化，顯著降低了巨量資料開發的門檻。本文將為您逐一介紹DataWorks的核心功能模組，闡明其核心用途、關鍵能力及適用情境。

使用流程

資源準備：首先在管理中心配置基礎環境，包括定義資料來源串連、劃分資源群組、綁定計算引擎（如MaxCompute、Hologres）以及管理成員許可權。
資料上雲與整合：使用Data Integration模組將源業務系統的資料擷取至巨量資料平台。支援離線（批量）、即時（流式）、全量及增量等多種同步方式。
規範模型設計：在進行大規模資料開發前，進行正常化的模型設計，以保證資料體系的有序與可維護性。此環節涵蓋數倉規劃、資料標準定義、維度建模（如設計維度資料表和事實表）以及核心業務資料指標的定義。
資料處理加工：
- 在資料開發的WebIDE或Notebook中編寫代碼（如SQL、Python），通過工作流程編排將獨立的任務節點群組織成有向非循環圖（DAG）。
- 配置調度策略後，提交發布至營運中心，由營運中心負責周期性調度、監控任務運行狀態、處理警示，並支援補資料等營運操作。在此過程中，可為產出的資料表配置資料品質監控規則以保障其準確性。
- 作為AI助手，DataWorks Copilot貫穿於開發與營運過程中，輔助代碼產生與最佳化、智能排錯等。
資料分析使用：通過資料分析向分析師、營運等提供SQL查詢、資料洞察、試算表等工具，從而進行即席查詢和自助式BI分析。
資料共用交換：通過資料服務將資料封裝成標準的資料API服務，或使用資料推送功能，實現資料的程式化調用。
全鏈路資料治理：資料治理能力貫穿於整個資料流轉過程，確保資料的可信、可控、可用。中繼資料採集會自動同步至資料地圖，便於使用者探索資料和血緣溯源。資料資產治理可以通過治理計劃，發現開發過程和資料的問題進行治理。資訊安全中心則對整個過程中的敏感性資料進行保護。

整個流程由DataWorks進行統一的組織和調度，而實際的資料計算和儲存則由底層的MaxCompute、Hologres、Flink、E-MapReduce等多種計算引擎執行。

組合使用情境

DataWorks的模組可以靈活組合，以滿足不同的資料處理與應用需求。以下是幾種典型的組合模式：

組合模式一：離線數倉構建

這是最經典、最基礎的組合，適用於構建企業級資料倉儲，進行周期性的批量資料處理和商業智慧（BI）分析。

核心目標：建立穩定、可靠、可追溯的離線資料倉儲體系。
模組組合：
實現方式：
1. Data Integration：每日淩晨，將業務庫（如RDS）的增量資料同步至MaxCompute的資料引入層 ODS。
2. 智能資料建模：預先規劃數倉分層，並設計好詳細資料層DWD、摘要資料層DWS、公用維度層DIM和應用資料層ADS的資料模型，如使用者維度資料表、訂單事實表。
3. 資料開發：編寫MaxCompute SQL任務，對ODS層資料進行清洗、轉換，並載入到已設計的模型表中。開發過程中可藉助Copilot產生或最佳化代碼。
4. 資料品質：為核心的DWS、DWD層報表配置監控規則，例如“每日分區行數不得為0”、“關鍵金額欄位範圍不得異常”。
5. 營運中心：在資料開發將所有任務配置成一個有依賴關係的DAG，設定調度周期為每日執行後，提交發布至營運中心，並設定基準、資料品質規則等進行監控與營運。
6. 資料地圖: 資料分析師或業務人員通過資料地圖，搜尋並理解報表指標的口徑，並查看其完整的上遊加工鏈路。
適用角色：資料工程師、資料架構師。

組合模式二：即時資料開發

此組合適用於需要低延遲資料反饋的情境，如即時大屏、即時推薦、即時風控等。

核心目標：對流式資料進行即時處理與分析，實現秒級或分鐘級的業務洞察。
模組組合：
實現方式：
1. Data Integration：配置即時同步任務，將使用者行為日誌表或訊息佇列（Kafka）中的資料即時寫入資料湖或訊息中介軟體。
2. 資料開發：建立Flink SQL任務，對即時資料流進行開窗、彙總等計算，例如“統計過去1分鐘內各商品的點擊量”。
3. 結果輸出：Flink任務將計算結果即時寫入高效能的互動式分析引擎，如Hologres。
4. 通過以下方式構建報表或大屏：
  1. 資料分析: 在資料分析模組將資料來源串連到Hologres，通過SQL查詢或者資料洞察產生卡片，並將卡片組合成報告，配置報告動態更新，從而構建資料動態更新的報表。
  2. 資料服務：產生資料來源類型為Hologres的API，並將資料提供給DataV、QuickBI等工具，構建即時分析大屏。
適用角色：即時開發工程師、資料分析師。

組合模式三：資料探索與分析

此組合主要服務於資料分析師或營運人員，需要快速驗證想法、進行臨時性的資料探查。

核心目標：提供自助、高效的資料查詢與分析環境，降低資料擷取門檻。
模組組合：
實現方式：
1. 資料地圖：分析師首先通過資料地圖搜尋索引鍵（如“GMV”、“活躍使用者”），找到相關的指標和資料表。通過查看錶的中繼資料和血緣關係，確認資料是否符合分析需求。
2. 資訊安全中心：通過資料存取控制、分級分類、資料脫敏等手段，確保分析師在合規、安全的範圍內使用資料。
3. 資料分析：確認目標表後，進入資料分析的SQL查詢與分析或資料洞察功能，編寫SQL對該表進行探索性查詢，例如“查詢上個季度華東地區各類目商品的銷售額分布”。
4. 結果呈現：查詢結果可以直接匯出，或在資料分析中快速組建圖表，用於分享或製作報表。
適用角色：資料分析師、業務營運、資料產品經理。

組合模式四：資料服務化封裝

當資料需要被上層業務系統（如Web應用、小程式）直接調用時，可採用此組合模式。

核心目標：將資料倉儲中的資料表或複雜查詢，快速、安全地封裝成標準API介面。
模組組合：
實現方式：
1. 資料準備：首先通過離線數倉構建模式（組合一），在Data Studio中加工出一張結果表，例如“使用者畫像標籤表”。
2. 資料服務：進入資料服務模組，建立一個新的API。
3. API配置：將API的查詢邏輯指向“使用者畫像標籤表”，佈建要求參數為“使用者ID”，並選擇需要返回的標籤欄位。
4. 效能與安全：為API配置緩衝策略以提升高頻查詢效能，並進行分組、授權管理。
5. 發布與調用：發布API後，並進行相關授權後，後端工程師即可獲得API的調用地址和認證資訊，在業務代碼中進行整合，實現根據使用者ID即時擷取畫像標籤的功能。
適用角色：資料工程師、後端開發工程師。

後續步驟

瞭解以上使用組合後，可以通過參考以下實踐案例，開始使用DataWorks：