DataWorks 提供一站式巨量資料開發與治理平台,涵蓋Data Integration、開發、建模、分析、品質、服務、地圖及開放能力,支援全鏈路資料處理與企業級資料中台建設。本文為您介紹DataWorks的核心功能特性。
Data Integration:全領域資料匯聚
DataWorks的Data Integration功能模組是穩定高效、Auto Scaling的資料同步平台,致力於提供複雜網路環境下、豐富的異構資料來源之間高速穩定的資料移動及同步能力。
功能概述
DataWorks的Data Integration支援離線同步、即時同步以及離線即時一體化的全增量同步處理。其中:
離線同步情境下,支援設定離線同步任務的調度周期。
支援關係型資料庫、數倉、非關係型資料庫、檔案儲存體、訊息佇列等50多種不同異構資料來源之間的資料同步。
支援在各類複雜網路環境下,連通資料來源的網路解決方案,無論資料來源在公網、IDC還是VPC內,均可使用DataWorksData Integration實現網路連通。
支援安全控制與營運監控,保障資料同步的安全、可控。
核心技術與架構
引擎架構:採用星形引擎架構,資料來源接入Data Integration後,即可與其他各類型資料來源組成同步鏈路進行資料同步。當前支援的資料來源請參見支援的資料來源及同步方案。

Data Integration資源群組與網路連通:進行資料同步前,通過合適的網路連通方案將資料來源和資源群組間的網路連通。當前僅支援使用Serverless資源群組(推薦)和舊版獨享Data Integration資源群組運行Data Integration任務,網路連通方案詳情請參見網路連通方案。

適用情境
DataWorksData Integration適用於資料入湖入倉、分庫分表、即時資料歸檔、雲間資料流轉等資料轉送情境。
資料開發與營運中心:資料加工
DataWorks的資料開發(DataStudio)是資料加工的開發平台,營運中心是智能營運平台,基於這兩個功能模組,您可在DataWorks上規範、高效地構建和營運資料開發工作流程。
功能概述
DataWorks的資料開發的亮點功能如下:
DataStudio支援MaxCompute、E-MapReduce、CDH、Hologres、AnalyticDB、ClickHouse等多種計算引擎,支援在統一的平台上進行各類引擎任務的開發、測試、發布和營運等操作。
DataStudio支援智能編輯器、可視化依賴編排,調度能力經過阿里集團內調度任務、複雜業務依賴的反覆驗證。
DataStudio提供隔離的開發和生產環境,結合版本管理、程式碼檢閱、煙霧測試 (Smoke Test)、發布管控、Action Trail等配套功能,協助企業規範地完成資料開發。
營運中心支援資料時效性保障、任務診斷、影響分析、自動營運、移動營運等功能。
核心技術與架構
高效、規範的開發流程
說明DataWorks提供標準模式的工作空間,可隔離開發環境與生產環境,標準模式的詳細介紹可參見工作空間模式區別。
可視化的開發介面:支援通過拖拉拽的方式構建任務流程,在統一的介面進行資料開發和調度配置。
任務監控與定位處理
資料建模:智能資料建模
智能資料建模是阿里雲DataWorks自主研發的智能資料建模產品,沉澱了阿里巴巴十多年來數倉建模方法論的最佳實務,包含數倉規劃、資料標準、維度建模及資料指標四大模組,協助企業在搭建資料中台、資料集市建設過程中提升建模及逆向建模的能力,並通過資料建模快速構建企業資料資產。
功能概述
智能資料建模產品包含數倉規劃、資料標準、維度建模、資料指標四大模組。
數倉規劃:數倉規劃支援數倉分層、資料域、資料集市等的規劃,支援設定模型設計空間,不同部門可共用一套資料標準和資料模型。
資料標準:資料標準欄位標準、標準代碼、度量單位、命名詞典的定義,支援標準代碼自動產生品質規則,落標檢查不再難。
維度建模:維度建模支援逆向建模,解決現有數倉的建模冷啟動難題,支援可視化數倉維度建模,支援通過Excel檔案匯入模型和通過FML(一種類SQL的DSL)快速構建模型,支援與資料開發DataStudio無縫打通,自動產生ETL代碼。
資料指標:資料指標支援原子指標、派生指標的定義與構建,與維度建模無縫打通,可根據原子指標和不同維度大量建立派生指標。
核心技術與架構
適用情境
DataWorks智能建模可助力企業構建自身建模能力,挖掘企業的資料資產價值,例如:
海量資料的標準化管理
企業業務越龐巨量資料結構就越複雜,企業資料量會隨著企業業務的快速發展而迅速增長,如何結構化有序地管理和儲存資料是每個企業都將面臨的一個挑戰。
業務資料互聯互連,打破資訊壁壘
公司內部各業務、各部門之間資料獨立自主形成了資料孤島,導致決策層無法清晰、快速地瞭解公司各類資料情況。如何打破部門或業務領域之間的資訊孤島是企業資料管理的一大難題。
資料標準整合,統一靈活對接
同一資料不同描述,企業資料管理難、內容重複、結果不準確。如何制定統一的資料標準又不打破原有的系統架構,實現靈活對接上下遊業務,是標準化管理的核心重點之一。
資料價值最大化,企業利潤最大化
在最大程度上用好企業各類資料,使企業資料價值最大化,為企業提供更高效的資料服務。
資料分析:即時快速分析
資料分析基於“人人都是資料分析師”的目標,旨在為更多非專業資料開發人員,如資料分析、產品、營運等工作人員提供更加簡潔高效的取數、用數工具,提升大家日常取數分析效率。
功能概述
資料分析支援基於個人視角的資料上傳、公用資料集、表搜尋與收藏、線上SQL取數、SQL檔案分享權限設定、SQL查詢結果下載及用試算表進行大螢幕資料查看等產品功能。
適用情境
適合更多非專業資料開發人員,如資料分析、產品、營運等工作人員進行高效、海量、流動、安全地資料分析工作。
海量:藉助計算引擎的能力,可以高效分析全量、海量的資料。
流動:線上資料分析可以從不同業務系統的資料庫擷取資料進行分析。DataWorks資料分析支援匯出資料為MaxCompute表,或分享結果資料至指定成員,並賦予其許可權。資料可以在不同的系統和人員之間流動。
安全:所有SQL查詢、SQL結果下載等功能的操作都可以接入安全審計。
資料品質:全流程的品質監控
DataWorks的全流程資料品質監控功能為您提供30多種預設表層級、欄位層級和自訂的監控模板。資料品質協助您第一時間感知到源端資料的變更與ETL(Extract Transformation Load)中產生的髒資料,自動攔截問題任務,有效阻斷髒資料向下遊蔓延。
ETL是抽取、轉換和載入源端資料至目的端的過程。
資料品質以資料集(DataSet)為監控對象,支援監控MaxCompute等多種引擎資料表。當離線資料發生變化時,資料品質會對資料進行校正,並阻塞生產鏈路,以避免問題資料汙染擴散。同時,資料品質提供歷史校正結果的管理,以便您對資料品質進行分析和定級。詳情請參見資料品質。
資料品質為您解決以下問題:
資料庫頻繁變更問題。
業務頻繁變化問題。
資料定義問題。
業務系統的髒資料問題。
系統互動導致品質問題。
資料訂正引發的問題。
資料倉儲自身導致的品質問題。
資料地圖:統一管理,跟蹤血緣
DataWorks的資料地圖功能可以協助您實現對資料的統一管理和血緣的跟蹤。資料地圖以資料搜尋為基礎,提供表使用說明、資料類目、資料血緣、欄位血緣等工具,協助資料表的使用者和擁有者更好地管理資料、協作開發。
資料服務:低成本快速發布API
DataWorks的資料服務功能模組是靈活輕量、安全穩定的資料API構建平台,旨在為企業提供全面的資料共用能力,協助使用者從發布審批、授權管控、調用計量、資源隔離等方面實現資料價值輸出及共用開放。
功能概述
作為資料倉儲與上層應用系統間的“橋樑”,DataWorks資料服務為企業搭建統一的服務匯流排,協助企業統一建立及管理對內、對外的API服務,解決數倉、資料庫與資料應用間的“最後一公裡”,加速資料的流動和共用。
資料服務支援通過零代碼或自助SQL的雙模式,將各類資料來源下的資料表產生資料API,同時支援Function Compute來輔助加工API的請求參數及返回結果。
資料服務採用Serverless架構,使用者無需關心運行環境等基礎設施,即可將API服務一鍵發布至API Gateway。
核心技術與架構
資料服務採用Serverless架構,您只需要關注API本身的查詢邏輯,無需關心運行環境等基礎設施,資料服務會為您準備好計算資源,並支援彈性擴充,零營運成本。
開放平台:能力全面開放
DataWorks開放平台是DataWorks對外提供資料和能力的開放通道。DataWorks開放平台提供開放API(OpenAPI)、開放事件(OpenEvent)、擴充程式(Extensions)的能力,可以協助您快速實現各類應用系統對接DataWorks、方便快捷的進行資料流程管控、資料治理和營運,及時響應應用系統對接DataWorks的業務狀態變化。
功能概述
DataWorks開放平台提供開放API(OpenAPI)、開放事件(OpenEvent)、擴充程式(Extensions)等能力。
開放API(OpenAPI):通過OpenAPI可以實現您的自有應用與DataWorks的深度整合,例如實現大量建立任務、發布任務、營運任務等,提升您的巨量資料處理效率,減少人工操作成本。
關於OpenAPI功能,具體請參見開放API(OpenAPI)。
開放事件(OpenEvent):通過OpenEvent可以允許您訂閱DataWorks中的系統事件,即時擷取並響應事件變化,例如訂閱表變更事件實現對核心表的即時監控,訂閱任務變更事件實現自訂即時任務監控大屏。
關於開放事件功能,具體請參見開放事件。
擴充程式(Extensions):Extensions則是將OpenAPI和OpenEvent有機結合起來的服務級外掛程式,通過Extensions允許您對DataWorks中的流程式控制制進行自訂,例如您可以自訂任務發布管控外掛程式,從而對不符合規範和要求的任務進行攔截。
關於擴充程式功能,具體請參見擴充程式。
適用情境
DataWorks開放平台提供了全面的開放能力,可以實現深度的系統整合、自動化操作、流程定義、業務監控等,歡迎廣大使用者及夥伴,基於DataWorks的開放平台來實現行業化、情境化的資料應用和外掛程式。
遷移助手與遷雲端服務
DataWorks遷移助手支援將開源調度引擎的作業遷移至DataWorks,支援作業跨雲、跨Region、跨帳號遷移,實現DataWorks作業快速複製部署,同時DataWorks團隊聯合巨量資料專家服務團隊,上線遷雲端服務,協助您快速實現資料與任務的上雲。
功能概述
遷移助手與遷雲端服務主要功能包括:
任務上雲:實現將開源調度引擎的作業搬遷至DataWorks上。
DataWorks遷移:實現DataWorks體系內的開發成果互相遷移。
適用情境
主要適用於:
任務上雲:開源調度引擎的作業搬遷至DataWorks上。
備份任務:使用者可通過遷移助手定期備份任務代碼,減少誤刪專案帶來的損失。
業務快速複製:使用者可抽象出通用業務,通過遷移助手匯出匯入的方式快速複製。
快速建立測試環境:通過遷移助手全量複製業務代碼,只需修改生產資料庫的資料輸入為測試資料,可快速搭建測試環境。
跨雲開發:支援公用雲的DataWorks和私人雲端的DataWorks之間進行互導,達到協同開發。