DataWorks基於MaxCompute、Hologres、EMR、AnalyticDB、CDP等巨量資料引擎,為資料倉儲、資料湖、湖倉一體等解決方案提供統一的全鏈路巨量資料開發治理平台。本文以DataWorks的部分核心功能為例,指導您使用DataWorks接入資料並進行業務處理、周期調度以及資料視覺效果。
入門簡介
本教程以電商情境為例,示範如何構建從未經處理資料接入→資料分析計算→可視化輸出的完整資料管道,通過標準化的開發流程,快速搭建可複用的資料生產鏈路,保證調度可靠性與營運可觀測性。使業務人員無需深入技術細節即可完成資料價值轉換,降低企業巨量資料應用門檻。
通過本教程,您可以快速完成以下操作。
資料同步:通過DataWorks的Data Integration模組,建立離線同步任務,將業務資料同步至巨量資料計算平台(如MaxCompute)。
資料清洗:在DataWorks的資料開發模組中,對業務資料進行處理、分析和挖掘。
資料展示:在DataWorks的資料分析模組中,將分析結果轉化為圖表,便於業務人員理解。
周期性調度:為資料同步和資料清洗流程配置周期性調度,使其定時執行。

本教程從公開資料來源同步原始商品和訂單資料至MaxCompute中,通過如下資料分析流程,產出每日最暢銷商品類目排名:
前提條件
為確保本教程可以順利進行,推薦使用阿里雲主帳號或具備AliyunDataWorksFullAccess許可權的RAM使用者。具體操作,請參見準備阿里雲帳號(主帳號)或準備RAM使用者(子帳號)。
DataWorks提供了完善的許可權管控機制,支援在產品級與模組層級對許可權進行管控,如果您需要更精細的許可權控制,請參見DataWorks許可權體系功能概述。
準備工作
開通DataWorks
建立工作空間
建立資源群組並綁定工作空間
為資源群組開通公網
建立並綁定MaxCompute計算資源
操作步驟
本文以如下情境為例,指導您快速體驗DataWorks的相關功能:
假設某一電商平台將商品資訊、訂單資訊儲存在MySQL資料庫中,需要定期對訂單資料進行分析,通過可視化的方式查看每日最暢銷商品類目排名表。
一、資料同步
建立資料來源
DataWorks通過建立資料來源的方式,接入資料來源和資料去向,本步驟需要建立MySQL資料來源,用於串連資料來源(儲存業務資料的MySQL資料庫),為本教程提供原始業務資料。
您無需準備本教程使用的原始業務資料,為方便測試和學習,DataWorks為您提供測試資料集,相關表資料已儲存在公網MySQL資料庫中,您只需建立MySQL資料來源接入即可。
前往DataWorks管理中心頁,切換至華東2(上海)地區,在下拉框中選擇已建立的工作空間後,單擊進入管理中心。
在左側導覽列單擊資料來源,進入資料來源列表頁,單擊新增資料來源,選擇MySQL類型,配置MySQL資料來源相關參數。
說明表中未說明的參數保持預設值即可。
首次新增資料來源時,需要完成跨服務授權,請根據頁面提示,授權服務關聯角色AliyunDIDefaultRole。
參數
描述
資料來源名稱
本樣本為MySQL_Source。
配置模式
選擇串連串模式。
串連地址
主機地址IP:
rm-bp1z69dodhh85z9qa.mysql.rds.aliyuncs.com連接埠號碼:
3306。
重要本教程提供的資料僅作為阿里雲巨量資料開發治理平台 DataWorks資料應用實操使用,所有資料均為測試資料,並且僅支援在Data Integration模組讀取資料。
資料庫名稱
配置為
retail_e_commerce。使用者名稱
輸入使用者名稱
workshop。密碼
輸入密碼
workshop#2017。在串連配置地區,切換至Data Integration頁簽,找到工作空間已綁定的資源群組,單擊連通狀態列的測試連通性。
說明如果MySQL資料來源連通性測試失敗,請進行以下操作:
完成連通性診斷工具後續操作。
請檢查是否為資源群組綁定的VPC配置EIP,MySQL資料來源需要資源群組具備公網訪問能力。詳情請參見為資源群組開通公網。
單擊完成建立。
搭建同步鏈路
本步驟需要搭建同步鏈路,將電商平台商品訂單資料同步至MaxCompute的表中,為後續加工資料做準備。
單擊左上方的
表徵圖,選擇,進入資料開發頁面。在頁面頂部切換至本教程建立好的工作空間,在左側導覽列單擊
,進入資料開發-專案目錄頁面。在專案目錄地區,單擊
,選擇建立工作流程,設定工作流程名稱。本教程設定為dw_quickstart。在工作流程編排頁面,從左側拖拽虛擬節點和離線同步節點至畫布中,分別設定節點名稱。
本教程節點名稱樣本及作用如下:
節點類型
節點名稱
節點作用
虛擬節點workshop用於統籌管理整個使用者Portrait analysis工作流程,可使資料流轉路徑更清晰。該節點為空跑任務,無須編輯代碼。
離線同步節點ods_item_info用於將儲存於MySQL的商品資訊源表
item_info同步至MaxCompute的ods_item_info表。
離線同步節點ods_trade_order用於將儲存於MySQL的訂單資訊源表
trade_order同步至MaxCompute的ods_trade_order表。手動拖拽連線,將
workshop節點設定為兩個離線同步節點的上遊節點。最終效果如下:工作流程調度配置。
在工作流程編排頁面右側單擊調度配置,配置相關參數。以下為本教程所需配置的關鍵參數,未說明參數保持預設即可。
調度配置參數
說明
調度參數
為整個工作流程設定調度參數,工作流程中的內部節點可直接使用。
本教程配置為
bizdate=$[yyyymmdd-1],擷取前一天的日期。說明DataWorks提供的調度參數,可實現代碼動態入參,您可在SQL代碼中通過
${變數名}的方式定義代碼中的變數,並在調度配置 > 調度參數處,為該變數賦值。調度參數支援的格式,詳情請參見調度參數支援的格式。調度周期
本教程配置為
日。調度時間
本教程配置調度時間為
00:30,該工作流程會在每日00:30啟動。周期依賴
工作流程無上遊依賴,可不配置。為了方便統一管理,您可以單擊使用工作空間根節點,將工作流程掛載到工作空間根節點下。
工作空間根節點命名格式為:
工作空間名_root。
配置同步任務
配置初始節點
配置商品資訊同步鏈路(ods_item_info)
配置訂單資料同步鏈路(ods_trade_order)
二、資料清洗
資料從MySQL同步至MaxCompute後,獲得兩張資料表(商品資訊表ods_item_info和訂單資訊表ods_trade_order),您可以在DataWorks的資料開發模組對錶中資料進行清洗、處理和分析,從而擷取每日最暢銷商品類目排名表。
搭建資料加工鏈路
在Data Studio左側導覽列單擊
,進入資料開發頁面,然後在專案目錄地區找到已建立好的工作流程,單擊進入工作流程編排頁,從左側拖拽MaxCompute SQL節點至畫布中,分別設定節點名稱。本教程節點名稱樣本及作用如下:
節點類型
節點名稱
節點作用
MaxCompute SQLdim_item_info基於
ods_item_info表,處理商品維度資料,產出商品基礎資訊維度資料表dim_item_info。
MaxCompute SQLdwd_trade_order基於
ods_trade_order表,對訂單的詳細交易資料進行初步清洗、轉換和商務邏輯處理,產出交易下單明細事實表dwd_trade_order。
MaxCompute SQLdws_daily_category_sales基於
dwd_trade_order表和dim_item_info表,對DWD層經過清洗和標準化的詳細資料進行匯總,產出每日商品類目銷售匯總表dws_daily_category_sales。
MaxCompute SQLads_top_selling_categories基於
dws_daily_category_sales表,產出每日最暢銷商品類目排名表ads_top_selling_categories。手動拖拽連線,配置各節點的上遊節點。最終效果如下:
配置資料加工節點
配置dim_item_info節點
配置dwd_trad_order節點
配置dws_daily_category_sales節點
配置ads_top_selling_categories節點
三、調試運行
工作流程配置完成後,在發布到生產環境前,您需要運行整個工作流程,驗證工作流程的配置是否正確。
在Data Studio左側導覽列單擊
,進入資料開發頁面,然後在專案目錄地區找到已建立好的工作流程。單擊節點工具列的運行,填寫本次運行值為當前日期的前一天(例如
20250416)。說明在工作流程節點配置中,已使用了DataWorks提供的調度參數,實現了代碼動態入參,調試運行時需為該參數賦值常量進行測試。
單擊確定,進入調試運行頁面。
等待運行完成,預期運行結果如下:

四、資料查詢與展示
您已經將從MySQL中擷取的原始測試資料,經過資料開發處理,匯總於表ads_top_selling_categories中,現在可查詢表資料,查看資料分析後的結果。
單擊左上方
表徵圖,在彈出頁面中單擊。在我的檔案後單擊,自訂檔案名稱後單擊確定。
在SQL查詢頁面,配置如下SQL。
SELECT * FROM ads_top_selling_categories WHERE pt=${bizdate};在右上方選擇MaxCompute資料來源後單擊確定。
單擊頂部的運行按鈕,在成本預估頁面,單擊運行。
在查詢結果中單擊
,查看可視化圖表結果,您可以單擊圖表右上方的
自訂圖表樣式。您也可以單擊圖表右上方儲存,將圖表儲存為卡片,然後在左側導覽列單擊卡片(
)查看。
五、周期性調度
通過完成前文操作步驟,您已經擷取了前一天各類商品的銷售資料,但是,如果需要每天擷取最新的銷售資料,則可以將工作流程發布至生產環境,使其周期性定時執行。
在配置資料同步和資料加工時,已同步為工作流程、同步節點以及資料加工節點配置了調度相關參數,此時無需再配置,只需將工作流程發布到生產環境即可。調度配置的更多詳細資料,請參見節點調度配置。
單擊左上方
表徵圖,在彈出頁面中單擊。在Data Studio左側導覽列單擊
,進入資料開發頁面,切換至本案例使用的專案空間,然後在專案目錄地區找到已建立好的工作流程。單擊節點工具列的發布,在發布面板中單擊開始發布生產,等待發布包構建和生產檢查器完成後,單擊確認發布。
發布到生產環境狀態為已完成後,單擊去營運,前往營運中心。

在中即可看到工作流程的周期任務(本教程工作流程命名為
dw_quickstart)。如需查看工作流程內子節點的周期任務詳情,請右鍵工作流程的周期任務,選擇查看內部任務。

預期結果如下:

下一步
本教程中各模組的更多操作細節及參數解釋,請參見Data Integration、資料開發(Data Studio)(新版)、資料分析和節點調度配置。
除本教程介紹的模組外,DataWorks還支援資料建模、資料品質、資料保護傘、資料服務等多個模組,為您提供一站式資料監控與營運。
您還可以體驗更多DataWorks實踐教程,具體內容,請參見更多情境案例/教程。


