全部產品
Search
文件中心

DataWorks:使用舊版資料開發體驗

更新時間:Oct 28, 2025

通過本教程,您可以瞭解如何使用DataWorks和EMR產品組合進行巨量資料開發和分析,並通過使用者Portrait analysis案例體驗DataWorks在Data Integration、資料開發和營運中心模組方面的相關能力。

案例介紹

為了更好地制定企業經營策略,現需要從使用者網站行為中擷取網站使用者群體基本畫像資料,例如,使用者群體的地理屬性、社會屬性等,實現定時定點進行Portrait analysis,進而實現網站流量精細化營運操作。您可以通過DataWorks和EMR產品組合完成資料同步、資料加工、資料管理和資料消費等操作。

說明

為了順利進行教程操作,請您務必閱讀案例目標與設計,充分瞭解使用者Portrait analysis案例整體流程。

資料開發平台

本案例使用DataWorks的舊版資料開發(DataStudio)平台,請確保您的工作空間使用新版資料開發(Data Studio)

  • 建立工作空間時,不選擇使用新版資料開發(Data Studio)

  • 2025年02月18日後,主帳號在如下地區首次開通DataWorks並建立工作空間時,預設啟用新版資料開發。如您已預設啟用了新版資料開發,具體教程請參見使用新版資料開發體驗

    華東1(杭州)、華東2(上海)、華北2(北京)、華北3(張家口)、華北6(烏蘭察布)、華南1(深圳)、西南1(成都)、中國香港、日本(東京)、新加坡、馬來西亞(吉隆坡)、印尼(雅加達)、泰國(曼穀)、德國(法蘭克福)、英國(倫敦)、美國(矽谷)、美國(維吉尼亞)

操作步驟

  1. 準備環境

    建立教程所需的EMR叢集、DataWorks工作空間,並完成相關的資源群組網路設定。

  2. 同步資料

    在DataWorks中配置資料同步鏈路,將教程提供的使用者資訊和網站日誌資料同步到OSS儲存。基於建立EMR外部表格解析OSS儲存資料的方式,將資料同步到綁定的EMR計算資源,並查詢同步後的資料。

  3. 加工資料

    通過DataWorks的EMR Hive節點,對同步到EMR的使用者資訊表和訪問日誌資料表中的資料進行加工,得到目標使用者畫像資料。

  4. 監控資料品質

    為資料加工產生的表配置資料品質監控,提前識別髒資料並進行攔截,避免髒資料影響擴大。

  5. 管理資料

    使用者Portrait analysis任務流程完成後,在EMR內將建立對應資料表。您可通過資料地圖查看資料表之間的血緣關係。

  6. 消費資料

    使用者Portrait analysis完成後,使用資料分析模組,將加工後的資料視覺效果展現,便於您快速提取關鍵資訊,洞察資料背後的業務趨勢。