全部產品
Search
文件中心

E-MapReduce:通過DataWorks on EMR實現使用者Portrait analysis

更新時間:Feb 21, 2025

通過本教程,您可以瞭解如何使用DataWorks和EMR產品組合進行數倉開發和分析,並通過使用者Portrait analysis案例體驗DataWorks在Data Integration、資料開發和營運中心模組方面的相關能力。

實驗介紹

為了更好地制定企業經營策略,現需要從使用者網站行為中擷取網站使用者群體基本畫像資料,例如,使用者群體的地理屬性、社會屬性等,實現定時定點進行Portrait analysis,進而實現網站流量精細化營運操作。您可以通過DataWorks和EMR產品組合完成資料同步、資料加工、資料管理和資料消費。

說明

為了順利進行教程操作,請您務必閱讀實驗介紹,充分瞭解使用者Portrait analysis實驗整體流程。

操作流程

  1. 步驟一:準備環境

    建立教程所需的EMR叢集、DataWorks工作空間,並完成相關的環境配置。

  2. 步驟二:同步資料

    在DataWorks配置資料同步鏈路,將教程提供的使用者資訊和網站日誌資料同步到OSS資料來源,並通過EMR Hive節點建表查詢同步後的資料。

  3. 步驟三:加工資料

    通過DataWorks的EMR Hive節點,對同步到OSS的使用者資訊表和訪問日誌資料表中的資料進行加工,得到目標使用者畫像資料。

  4. 步驟四:配置資料品質監控

    以資料加工產生的表dwd_log_info_di_emr為例,介紹如何在DataWorks配置資料品質監控。

常見問題

在DataWorks控制台綁定E-MapReduce時找不到叢集,怎麼處理?

請確認要綁定的叢集是否滿足DataWorks支援的叢集類型,並確認在DataWorks控制台綁定E-MapReduce的使用限制及前提條件,具體可參見註冊EMR叢集至DataWorks。其中DataWorks當前不支援執行EMR的Flink任務,且不支援DataFlow叢集類型,如果您需要調度Flink任務,您可以通過EMR Workflow調度Flink任務。關於EMR Workflow和Realtime ComputeFlink版,可參見什麼是EMR Workflow什麼是阿里雲Realtime ComputeFlink版