全部產品
Search
文件中心

E-MapReduce:實驗介紹

更新時間:Feb 21, 2025

本教程以簡單的使用者Portrait analysis為例,帶您瞭解DataWorks和EMR如何配合使用完成資料同步、資料開發和任務營運等操作。您可以通過本文瞭解實驗背景、工作流程設計、模組及實驗相關資料等資訊,方便順利完成教程操作。

實驗設計

實驗背景

為了更好地制定企業經營策略,現需要從使用者網站行為中擷取網站使用者群體基本畫像資料,例如,使用者群體地理屬性、社會屬性等,實現定時定點進行Portrait analysis,進而實現網站流量精細化營運操作,通過DataWorks線上學習的方式完成以下情境。

  • 同步資料。

  • 加工資料。

  • 管理資料。

  • 消費資料。

工作流程設計

在本實驗中,您將根據DataWorks和EMR產品組合完成使用者Portrait analysis,具體的流程步驟如下。

  1. 通過Data Integration擷取不同資料來源中的使用者基本資料資料和使用者訪問日誌資訊至引擎中。

  2. 在引擎中將擷取到的日誌資料通過加工拆解為可分析的欄位。

  3. 在引擎中將使用者基本資料和初步加工後的日誌資料進行匯總加工。

  4. 進一步加工產出基本使用者畫像。

涉及模組

本實驗涉及的DataWorks模組如下。

步驟

操作內容

階段性目標

同步資料

對儲存在MySQL中的使用者資訊資料及儲存在OSS中使用者訪問日誌資料配置同步鏈路同步至EMR。

學習如下內容:

  • 如何將不同資料來源資料同步到EMR。

  • 如何建立對應資料來源的表。

  • 如何快速觸發任務運行。

  • 如何查看任務日誌。

加工資料

使用資料開發(DataStudio)(舊版)模組,將日誌資料通過函數、正則等方式拆解為可分析欄位,並與使用者資訊表加工匯總產出基本的使用者畫像資料。

學習如下內容:

  • 如何基於DataWorks建立並配置資料流程節點。

  • 如何運行工作流程。

資料品質監控

資料品質提供對調度任務產出的表資料的品質監控能力,您可以通過配置表的品質監控規則實現對錶資料的監控。

學習如何基於DataWorks為任務產出的表,配置資料品質的監控規則,以保證快速感知源端資料的變更過程中產生的髒資料,有效阻斷髒資料向下遊蔓延。

實驗資料

實驗日誌資料結構

實際操作前,請先瞭解該專案背景下企業已有的業務資料及其資料格式,以及業務背景分析需要的目標使用者畫像基本結構。

  • 以下為OSS中儲存的user_log.txt檔案未經處理資料。

    $remote_addr - $remote_user [$time_local] "$request" $status $body_bytes_sent"$http_referer" "$http_user_agent" [unknown_content];

    可根據原始日誌資料擷取到如下有效資訊。

    欄位名稱

    欄位說明

    $remote_addr

    發送請求的用戶端IP地址。

    $remote_user

    用戶端登入名稱。

    $time_local

    伺服器本地時間。

    $request

    請求,包括HTTP請求類型+請求URL+HTTP協議版本號碼。

    $status

    服務端返回狀態代碼。

    $body_bytes_sent

    返回給用戶端的位元組數(不含header)。

    $http_referer

    該請求的來源URL。

    $http_user_agent

    發送請求的用戶端資訊,如使用的瀏覽器等。

實驗使用者資訊資料結構

MySQL使用者資訊資料結構(ods_user_info_d

欄位名稱

欄位說明

uid

使用者名稱

gender

性別

age_range

年齡分段

zodiac

星座

實驗目標資料結構

根據未經處理資料分析可獲得的有效資料,並基於業務需求確認最終資料表結構。

欄位名稱

欄位說明

uid

使用者名稱

region

地區

device

終端類型

pv

瀏覽量

gender

性別

age_range

年齡分段

Zodiac

星座

更多操作

操作

描述

文檔

中繼資料管理

通過資料地圖概述模組,對源端表資料進行中繼資料管理與查看。

管理資料

消費資料

  • 通過資料分析模組對最終結果表進行SQL查詢分析。對最終結果表進行使用者Portrait analysis。例如,訪問使用者中地區分布分析、城市註冊人數熱門排行榜分析。

  • 通過資料服務API模組,將最終結果表建立為API服務。