本教程以簡單的使用者Portrait analysis為例,帶您瞭解DataWorks和EMR如何配合使用完成資料同步、資料開發和任務營運等操作。您可以通過本文瞭解實驗背景、工作流程設計、模組及實驗相關資料等資訊,方便順利完成教程操作。
實驗設計
實驗背景
為了更好地制定企業經營策略,現需要從使用者網站行為中擷取網站使用者群體基本畫像資料,例如,使用者群體地理屬性、社會屬性等,實現定時定點進行Portrait analysis,進而實現網站流量精細化營運操作,通過DataWorks線上學習的方式完成以下情境。
同步資料。
加工資料。
管理資料。
消費資料。
工作流程設計
在本實驗中,您將根據DataWorks和EMR產品組合完成使用者Portrait analysis,具體的流程步驟如下。
通過Data Integration擷取不同資料來源中的使用者基本資料資料和使用者訪問日誌資訊至引擎中。
在引擎中將擷取到的日誌資料通過加工拆解為可分析的欄位。
在引擎中將使用者基本資料和初步加工後的日誌資料進行匯總加工。
進一步加工產出基本使用者畫像。
涉及模組
本實驗涉及的DataWorks模組如下。
步驟 | 操作內容 | 階段性目標 |
同步資料 | 對儲存在MySQL中的使用者資訊資料及儲存在OSS中使用者訪問日誌資料配置同步鏈路同步至EMR。 | 學習如下內容:
|
加工資料 | 使用資料開發(DataStudio)(舊版)模組,將日誌資料通過函數、正則等方式拆解為可分析欄位,並與使用者資訊表加工匯總產出基本的使用者畫像資料。 | 學習如下內容:
|
資料品質監控 | 資料品質提供對調度任務產出的表資料的品質監控能力,您可以通過配置表的品質監控規則實現對錶資料的監控。 | 學習如何基於DataWorks為任務產出的表,配置資料品質的監控規則,以保證快速感知源端資料的變更過程中產生的髒資料,有效阻斷髒資料向下遊蔓延。 |
實驗資料
實驗日誌資料結構
實際操作前,請先瞭解該專案背景下企業已有的業務資料及其資料格式,以及業務背景分析需要的目標使用者畫像基本結構。
以下為OSS中儲存的
user_log.txt檔案未經處理資料。$remote_addr - $remote_user [$time_local] "$request" $status $body_bytes_sent"$http_referer" "$http_user_agent" [unknown_content];可根據原始日誌資料擷取到如下有效資訊。
欄位名稱
欄位說明
$remote_addr
發送請求的用戶端IP地址。
$remote_user
用戶端登入名稱。
$time_local
伺服器本地時間。
$request
請求,包括HTTP請求類型+請求URL+HTTP協議版本號碼。
$status
服務端返回狀態代碼。
$body_bytes_sent
返回給用戶端的位元組數(不含header)。
$http_referer
該請求的來源URL。
$http_user_agent
發送請求的用戶端資訊,如使用的瀏覽器等。
實驗使用者資訊資料結構
MySQL使用者資訊資料結構(ods_user_info_d)
欄位名稱 | 欄位說明 |
uid | 使用者名稱 |
gender | 性別 |
age_range | 年齡分段 |
zodiac | 星座 |
實驗目標資料結構
根據未經處理資料分析可獲得的有效資料,並基於業務需求確認最終資料表結構。
欄位名稱 | 欄位說明 |
uid | 使用者名稱 |
region | 地區 |
device | 終端類型 |
pv | 瀏覽量 |
gender | 性別 |
age_range | 年齡分段 |
Zodiac | 星座 |
更多操作
操作 | 描述 | 文檔 |
中繼資料管理 | 通過資料地圖概述模組,對源端表資料進行中繼資料管理與查看。 | |
消費資料 |