このトピックでは、簡単なユーザープロファイル分析実験を通して、DataWorks と E-MapReduce(EMR)を使用してデータを同期し、データを開発し、ノードで O&M を実行する方法について説明します。 このトピックでは、実験の背景情報、ワークフロー設計、実験に関連する DataWorks サービス、および実験データについて学習できます。
実験設計
背景情報
企業がより適切な運用戦略を策定できるように、Web サイトでのユーザーの行動から、ユーザーの地理的属性や社会的属性などの基本的なユーザープロファイルデータを取得し、定期的にユーザープロファイル分析を実行する必要があります。 これにより、Web サイトのトラフィックに対してきめ細かい操作を実行できます。 これを行うには、DataWorks を使用して次の操作を実行する必要があります。
データを同期する。
データを処理する。
データを管理する。
データを使用する。
ワークフロー設計
この実験では、DataWorks と EMR を使用してユーザープロファイル分析を完了できます。 手順には、次のステップが含まれます。
[Data Integration] で、さまざまなデータソースから基本的なユーザー情報と Web サイトアクセスログをコンピューティングエンジンに抽出します。
コンピューティングエンジン内の Web サイトアクセスログを処理および分割して、分析可能なフィールドにします。
コンピューティングエンジン内の基本的なユーザー情報と処理済みの Web サイトアクセスログを集計します。
データをさらに処理して、基本的なユーザープロファイルを作成します。
関連する DataWorks サービス
次の表に、実験の各ステップでのさまざまな DataWorks サービスの使用法を示します。
ステップ | 操作 | フェーズ固有の目的 |
データを同期する | [同期ノード] を設定して、ApsaraDB RDS for MySQL に保存されている基本的なユーザー情報と、Object Storage Service(OSS)に保存されているユーザーの Web サイトアクセスログを EMR に同期します。 | 次の操作を実行する方法を学びます。
|
データを処理する | [DataStudio] で、関数や正規表現などのメソッドを使用して、Web サイトアクセスログを分析可能なフィールドに分割し、処理済みの Web サイトアクセスログと基本的なユーザー情報を集計して、基本的なユーザープロファイルを作成します。 | 次の操作を実行する方法を学びます。
|
データ品質監視ルールを設定する | [Data Quality] を使用すると、[スケジューリングノード] によって生成されたテーブル内のデータの品質を監視できます。 テーブルの監視ルールを設定して、テーブル内のデータの品質を監視できます。 | DataWorks ノードによって生成されたテーブルのデータ品質監視ルールを設定して、ソースデータの変更中に生成されたダーティデータをすばやく識別し、ダーティデータが[子孫ノード] に影響を与えるのを防ぎます。 |
実験データ
実験のログデータの構造
この実験の操作を実行する前に、既存のビジネスデータ、データ形式、およびビジネスの背景分析に必要な基本的なユーザープロファイルデータ構造をよく理解していることを確認してください。
次のコードは、OSS オブジェクト
user_log.txtに保存されている生のログデータを示しています。$remote_addr - $remote_user [$time_local] "$request" $status $body_bytes_sent"$http_referer" "$http_user_agent" [unknown_content];次の表に、生のログデータから取得した有効な情報を示します。
フィールド
説明
$remote_addr
リクエストを送信するクライアントの IP アドレス。
$remote_user
クライアントにログインするために使用されるユーザー名。
$time_local
サーバーのローカル時間。
$request
リクエストタイプ、リクエスト URL、HTTP バージョン番号を含む HTTP リクエスト。
$status
サーバーから返される状態コード。
$body_bytes_sent
クライアントに返されるバイト数。ヘッダーのバイト数は含まれません。
$http_referer
リクエストのソース URL。
$http_user_agent
使用されているブラウザなど、リクエストを送信するクライアントに関する情報。
実験のユーザー情報データの構造
ApsaraDB RDS for MySQL に保存されているユーザー情報データの構造(ods_user_info_d)
フィールド | 説明 |
uid | ユーザーの名前。 |
gender | 性別。 |
age_range | 年齢層。 |
zodiac | 星座。 |
実験で取得した最終データの構造
生のデータを分析し、ビジネス要件に基づいて取得した有効なデータに基づいて、次の表に示すように、最終データテーブルのスキーマを確認します。
フィールド | 説明 |
uid | ユーザーの名前。 |
region | 地域。 |
device | 端末タイプ。 |
pv | ページビュー数。 |
gender | 性別。 |
age_range | 年齢層。 |
Zodiac | 星座。 |
次のステップ
操作 | 説明 | 参照 |
メタデータを管理する | [データマップ] で、[ソーステーブル] のメタデータを表示および管理します。 | 詳細については、「データを管理する」をご参照ください。 |
データを使用する |
|