すべてのプロダクト
Search
ドキュメントセンター

E-MapReduce:実験の概要

最終更新日:Mar 08, 2025

このトピックでは、簡単なユーザープロファイル分析実験を通して、DataWorks と E-MapReduce(EMR)を使用してデータを同期し、データを開発し、ノードで O&M を実行する方法について説明します。 このトピックでは、実験の背景情報、ワークフロー設計、実験に関連する DataWorks サービス、および実験データについて学習できます。

実験設計

背景情報

企業がより適切な運用戦略を策定できるように、Web サイトでのユーザーの行動から、ユーザーの地理的属性や社会的属性などの基本的なユーザープロファイルデータを取得し、定期的にユーザープロファイル分析を実行する必要があります。 これにより、Web サイトのトラフィックに対してきめ細かい操作を実行できます。 これを行うには、DataWorks を使用して次の操作を実行する必要があります。

  • データを同期する。

  • データを処理する。

  • データを管理する。

  • データを使用する。

ワークフロー設計

この実験では、DataWorks と EMR を使用してユーザープロファイル分析を完了できます。 手順には、次のステップが含まれます。

  1. [Data Integration] で、さまざまなデータソースから基本的なユーザー情報と Web サイトアクセスログをコンピューティングエンジンに抽出します。

  2. コンピューティングエンジン内の Web サイトアクセスログを処理および分割して、分析可能なフィールドにします。

  3. コンピューティングエンジン内の基本的なユーザー情報と処理済みの Web サイトアクセスログを集計します。

  4. データをさらに処理して、基本的なユーザープロファイルを作成します。

関連する DataWorks サービス

次の表に、実験の各ステップでのさまざまな DataWorks サービスの使用法を示します。

ステップ

操作

フェーズ固有の目的

データを同期する

[同期ノード] を設定して、ApsaraDB RDS for MySQL に保存されている基本的なユーザー情報と、Object Storage Service(OSS)に保存されているユーザーの Web サイトアクセスログを EMR に同期します。

次の操作を実行する方法を学びます。

  • さまざまなデータソースから EMR にデータを同期する。

  • 関連するデータソースのテーブルを作成する。

  • ノードをすばやくトリガーする。

  • ノードログを表示する。

データを処理する

[DataStudio] で、関数や正規表現などのメソッドを使用して、Web サイトアクセスログを分析可能なフィールドに分割し、処理済みの Web サイトアクセスログと基本的なユーザー情報を集計して、基本的なユーザープロファイルを作成します。

次の操作を実行する方法を学びます。

  • DataWorks ワークフローでノードを作成および設定する。

  • ワークフローを実行する。

データ品質監視ルールを設定する

[Data Quality] を使用すると、[スケジューリングノード] によって生成されたテーブル内のデータの品質を監視できます。 テーブルの監視ルールを設定して、テーブル内のデータの品質を監視できます。

DataWorks ノードによって生成されたテーブルのデータ品質監視ルールを設定して、ソースデータの変更中に生成されたダーティデータをすばやく識別し、ダーティデータが[子孫ノード] に影響を与えるのを防ぎます。

実験データ

実験のログデータの構造

この実験の操作を実行する前に、既存のビジネスデータ、データ形式、およびビジネスの背景分析に必要な基本的なユーザープロファイルデータ構造をよく理解していることを確認してください。

  • 次のコードは、OSS オブジェクト user_log.txt に保存されている生のログデータを示しています。

    $remote_addr - $remote_user [$time_local] "$request" $status $body_bytes_sent"$http_referer" "$http_user_agent" [unknown_content];

    次の表に、生のログデータから取得した有効な情報を示します。

    フィールド

    説明

    $remote_addr

    リクエストを送信するクライアントの IP アドレス。

    $remote_user

    クライアントにログインするために使用されるユーザー名。

    $time_local

    サーバーのローカル時間。

    $request

    リクエストタイプ、リクエスト URL、HTTP バージョン番号を含む HTTP リクエスト。

    $status

    サーバーから返される状態コード。

    $body_bytes_sent

    クライアントに返されるバイト数。ヘッダーのバイト数は含まれません。

    $http_referer

    リクエストのソース URL。

    $http_user_agent

    使用されているブラウザなど、リクエストを送信するクライアントに関する情報。

実験のユーザー情報データの構造

ApsaraDB RDS for MySQL に保存されているユーザー情報データの構造(ods_user_info_d

フィールド

説明

uid

ユーザーの名前。

gender

性別。

age_range

年齢層。

zodiac

星座。

実験で取得した最終データの構造

生のデータを分析し、ビジネス要件に基づいて取得した有効なデータに基づいて、次の表に示すように、最終データテーブルのスキーマを確認します。

フィールド

説明

uid

ユーザーの名前。

region

地域。

device

端末タイプ。

pv

ページビュー数。

gender

性別。

age_range

年齢層。

Zodiac

星座。

次のステップ

操作

説明

参照

メタデータを管理する

[データマップ] で、[ソーステーブル] のメタデータを表示および管理します。

詳細については、「データを管理する」をご参照ください。

データを使用する

  • [データ分析] で、SQL 文を実行して、最終結果テーブルのデータのクエリと分析を実行します。 最終結果テーブルでユーザープロファイル分析を実行します。 たとえば、ユーザーの地理的分布や登録ユーザー数による都市のランキングを分析できます。

  • [DataService Studio] の API 機能を使用して、最終結果テーブルに基づいて API を作成します。