このトピックでは、データウェアハウスの開発と分析に DataWorks と E-MapReduce (EMR) の組み合わせを使用する方法について説明します。 また、Data Integration、Data Studio、オペレーションセンターなどの DataWorks サービスの機能を体験できるユーザープロファイル分析のケーススタディも提供します。
実験の概要
効果的なビジネス管理戦略を開発するには、Web サイトでのアクティビティに基づいて、Web サイトユーザーの基本的なプロファイルデータを取得する必要があります。 基本的なプロファイルデータには、Web サイトユーザーの地理的属性と社会的属性が含まれます。 プロファイルデータを時間と場所別に分析することで、Web サイトトラフィックのきめ細かな運用が可能になります。 DataWorks と EMR の組み合わせを使用して、データ同期、データ処理、データ管理、データ消費を完了できます。
ユーザープロファイル分析実験のプロセス全体を深く理解するには、「実験の概要」をお読みください。 これにより、このチュートリアルを完了できます。
手順
ステップ 1:環境を準備する
チュートリアルに必要な EMR クラスタと DataWorks ワークスペースを作成し、環境を設定します。
ステップ 2:データを同期する
DataWorks でデータ同期タスクを設定して、チュートリアルで提供される基本的なユーザー情報と Web サイトアクセスログを Object Storage Service (OSS) データソースに同期し、EMR Hive ノードを使用してテーブルを作成して同期されたデータに対してクエリを実行します。
ステップ 3:データを処理する
DataWorks の EMR Hive ノードを使用して、OSS に同期された基本的なユーザー情報テーブルとアクセスログテーブルのデータを処理し、目的のユーザープロファイルデータを取得します。
ステップ 4:モニターを設定する
DataWorks Data Quality で、同期されたデータの処理後に生成される dwd_log_info_di_emr テーブルのモニターを設定します。