EMR 上の DataWorks を使用してユーザープロファイル分析を実行する - E-MapReduce

このトピックでは、データウェアハウスの開発と分析に DataWorks と E-MapReduce (EMR) の組み合わせを使用する方法について説明します。また、Data Integration、Data Studio、オペレーションセンターなどの DataWorks サービスの機能を体験できるユーザープロファイル分析のケーススタディも提供します。

実験の概要

効果的なビジネス管理戦略を開発するには、Web サイトでのアクティビティに基づいて、Web サイトユーザーの基本的なプロファイルデータを取得する必要があります。基本的なプロファイルデータには、Web サイトユーザーの地理的属性と社会的属性が含まれます。プロファイルデータを時間と場所別に分析することで、Web サイトトラフィックのきめ細かな運用が可能になります。 DataWorks と EMR の組み合わせを使用して、データ同期、データ処理、データ管理、データ消費を完了できます。

説明

ユーザープロファイル分析実験のプロセス全体を深く理解するには、「実験の概要」をお読みください。これにより、このチュートリアルを完了できます。

手順

ステップ 1：環境を準備する
チュートリアルに必要な EMR クラスタと DataWorks ワークスペースを作成し、環境を設定します。
ステップ 2：データを同期する
DataWorks でデータ同期タスクを設定して、チュートリアルで提供される基本的なユーザー情報と Web サイトアクセスログを Object Storage Service (OSS) データソースに同期し、EMR Hive ノードを使用してテーブルを作成して同期されたデータに対してクエリを実行します。
ステップ 3：データを処理する
DataWorks の EMR Hive ノードを使用して、OSS に同期された基本的なユーザー情報テーブルとアクセスログテーブルのデータを処理し、目的のユーザープロファイルデータを取得します。
ステップ 4：モニターを設定する
DataWorks Data Quality で、同期されたデータの処理後に生成される dwd_log_info_di_emr テーブルのモニターを設定します。

よくある質問

DataWorks コンソールで EMR データソースを DataWorks ワークスペースに関連付けるときに、クラスタが見つからない場合はどうすればよいですか？

DataWorks ワークスペースに関連付けるクラスターのタイプが DataWorks でサポートされているかどうかを確認します。また、DataWorks コンソールで EMR データソースを DataWorks ワークスペースに関連付ける際の制限と前提条件についても学習してください。詳細については、「EMR クラスタを DataWorks に登録する」をご参照ください。 DataWorks では、EMR ノードで Flink ジョブを実行することはできず、Dataflow クラスタはサポートされていません。 EMR Workflow を使用して Flink ジョブをスケジュールできます。 EMR Workflow と Realtime Compute for Apache Flink の詳細については、「EMR Workflow とは」および「Alibaba Cloud Realtime Compute for Apache Flink とは」をご参照ください。