DataWorks と Serverless Spark によるユーザープロファイルパイプラインの構築 - E-MapReduce (EMR)

このトピックでは、ビッグデータの開発と分析に DataWorks と Spark を一緒に使用する方法について説明します。また、Data Integration、Data Studio、Operation Center などの DataWorks サービスの機能を体験できるユーザープロファイル分析のケーススタディも提供します。

ケースの紹介

効果的なビジネス管理戦略を開発するには、Webサイトでのアクティビティに基づいて、Webサイトユーザーの基本的なプロファイルデータを取得する必要があります。基本的なプロファイルデータには、Webサイトユーザーの地理的属性と社会的属性が含まれます。プロファイルデータを時間と場所ごとに分析することで、Webサイトトラフィックのきめ細かな操作をさらに有効にすることができます。 DataWorks を E-MapReduce（EMR）Serverless Spark とともに使用して、データ同期、データ処理、データ管理、データ消費を行うことができます。

説明

ユーザープロファイル分析ケースのプロセス全体を理解するために、「実験の紹介」をお読みください。これにより、このチュートリアルを完了することができます。

データ開発プラットフォーム

このチュートリアルでは、DataWorks 新バージョンの Data Studio を使用します。ワークスペースで Data Studio が有効になっていることを確認してください。次のいずれかの方法を使用して、Data Studio を有効にできます。

Data Studio パブリックプレビューに参加するワークスペースを作成する際に、をオンにします。
旧バージョンの DataStudio ページの上部ナビゲーションバーで、[Data Studio をアップグレード] をクリックして、プロンプトに従って旧バージョンの DataStudio を新バージョンの Data Studio にアップグレードします。
2025年 2 月 19 日以降、次のリージョンで Alibaba Cloud アカウントを使用して DataWorks をアクティブ化し、初めてワークスペースを作成する場合、Data Studio はデフォルトで有効になります。
中国（杭州）、中国（上海）、中国（北京）、中国（深圳）、中国（香港）、シンガポール、インドネシア（ジャカルタ）、ドイツ（フランクフルト）

手順

ステップ 1：環境を準備する
チュートリアルに必要な EMR Serverless Spark ワークスペースと DataWorks ワークスペースを作成し、リソースグループとネットワーク設定を構成します。
ステップ 2：データを同期する
DataWorks でデータ同期タスクを構成して、チュートリアルで提供されるユーザーの基本的なユーザー情報と Webサイトアクセスログを Spark 計算リソースに同期し、同期されたデータに対してクエリを実行します。
ステップ 3：データを処理する
DataWorks の EMR Spark SQL ノードを使用して、Spark に同期された基本的なユーザー情報テーブルとアクセスログテーブルのデータを処理し、目的のユーザープロファイルデータを取得します。
ステップ 4：データ品質を監視する
データ処理後に生成されるテーブルのモニターを構成して、ダーティデータを事前に特定して遮断し、ダーティデータの影響の拡大を防ぎます。
ステップ 5：データを管理する
データマップユーザープロファイル分析タスクが完了すると、EMR にデータテーブルが生成されます。生成されたデータテーブルとテーブル間のデータ系列は、で表示できます。
ステップ 6：データを消費する
ユーザープロファイル分析が完了したら、DataAnalysis を使用して処理済みデータを視覚的に表示します。これにより、重要な情報をすばやく抽出して、データの背後にあるビジネストレンドを把握できます。