DataWorks & EMR Serverless Spark によるユーザープロファイルパイプライン構築 - E-MapReduce

このチュートリアルでは、DataWorks と EMR Serverless Spark を使用してビッグデータ開発と分析を行う方法を説明します。ユーザープロファイル分析のケースを通じて、DataWorks のデータ統合、データ開発、およびオペレーションセンターモジュールの機能を体験します。

チュートリアルの概要

より良いビジネス戦略を立てるには、ウェブサイトの行動から基本的なユーザープロファイルデータを取得する必要があります。このデータには、地理的な場所や社会的地位などの属性が含まれます。その後、スケジュールされたユーザーペルソナ分析を実行して、詳細なウェブサイトトラフィック操作を可能にすることができます。DataWorks と EMR Serverless Spark のプロダクトポートフォリオを使用して、データ同期、データ変換、データ管理、およびデータ消費を実行できます。

説明

このチュートリアルを進めるには、チュートリアルの目的と設計を読み、ユーザーペルソナ分析の全体的なフローを理解してください。

データ開発プラットフォーム

このチュートリアルでは、DataWorks の以前のバージョンの DataStudio を使用します。ワークスペースで [新しいバージョンの Data Studio] を使用しないようにしてください。

ワークスペースを作成する際、[新しいデータ開発 (DataStudio) を使用する] オプションを選択しないでください。
2025 年 2 月 18 日以降、Alibaba Cloud アカウントを使用して DataWorks をアクティブ化し、次のいずれかのリージョンで初めてワークスペースを作成すると、新しいバージョンの Data Studio がデフォルトで有効になります。アカウントで新しいバージョンの Data Studio がデフォルトで有効になっている場合は、「新しいバージョンの Data Studio を体験する」をご参照ください。
中国 (杭州)、中国 (上海)、中国 (北京)、中国 (張家口)、中国 (ウランチャブ)、中国 (深圳)、中国 (成都)、中国 (香港)、日本 (東京)、シンガポール、マレーシア (クアラルンプール)、インドネシア (ジャカルタ)、タイ (バンコク)、ドイツ (フランクフルト)、イギリス (ロンドン)、米国 (シリコンバレー)、米国 (バージニア)

手順

ステップ 1: 環境の準備
チュートリアルに必要な EMR Serverless Spark ワークスペースと DataWorks ワークスペースを作成し、リソースグループとネットワーク設定を構成します。
ステップ 2: データの同期
DataWorks でデータ同期タスクを構成して、チュートリアルで提供される基本的なユーザー情報とウェブサイトのアクセスログを Spark 計算リソースに同期し、同期されたデータをクエリします。
ステップ 3: データの処理
DataWorks の EMR Spark SQL ノードを使用して、Spark に同期された基本ユーザー情報テーブルとアクセスログテーブルのデータを処理し、目的のユーザープロファイルデータを取得します。
ステップ 4: データ品質の監視
データ処理後に生成されたテーブルのモニターを構成して、ダーティデータの影響が拡大するのを防ぐために、ダーティデータを事前に特定して遮断するのに役立てます。
ステップ 5: データの管理
ユーザープロファイル分析タスクが完了すると、Spark でデータテーブルが生成されます。生成されたデータテーブルとテーブル間のデータリネージをデータマップで表示できます。
ステップ 6: データの消費
ユーザープロファイル分析が完了したら、データ分析モジュールを使用して処理されたデータを視覚化し、主要な情報を迅速に抽出し、データの背後にあるビジネスの傾向を把握することができます。