このチュートリアルでは、DataWorks と Spark のプロダクトポートフォリオを使用してビッグデータの開発と分析を行う方法を説明します。ユーザーペルソナ分析ケースを使用して、データ統合、データ開発、オペレーションセンターにおける DataWorks の機能を示します。
チュートリアルの概要
より良いビジネス戦略を立てるには、ウェブサイトの動作から基本的なユーザープロファイルデータを取得する必要があります。このデータには、地理的な場所や社会的地位などの属性が含まれます。その後、スケジュールされたユーザーペルソナ分析を実行して、詳細なウェブサイトトラフィックの操作を可能にします。DataWorks と EMR Serverless Spark のプロダクトポートフォリオを使用して、データ同期、データ変換、データ管理、データ消費を実行できます。
このチュートリアルに従うには、チュートリアルの目的と設計 を読んで、ユーザーペルソナ分析の全体的なフローを理解してください。
データ開発プラットフォーム
このチュートリアルでは、DataWorks の 旧バージョンのデータ開発 (DataStudio) を使用します。ワークスペースが [新バージョンのデータ開発 (Data Studio)] を使用していないことを確認してください。
ワークスペースを作成する際、[新しいデータ開発 (DataStudio) を使用する] オプションを選択しないでください。
2025 年 2 月 18 日以降、Alibaba Cloud アカウントが初めて DataWorks をアクティブ化し、以下のリージョンでワークスペースを作成すると、新バージョンのデータ開発がデフォルトで有効になります。ワークスペースで新バージョンのデータ開発がデフォルトで有効になっている場合は、詳細については、「新バージョンのデータ開発の開始」をご参照ください。
中国 (杭州)、中国 (上海)、中国 (北京)、中国 (張家口)、中国 (ウランチャブ)、中国 (深圳)、中国 (成都)、中国 (香港)、日本 (東京)、シンガポール、マレーシア (クアラルンプール)、インドネシア (ジャカルタ)、タイ (バンコク)、ドイツ (フランクフルト)、英国 (ロンドン)、米国 (シリコンバレー)、米国 (バージニア)
手順
このチュートリアルに必要な Spark プロジェクトと DataWorks ワークスペースを作成します。次に、リソースグループのネットワーク構成を完了します。
DataWorks でデータ同期パイプラインを構成します。このチュートリアルで提供されるユーザー情報とウェブサイトのログデータを Spark 計算リソースに同期します。次に、同期されたデータをクエリします。
DataWorks の EMR Spark SQL ノードを使用して、Spark に同期されたユーザー情報テーブルとアクセスログテーブルのデータを変換します。これにより、ターゲットのユーザーペルソナデータが生成されます。
データ変換から生成されたテーブルに対して Data Quality モニタリングルールを構成します。これにより、ダーティデータを早期に検出してブロックし、その影響が広がるのを防ぐことができます。
ユーザーペルソナ分析タスクフローが完了すると、対応するデータテーブルが Spark に作成されます。Data Map モジュールでは、生成されたデータテーブルとそのテーブルリネージを表示できます。
データの消費
ユーザーペルソナ分析が完了したら、DataAnalysis モジュールを使用して 変換されたデータを視覚化できます。これにより、主要な情報を迅速に抽出し、ビジネスのトレンドを理解するのに役立ちます。