このチュートリアルでは、DataWorks と EMR のプロダクトポートフォリオを使用してデータ開発と分析を行う方法を説明します。ユーザープロファイル分析の例を使用して、Data Integration、DataStudio、オペレーションセンターなどの DataWorks の機能を紹介します。
チュートリアルの概要
より良いビジネス戦略を立てるには、ユーザーのウェブサイトでの行動から、地理的属性や社会的属性などの基本的なプロファイルデータを取得する必要があります。このデータにより、スケジュールされたプロファイル分析と詳細なウェブサイトトラフィックの操作が可能になります。DataWorks と EMR のプロダクトポートフォリオを使用して、データ同期、データ変換、データ管理、およびデータ消費を実行できます。
このチュートリアルに従うには、「チュートリアルの目的と設計」を読んで、ユーザーペルソナ分析の全体的なフローを理解してください。
DataStudio
このチュートリアルでは、DataWorks の 新しい DataStudio プラットフォームを使用します。ワークスペースで新しい DataStudio が有効になっていることを確認してください。次のように有効にできます:
ワークスペースを作成 する際に、[DataStudio (新バージョン) を使用] を選択します。
古い DataStudio バージョンからアップグレードするには、インターフェイスの上部にある [アップグレード] ボタンをクリックします。次に、画面の指示に従ってアップグレードを完了します。
2025 年 2 月 18 日以降、Alibaba Cloud アカウントが DataWorks を有効にし、次のリージョンで初めてワークスペースを作成すると、新しい DataStudio がデフォルトで有効になります:
中国 (杭州)、中国 (上海)、中国 (北京)、中国 (張家口)、中国 (ウランチャブ)、中国 (深圳)、中国 (成都)、中国 (香港)、日本 (東京)、シンガポール、マレーシア (クアラルンプール)、インドネシア (ジャカルタ)、タイ (バンコク)、ドイツ (フランクフルト)、イギリス (ロンドン)、米国 (シリコンバレー)、米国 (バージニア)
手順
このチュートリアルに必要な EMR クラスターと DataWorks ワークスペースを作成します。次に、リソースグループのネットワーク構成を完了します。
DataWorks で、データ同期タスクを構成して、ユーザー情報とウェブサイトのログデータを OSS に同期します。次に、EMR 外部テーブルを使用して OSS 内のデータを解析し、アタッチされた EMR 計算リソースに同期して、同期されたデータをクエリします。
DataWorks の EMR Hive ノードを使用して、EMR に同期されたユーザー情報テーブルとアクセスログテーブルのデータを変換します。このプロセスにより、ターゲットのユーザープロファイルデータが生成されます。
データ変換から生成されたテーブルに対して Data Quality のモニタリングルールを構成します。これにより、ダーティデータを早期に検出してブロックし、その影響が広がるのを防ぐことができます。
ユーザープロファイル分析タスクフローが完了すると、対応するデータテーブルが EMR に作成されます。その後、データマップでこれらのテーブル間のデータリネージを表示できます。
データを消費する
ユーザーペルソナ分析が完了したら、DataAnalysis モジュールを使用して、処理されたデータの データ可視化を作成 し、主要な情報をすばやく抽出して、データの背後にあるビジネスの傾向を把握できます。