DataStudio (新バージョン) の体験 - DataWorks - Alibaba Cloud ドキュメントセンター

このチュートリアルでは、DataWorks と Spark を使用してビッグデータの開発と分析を行う方法を説明します。ユーザープロファイル分析のケーススタディでは、Data Integration、DataStudio、およびオペレーションセンターにおける DataWorks の機能を示します。

ケース紹介

効果的なビジネス戦略を策定するために、Web サイトユーザーの Web サイトアクティビティから基本的なプロファイルデータを取得できます。このデータには、地理的属性と社会的属性が含まれます。このプロファイルデータを時間と場所で分析して、Web サイトトラフィックに対する詳細な操作を可能にすることができます。このケースでは、DataWorks と EMR Serverless Spark を使用して、データ同期、データ処理、データ管理、およびデータ消費を完了します。

説明

このチュートリアルを進めるには、「チュートリアルの目的と設計」を読み、ユーザーペルソナ分析の全体的なフローを理解してください。

データ開発プラットフォーム

このチュートリアルでは、DataWorks の新しい DataStudio プラットフォームを使用します。ワークスペースで新しい DataStudio が有効になっていることを確認してください。次のように有効にできます:

ワークスペースを作成する際に、[新しいデータ開発 (DataStudio) を使用] を選択します。
古いデータ開発バージョンからアップグレードするには、インターフェイスの上部にある [アップグレード] ボタンをクリックします。次に、画面の指示に従ってアップグレードを完了します。
2025 年 2 月 18 日以降、Alibaba Cloud アカウントが DataWorks を有効にし、次のリージョンで初めてワークスペースを作成すると、新しい DataStudio がデフォルトで有効になります:
中国 (杭州)、中国 (上海)、中国 (北京)、中国 (張家口)、中国 (ウランチャブ)、中国 (深圳)、中国 (成都)、中国 (香港)、日本 (東京)、シンガポール、マレーシア (クアラルンプール)、インドネシア (ジャカルタ)、タイ (バンコク)、ドイツ (フランクフルト)、イギリス (ロンドン)、米国 (シリコンバレー)、米国 (バージニア)

手順

環境の準備
このチュートリアルに必要な Spark プロジェクトと DataWorks ワークスペースを作成します。次に、関連するリソースグループとネットワーク構成を設定します。
データの同期
DataWorks でデータ同期タスクを構成して、このチュートリアルで提供されるユーザー情報とアクセスログデータを Spark 計算資源に同期します。次に、同期されたデータをクエリします。
データの処理
DataWorks の EMR Spark SQL ノードを使用して、Spark に同期されたユーザー情報テーブルとアクセスログテーブルのデータを処理します。このプロセスにより、ターゲットのユーザープロファイルデータが生成されます。
データ品質の監視
データ処理から生成されたテーブルに対してデータ品質監視ルールを構成します。これにより、ダーティデータを早期に特定してブロックし、その影響が広がるのを防ぐことができます。
データの管理
ユーザープロファイル分析タスクが完了すると、EMR にデータテーブルが作成されます。[データマップ] モジュールで、生成されたデータテーブルとそのテーブルリネージを表示します。
データの消費
ユーザープロファイル分析が完了したら、DataAnalysis モジュールを使用して処理済みデータを可視化します。これにより、主要な情報を迅速に抽出し、ビジネスのトレンドに関するインサイトを得ることができます。