このチュートリアルでは、DataWorks と StarRocks のプロダクトポートフォリオを使用してビッグデータの開発と分析を行う方法について説明します。このチュートリアルでは、ユーザープロファイル分析のケーススタディを使用して、DataWorks のデータ統合、DataStudio、およびオペレーションセンターの機能を示します。
ケース紹介
より良いビジネス戦略を立てるには、ウェブサイトユーザーの行動に基づいて基本的なプロファイルデータを取得する必要があります。このデータには、地理的および社会的属性が含まれます。特定の時間と場所でユーザープロファイルを分析して、ウェブサイトのトラフィックに対して詳細な操作を実行できます。DataWorks と StarRocks のプロダクトポートフォリオを使用して、データ同期、データ変換、データ管理、およびデータ消費を実行できます。
このチュートリアルに従うには、「チュートリアルの目的と設計」を読んで、ユーザーペルソナ分析の全体的なフローを理解してください。
Data Studio
このチュートリアルでは、DataWorks の 新しい DataStudio プラットフォームを使用します。新しい DataStudio がワークスペースで有効になっていることを確認してください。次のように有効にできます:
ワークスペースを作成する際に、[Data Studio (新バージョン) を使用] を選択します。
古い DataStudio バージョンからアップグレードするには、インターフェイスの上部にある [アップグレード] ボタンをクリックします。その後、画面の指示に従ってアップグレードを完了します。
2025 年 2 月 18 日以降、Alibaba Cloud アカウントが DataWorks を有効にし、次のリージョンで初めてワークスペースを作成すると、新しい DataStudio がデフォルトで有効になります:
中国 (杭州)、中国 (上海)、中国 (北京)、中国 (張家口)、中国 (ウランチャブ)、中国 (深圳)、中国 (成都)、中国 (香港)、日本 (東京)、シンガポール、マレーシア (クアラルンプール)、インドネシア (ジャカルタ)、タイ (バンコク)、ドイツ (フランクフルト)、イギリス (ロンドン)、米国 (シリコンバレー)、米国 (バージニア)
手順
このチュートリアルで必要な StarRocks インスタンスと DataWorks ワークスペースを作成し、必要なリソースグループとネットワーク構成を完了します。
DataWorks で、データ同期タスクを構成して、このチュートリアルで提供されるユーザー情報とウェブサイトのログデータを StarRocks 計算リソースに同期します。その後、同期されたデータをクエリできます。
DataWorks で、StarRocks ノードを使用して、StarRocks に同期されたユーザー情報テーブルとアクセスログテーブルのデータを処理します。これにより、ターゲットのユーザープロファイルデータを取得できます。
データ変換によって生成されるテーブルに対してデータ品質監視ルールを構成して、ダーティデータを早期に特定してブロックし、ダーティデータの影響が広がるのを防ぎます。
ユーザープロファイル分析タスクフローが完了すると、StarRocks にデータテーブルが作成されます。その後、データマップでこれらのテーブル間のデータリネージを表示できます。
データを消費する
ユーザープロファイル分析が完了したら、DataAnalysis モジュールを使用して 変換されたデータを視覚化できます。これにより、主要な情報を迅速に抽出し、ビジネスのトレンドに関するインサイトを得ることができます。
最終的に変換されたデータを取得した後、DataService Studio モジュールを使用して、標準化された API データサービスインターフェイスを介してデータを共有および適用できます。これにより、API を介してデータを受け入れる他のビジネスモジュールにデータが提供されます。