すべてのプロダクト
Search
ドキュメントセンター

DataWorks:旧バージョンのデータ開発の開始

最終更新日:Nov 09, 2025

このチュートリアルでは、DataWorks と Spark のプロダクトポートフォリオを使用してビッグデータの開発と分析を行う方法を説明します。ユーザーペルソナ分析ケースを使用して、データ統合、データ開発、オペレーションセンターにおける DataWorks の機能を示します。

チュートリアルの概要

より良いビジネス戦略を立てるには、ウェブサイトの動作から基本的なユーザープロファイルデータを取得する必要があります。このデータには、地理的な場所や社会的地位などの属性が含まれます。その後、スケジュールされたユーザーペルソナ分析を実行して、詳細なウェブサイトトラフィックの操作を可能にします。DataWorks と EMR Serverless Spark のプロダクトポートフォリオを使用して、データ同期、データ変換、データ管理、データ消費を実行できます。

説明

このチュートリアルに従うには、チュートリアルの目的と設計 を読んで、ユーザーペルソナ分析の全体的なフローを理解してください。

データ開発プラットフォーム

このチュートリアルでは、DataWorks の 旧バージョンのデータ開発 (DataStudio) を使用します。ワークスペースが [新バージョンのデータ開発 (Data Studio)] を使用していないことを確認してください。

  • ワークスペースを作成する際、[新しいデータ開発 (DataStudio) を使用する] オプションを選択しないでください。

  • 2025 年 2 月 18 日以降、Alibaba Cloud アカウントが初めて DataWorks をアクティブ化し、以下のリージョンでワークスペースを作成すると、新バージョンのデータ開発がデフォルトで有効になります。ワークスペースで新バージョンのデータ開発がデフォルトで有効になっている場合は、詳細については、「新バージョンのデータ開発の開始」をご参照ください。

    中国 (杭州)、中国 (上海)、中国 (北京)、中国 (張家口)、中国 (ウランチャブ)、中国 (深圳)、中国 (成都)、中国 (香港)、日本 (東京)、シンガポール、マレーシア (クアラルンプール)、インドネシア (ジャカルタ)、タイ (バンコク)、ドイツ (フランクフルト)、英国 (ロンドン)、米国 (シリコンバレー)、米国 (バージニア)

手順

  1. 環境の準備

    このチュートリアルに必要な Spark プロジェクトと DataWorks ワークスペースを作成します。次に、リソースグループのネットワーク構成を完了します。

  2. データの同期

    DataWorks でデータ同期パイプラインを構成します。このチュートリアルで提供されるユーザー情報とウェブサイトのログデータを Spark 計算リソースに同期します。次に、同期されたデータをクエリします。

  3. データの変換

    DataWorks の EMR Spark SQL ノードを使用して、Spark に同期されたユーザー情報テーブルとアクセスログテーブルのデータを変換します。これにより、ターゲットのユーザーペルソナデータが生成されます。

  4. データ品質のモニター

    データ変換から生成されたテーブルに対して Data Quality モニタリングルールを構成します。これにより、ダーティデータを早期に検出してブロックし、その影響が広がるのを防ぐことができます。

  5. データの管理

    ユーザーペルソナ分析タスクフローが完了すると、対応するデータテーブルが Spark に作成されます。Data Map モジュールでは、生成されたデータテーブルとそのテーブルリネージを表示できます。

  6. データの消費

    ユーザーペルソナ分析が完了したら、DataAnalysis モジュールを使用して 変換されたデータを視覚化できます。これにより、主要な情報を迅速に抽出し、ビジネスのトレンドを理解するのに役立ちます。