すべてのプロダクト
Search
ドキュメントセンター

DataWorks:レガシーデータ開発エクスペリエンスの使用

最終更新日:Nov 09, 2025

このチュートリアルでは、DataWorks と EMR のプロダクトポートフォリオを使用して、ビッグデータの開発と分析を行う方法を説明します。このチュートリアルでは、ユーザーペルソナ分析のケースを使用して、DataWorks のデータ統合、データ開発、およびオペレーションセンターにおける機能を紹介します。

ケースの説明

より良いビジネス戦略を立てるには、ユーザーのウェブサイトでの行動から、地理的属性や社会的属性などの基本的なプロファイルデータを取得する必要があります。このデータにより、スケジュールされたペルソナ分析とウェブサイトトラフィックの詳細な管理が可能になります。DataWorks と EMR のプロダクトポートフォリオを使用して、データ同期、データ変換、データ管理、およびデータ消費を実行できます。

説明

このチュートリアルに従うには、「チュートリアルの目的と設計」を読んで、ユーザーペルソナ分析の全体的なフローを理解してください。

データ開発プラットフォーム

このチュートリアルでは、DataWorks の 従来の DataStudio プラットフォームを使用します。ワークスペースが [新しい Data Studio を使用] に設定されていないことを確認してください。

  • ワークスペースを作成するときは、[新しいデータ開発 (DataStudio) を使用] オプションを選択しないでください。

  • 2025 年 2 月 18 日以降、DataWorks が有効になっている Alibaba Cloud アカウントを使用して次のリージョンで初めてワークスペースを作成すると、新しい Data Studio がデフォルトで有効になります。ワークスペースで新しい Data Studio がデフォルトで有効になっている場合は、「新しい Data Studio を体験する」チュートリアルをご参照ください。

    中国 (杭州)、中国 (上海)、中国 (北京)、中国 (張家口)、中国 (ウランチャブ)、中国 (深セン)、中国 (成都)、中国 (香港)、日本 (東京)、シンガポール、マレーシア (クアラルンプール)、インドネシア (ジャカルタ)、タイ (バンコク)、ドイツ (フランクフルト)、イギリス (ロンドン)、米国 (シリコンバレー)、米国 (バージニア)

手順

  1. 環境の準備

    このチュートリアル用に EMR クラスターと DataWorks ワークスペースを作成します。次に、リソースグループネットワークを設定します。

  2. データを同期する

    DataWorks で、データ同期タスクを設定して、提供されたユーザー情報とウェブサイトのログデータを Object Storage Service (OSS) に同期します。EMR 外部テーブルを作成して OSS 内のデータを解析し、アタッチされた EMR 計算リソースにデータを同期します。その後、同期されたデータにクエリを実行できます。

  3. データの変換

    DataWorks の EMR Hive ノードを使用して、EMR に同期されたユーザー情報テーブルとアクセスログテーブルのデータを変換します。目的は、ターゲットのユーザーペルソナデータを生成することです。

  4. データ品質の監視

    データ変換中に生成されたテーブルに対してデータ品質モニタリングを設定します。これにより、ダーティデータを早期に検出してブロックし、下流のプロセスへの影響を防ぐことができます。

  5. データを管理する

    ユーザーペルソナ分析ワークフローが完了すると、データテーブルが EMR に作成されます。Data Map を使用して、これらのテーブル間のデータリネージを表示します。

  6. データを消費する

    ユーザーペルソナ分析が完了したら、DataAnalysis モジュールを使用して 変換されたデータを視覚化します。これにより、主要な情報を迅速に抽出し、ビジネスのトレンドを理解することができます。