MaxCompute と DataWorks でユーザープロファイル分析パイプラインを構築 - DataWorks

このチュートリアルでは、中国 (上海) リージョンにおけるユーザーペルソナの例を使い、DataWorks を使用したデータ同期、データ変換、品質モニタリングの方法を説明します。このチュートリアルを完了するには、必要な MaxCompute プロジェクトと DataWorks ワークスペースを準備し、必要なデータソース、コンピューティングリソース、ストレージを設定する必要があります。

ビジネス背景

効果的なビジネス戦略を立てるには、ウェブサイト上のユーザー動作を分析することが不可欠です。この分析により、地理的属性やソーシャル属性を含む基本的なユーザープロファイルデータが得られます。その後、定期的なペルソナ分析をスケジューリングすることで、ウェブサイトのトラフィックに対して詳細な操作を実行できます。

前提条件

開始する前に、「実験の概要」を読み、ユーザーペルソナ分析ケーススタディの完全なワークフローを理解してください。

注意事項

このケーススタディでは、必要なユーザー情報とウェブサイトのアクセスに関するテストデータが提供されます。このデータは直接使用できます。
このケーススタディのデータは、DataWorks アプリケーションのハンズオン練習のためにのみ提供されるモックデータです。
このチュートリアルでは、データ変換に DataStudio (旧バージョン) を使用します。

MaxCompute 環境の準備

1. MaxCompute の有効化

このケーススタディでは MaxCompute が必要です。MaxCompute が有効化されていることを確認してください。以下のパラメーターを使用して、中国 (上海) リージョンでサービスを有効化します。

リージョン: 中国 (上海)
仕様タイプ：標準コンピューティングリソース。

2. MaxCompute プロジェクトの作成

標準の DataWorks ワークスペースでは、2 つの MaxCompute プロジェクトをアタッチする必要があります。1 つのプロジェクトは開発環境のコンピューティングリソースとして機能し、もう 1 つは本番環境のコンピューティングリソースとして機能します。

MaxCompute コンソールに移動します。左側のナビゲーションウィンドウで、[設定の管理] > [プロジェクト] を選択します。

[プロジェクトの作成] をクリックして、2 つの MaxCompute プロジェクトを作成します。次の表に、このチュートリアルの主要なパラメーターを示します。その他のパラメーターにはデフォルト値を使用できます。詳細については、「MaxCompute プロジェクトの作成」をご参照ください。

設定項目	設定
プロジェクト名	カスタム。グローバルに一意である必要があります。このチュートリアルの例: 本番環境: `workshop2024_01` 開発環境: `workshop2024_01_dev`
[課金方法]	このチュートリアルでは、[従量課金] を選択します。
デフォルトクォータ	このチュートリアルでは、ドロップダウンリストから [デフォルトの従量課金クォータ] を選択します。
データ型エディション	このチュートリアルでは、ドロップダウンリストから [データ型 2.0 (推奨)] を選択します。
ストレージ暗号化	このチュートリアルでは、[暗号化しない] を選択します。

MaxCompute プロジェクトの作成方法の詳細については、「MaxCompute プロジェクトの作成」をご参照ください。

DataWorks 環境の準備

開発に DataWorks を使用する前に、DataWorks サービスが有効化されていることを確認してください。詳細については、「購入ガイド」をご参照ください。

1. ワークスペースの作成

DataWorks コンソールにログインします。上部のナビゲーションバーで、[中国 (上海)] リージョンを選択します。左側のナビゲーションウィンドウで [ワークスペース] をクリックして、[ワークスペース] ページに移動します。
[ワークスペースの作成] をクリックします。[開発環境と本番環境を分離] を選択します。[Data Studio (新バージョン) を使用] は選択しないでください。

説明

2025 年 2 月 18 日以降、初めて DataWorks を有効化し、中国 (上海) リージョンにワークスペースを作成する場合、DataStudio の新バージョンがデフォルトで有効になります。[Data Studio (新バージョン) を使用] パラメーターは表示されません。DataStudio の新バージョンがすでにデフォルトで有効になっている場合は、「DataStudio の新バージョンを体験する」をご参照ください。

ワークスペースの作成方法の詳細については、「ワークスペースの作成」をご参照ください。

2. サーバーレスリソースグループの作成

このチュートリアルでは、OSS と MySQL から MaxCompute にデータを同期する必要があります。同期タスクは DataWorks のサーバーレスリソースグループで実行されます。したがって、サーバーレスリソースグループを購入し、必要な準備を完了する必要があります。

Serverless リソースグループの購入。
このチュートリアルでは、データ同期とスケジューリングのために DataWorks のサーバーレスリソースグループが必要です。サーバーレスリソースグループを購入し、必要な準備を完了する必要があります。
1. [DataWorks - リソースグループ] ページにログインします。上部のナビゲーションバーで、リージョンを [中国 (上海)] に切り替えます。左側のナビゲーションウィンドウで [リソースグループ] をクリックして、[リソースグループ] ページを開きます。
2. [リソースグループの作成] をクリックします。リソースグループの購入ページで、[リージョンとゾーン] を [中国 (上海)] に設定し、[リソースグループ名] を指定します。プロンプトに従って他のパラメーターを設定し、支払いを完了します。サーバーレスリソースグループの課金の詳細については、「サーバーレスリソースグループの課金」をご参照ください。
  説明
  現在のリージョンで利用可能な Virtual Private Cloud (VPC) や vSwitch がない場合は、パラメーターの説明にあるコンソールリンクをクリックして作成できます。VPC と vSwitch の詳細については、「VPC とは」をご参照ください。
リソースグループと DataWorks ワークスペースの関連付け
新しく購入したサーバーレスリソースグループは、使用する前にワークスペースにアタッチする必要があります。
[DataWorks - リソースグループ] ページにログインします。上部のナビゲーションバーで、リージョンを [中国 (上海)] に切り替えます。購入したサーバーレスリソースグループを見つけます。[操作] 列で、[ワークスペースの関連付け] をクリックします。次に、作成した DataWorks ワークスペースの横にある [関連付け] をクリックします。

リソースグループのインターネットアクセスの設定。

このチュートリアルのテストデータはインターネットから取得されます。デフォルトでは、リソースグループはインターネットにアクセスできません。リソースグループにアタッチされている VPC にインターネット NAT ゲートウェイを設定し、Elastic IP アドレス (EIP) を追加する必要があります。これにより、VPC がインターネットに接続され、データを取得できるようになります。

[VPC - インターネット NAT ゲートウェイ] コンソールにログインします。上部のメニューバーで、[中国 (上海)] リージョンを選択します。

[インターネット NAT ゲートウェイの作成] をクリックし、パラメーターを設定します。次の表に、このチュートリアルの主要なパラメーターを示します。その他のすべてのパラメーターには、デフォルト値を使用します。

パラメーター	値
リージョン	中国 (上海)。
[ネットワークとゾーン]	リソースグループにアタッチされている VPC と vSwitch を選択します。 DataWorks コンソールに移動し、リージョンを切り替え、左側のナビゲーションウィンドウで [リソースグループ] をクリックします。作成したリソースグループを見つけ、[操作] 列の [ネットワーク設定] をクリックします。[データスケジューリング & データ統合] セクションで、関連付けられている VPC と vSwitch を表示します。VPC と vSwitch の詳細については、「VPC とは」をご参照ください。
ネットワークタイプ	インターネット NAT ゲートウェイ
EIP	新しい EIP の購入。
[サービスリンクロールの作成]	初めて NAT Gateway を作成するときは、サービスリンクロールを作成する必要があります。[サービスリンクロールの作成] をクリックします。

[今すぐ購入] をクリックし、サービス利用規約に同意してから [今すぐ有効化] をクリックして購入を完了します。

サーバーレスリソースグループの追加と使用方法の詳細については、「サーバーレスリソースグループの使用」をご参照ください。

3. MaxCompute プロジェクトの関連付け

作成した MaxCompute プロジェクトをコンピューティングリソースとして DataWorks ワークスペースにアタッチする必要があります。これにより、データ開発モジュールを使用して MaxCompute でデータを処理できます。

[DataWorks - ワークスペース] ページに移動します。上部のナビゲーションバーで、リージョンを [中国 (上海)] に切り替えます。ご利用のワークスペースを見つけてその名前をクリックし、[ワークスペース詳細] ページに移動します。
左側のナビゲーションウィンドウで [コンピューティングリソース] をクリックします。[DataStudio] > [コンピューティングリソース ()] ページにリダイレクトされます。

[コンピューティングリソースの作成] をクリックします。コンピューティングリソースのタイプを選択し、パラメーターを設定してリソースをアタッチします。

このチュートリアルでは、コンピューティングおよびストレージリソースとして MaxCompute を使用します。次の表に、その他の主要なパラメーターを示します。その他のすべてのパラメーターには、デフォルト値を使用します。

パラメーター	説明
データソース名	カスタム名。コンピューティングリソースを識別します。実行時に、コンピューティングリソースインスタンス名を使用して、タスクのコンピューティングリソースを選択します。
[Alibaba Cloud アカウント]	[現在の Alibaba Cloud アカウント] を選択します。
リージョン	現在の DataWorks ワークスペースと同じリージョンを選択します: [中国 (上海)]。
Maxcompute プロジェクト名	アタッチする MaxCompute プロジェクトを選択します。このチュートリアルでは、「ステップ 2」で作成した対応する MaxCompute プロジェクトを本番環境と開発環境にアタッチします。
デフォルトアクセス ID	現在のワークスペースで MaxCompute プロジェクトにアクセスするために使用される ID を定義します。開発環境: [Executor] ID のみがサポートされます。本番環境: 現在のログインアカウントに基づいてドロップダウンリストから ID を選択します。このチュートリアルでは、[Alibaba Cloud アカウント] を選択します。説明異なる ID でログインしている場合は、「DataStudio の新バージョン：MaxCompute コンピュートエンジンをアタッチする」で設定の詳細をご参照ください。
接続設定	MaxCompute コンピューティングリソースに接続するために使用されるリソースグループ。現在のワークスペースに作成およびアタッチしたサーバーレスリソースグループがここに表示されます。開発環境と本番環境の両方で接続性をテストする必要があります。

[コンピューティングリソースを作成して DataStudio に関連付ける] をクリックします。
ページ上のプロンプトに従います。データ開発のコンピューティングリソースページをリフレッシュすると、アタッチされた MaxCompute コンピューティングリソースが表示されます。
説明
MaxCompute コンピューティングリソースのステータスが関連付けられていない場合は、[関連付け] をクリックします。

次のステップ

環境の準備が完了したので、次のチュートリアルに進むことができます。次のチュートリアルでは、基本的なユーザー情報とウェブサイトのアクセスログを MaxCompute に同期する方法を学びます。詳細については、「データの同期」をご参照ください。