このチュートリアルでは、中国 (上海) リージョンにおけるユーザーペルソナの例を使い、DataWorks を使用したデータ同期、データ変換、品質モニタリングの方法を説明します。このチュートリアルを完了するには、必要な MaxCompute プロジェクトと DataWorks ワークスペースを準備し、必要なデータソース、コンピューティングリソース、ストレージを設定する必要があります。
ビジネス背景
効果的なビジネス戦略を立てるには、ウェブサイト上のユーザー動作を分析することが不可欠です。この分析により、地理的属性やソーシャル属性を含む基本的なユーザープロファイルデータが得られます。その後、定期的なペルソナ分析をスケジューリングすることで、ウェブサイトのトラフィックに対して詳細な操作を実行できます。
前提条件
開始する前に、「実験の概要」を読み、ユーザーペルソナ分析ケーススタディの完全なワークフローを理解してください。
注意事項
このケーススタディでは、必要なユーザー情報とウェブサイトのアクセスに関するテストデータが提供されます。このデータは直接使用できます。
このケーススタディのデータは、DataWorks アプリケーションのハンズオン練習のためにのみ提供されるモックデータです。
このチュートリアルでは、データ変換に DataStudio (旧バージョン) を使用します。
MaxCompute 環境の準備
1. MaxCompute の有効化
このケーススタディでは MaxCompute が必要です。MaxCompute が有効化されていることを確認してください。以下のパラメーターを使用して、中国 (上海) リージョンでサービスを有効化します。
リージョン: 中国 (上海)
仕様タイプ:標準コンピューティングリソース。
2. MaxCompute プロジェクトの作成
標準の DataWorks ワークスペースでは、2 つの MaxCompute プロジェクトをアタッチする必要があります。1 つのプロジェクトは開発環境のコンピューティングリソースとして機能し、もう 1 つは本番環境のコンピューティングリソースとして機能します。
MaxCompute コンソールに移動します。左側のナビゲーションウィンドウで、 を選択します。
[プロジェクトの作成] をクリックして、2 つの MaxCompute プロジェクトを作成します。次の表に、このチュートリアルの主要なパラメーターを示します。その他のパラメーターにはデフォルト値を使用できます。詳細については、「MaxCompute プロジェクトの作成」をご参照ください。
設定項目
設定
プロジェクト名
カスタム。グローバルに一意である必要があります。
このチュートリアルの例:
本番環境:
workshop2024_01開発環境:
workshop2024_01_dev
[課金方法]
このチュートリアルでは、[従量課金] を選択します。
デフォルト クォータ
このチュートリアルでは、ドロップダウンリストから [デフォルトの従量課金クォータ] を選択します。
データ型エディション
このチュートリアルでは、ドロップダウンリストから [データ型 2.0 (推奨)] を選択します。
ストレージ暗号化
このチュートリアルでは、[暗号化しない] を選択します。
MaxCompute プロジェクトの作成方法の詳細については、「MaxCompute プロジェクトの作成」をご参照ください。
DataWorks 環境の準備
開発に DataWorks を使用する前に、DataWorks サービスが有効化されていることを確認してください。詳細については、「購入ガイド」をご参照ください。
1. ワークスペースの作成
DataWorks コンソールにログインします。上部のナビゲーションバーで、[中国 (上海)] リージョンを選択します。左側のナビゲーションウィンドウで [ワークスペース] をクリックして、[ワークスペース] ページに移動します。
[ワークスペースの作成] をクリックします。[開発環境と本番環境を分離] を選択します。[Data Studio (新バージョン) を使用] は選択しないでください。
2025 年 2 月 18 日以降、初めて DataWorks を有効化し、中国 (上海) リージョンにワークスペースを作成する場合、DataStudio の新バージョンがデフォルトで有効になります。[Data Studio (新バージョン) を使用] パラメーターは表示されません。DataStudio の新バージョンがすでにデフォルトで有効になっている場合は、「DataStudio の新バージョンを体験する」をご参照ください。
ワークスペースの作成方法の詳細については、「ワークスペースの作成」をご参照ください。
2. サーバーレスリソースグループの作成
このチュートリアルでは、OSS と MySQL から MaxCompute にデータを同期する必要があります。同期タスクは DataWorks のサーバーレスリソースグループで実行されます。したがって、サーバーレスリソースグループを購入し、必要な準備を完了する必要があります。
Serverless リソースグループの購入。
このチュートリアルでは、データ同期とスケジューリングのために DataWorks のサーバーレスリソースグループが必要です。サーバーレスリソースグループを購入し、必要な準備を完了する必要があります。
[DataWorks - リソースグループ] ページにログインします。上部のナビゲーションバーで、リージョンを [中国 (上海)] に切り替えます。左側のナビゲーションウィンドウで [リソースグループ] をクリックして、[リソースグループ] ページを開きます。
[リソースグループの作成] をクリックします。リソースグループの購入ページで、[リージョンとゾーン] を [中国 (上海)] に設定し、[リソースグループ名] を指定します。プロンプトに従って他のパラメーターを設定し、支払いを完了します。サーバーレスリソースグループの課金の詳細については、「サーバーレスリソースグループの課金」をご参照ください。
説明現在のリージョンで利用可能な Virtual Private Cloud (VPC) や vSwitch がない場合は、パラメーターの説明にあるコンソールリンクをクリックして作成できます。VPC と vSwitch の詳細については、「VPC とは」をご参照ください。
リソースグループと DataWorks ワークスペースの関連付け
新しく購入したサーバーレスリソースグループは、使用する前にワークスペースにアタッチする必要があります。
[DataWorks - リソースグループ] ページにログインします。上部のナビゲーションバーで、リージョンを [中国 (上海)] に切り替えます。購入したサーバーレスリソースグループを見つけます。[操作] 列で、[ワークスペースの関連付け] をクリックします。次に、作成した DataWorks ワークスペースの横にある [関連付け] をクリックします。
リソースグループのインターネットアクセスの設定。
このチュートリアルのテストデータはインターネットから取得されます。デフォルトでは、リソースグループはインターネットにアクセスできません。リソースグループにアタッチされている VPC にインターネット NAT ゲートウェイを設定し、Elastic IP アドレス (EIP) を追加する必要があります。これにより、VPC がインターネットに接続され、データを取得できるようになります。
[VPC - インターネット NAT ゲートウェイ] コンソールにログインします。上部のメニューバーで、[中国 (上海)] リージョンを選択します。
[インターネット NAT ゲートウェイの作成] をクリックし、パラメーターを設定します。次の表に、このチュートリアルの主要なパラメーターを示します。その他のすべてのパラメーターには、デフォルト値を使用します。
パラメーター
値
リージョン
中国 (上海)。
[ネットワークとゾーン]
リソースグループにアタッチされている VPC と vSwitch を選択します。
DataWorks コンソールに移動し、リージョンを切り替え、左側のナビゲーションウィンドウで [リソースグループ] をクリックします。作成したリソースグループを見つけ、[操作] 列の [ネットワーク設定] をクリックします。[データスケジューリング & データ統合] セクションで、関連付けられている VPC と vSwitch を表示します。VPC と vSwitch の詳細については、「VPC とは」をご参照ください。
ネットワークタイプ
インターネット NAT ゲートウェイ
EIP
新しい EIP の購入。
[サービスリンクロールの作成]
初めて NAT Gateway を作成するときは、サービスリンクロールを作成する必要があります。[サービスリンクロールの作成] をクリックします。
[今すぐ購入] をクリックし、サービス利用規約に同意してから [今すぐ有効化] をクリックして購入を完了します。
サーバーレスリソースグループの追加と使用方法の詳細については、「サーバーレスリソースグループの使用」をご参照ください。
3. MaxCompute プロジェクトの関連付け
作成した MaxCompute プロジェクトをコンピューティングリソースとして DataWorks ワークスペースにアタッチする必要があります。これにより、データ開発モジュールを使用して MaxCompute でデータを処理できます。
[DataWorks - ワークスペース] ページに移動します。上部のナビゲーションバーで、リージョンを [中国 (上海)] に切り替えます。ご利用のワークスペースを見つけてその名前をクリックし、[ワークスペース詳細] ページに移動します。
左側のナビゲーションウィンドウで [コンピューティングリソース] をクリックします。 ページにリダイレクトされます。
[コンピューティングリソースの作成] をクリックします。コンピューティングリソースのタイプを選択し、パラメーターを設定してリソースをアタッチします。
このチュートリアルでは、コンピューティングおよびストレージリソースとして MaxCompute を使用します。次の表に、その他の主要なパラメーターを示します。その他のすべてのパラメーターには、デフォルト値を使用します。
パラメーター
説明
データソース名
カスタム名。コンピューティングリソースを識別します。実行時に、コンピューティングリソースインスタンス名を使用して、タスクのコンピューティングリソースを選択します。
[Alibaba Cloud アカウント]
[現在の Alibaba Cloud アカウント] を選択します。
リージョン
現在の DataWorks ワークスペースと同じリージョンを選択します: [中国 (上海)]。
Maxcompute プロジェクト名
アタッチする MaxCompute プロジェクトを選択します。このチュートリアルでは、「ステップ 2」で作成した対応する MaxCompute プロジェクトを本番環境と開発環境にアタッチします。
デフォルト アクセス ID
現在のワークスペースで MaxCompute プロジェクトにアクセスするために使用される ID を定義します。
開発環境: [Executor] ID のみがサポートされます。
本番環境: 現在のログインアカウントに基づいてドロップダウンリストから ID を選択します。このチュートリアルでは、[Alibaba Cloud アカウント] を選択します。
説明異なる ID でログインしている場合は、「DataStudio の新バージョン:MaxCompute コンピュートエンジンをアタッチする」で設定の詳細をご参照ください。
接続設定
MaxCompute コンピューティングリソースに接続するために使用されるリソースグループ。現在のワークスペースに作成およびアタッチしたサーバーレスリソースグループがここに表示されます。開発環境と本番環境の両方で接続性をテストする必要があります。
[コンピューティングリソースを作成して DataStudio に関連付ける] をクリックします。
ページ上のプロンプトに従います。データ開発のコンピューティングリソースページをリフレッシュすると、アタッチされた MaxCompute コンピューティングリソースが表示されます。
説明MaxCompute コンピューティングリソースのステータスが関連付けられていない場合は、[関連付け] をクリックします。
次のステップ
環境の準備が完了したので、次のチュートリアルに進むことができます。次のチュートリアルでは、基本的なユーザー情報とウェブサイトのアクセスログを MaxCompute に同期する方法を学びます。詳細については、「データの同期」をご参照ください。