このチュートリアルでは、中国 (上海) リージョンでユーザープロファイルを構築する方法を説明します。DataWorks の生データセットを使用して、データ同期、変換、品質監視の全プロセスをガイドします。事前に MaxCompute プロジェクトと DataWorks ワークスペースを準備し、データソース、計算リソース、およびストレージリソースを構成する必要があります。
ビジネス背景
より良いビジネス戦略を立てるには、ウェブサイトのユーザーグループに関する基本的なプロファイルデータ (地理的属性や社会的属性など) を、彼らのウェブサイトでの行動に基づいて取得する必要があります。これにより、スケジュールされた時間にプロファイル分析を実行し、詳細なウェブサイトトラフィック操作を実装できます。
開始する前に
このチュートリアルに従うには、実験の概要を読んで、ユーザープロファイル分析実験について理解してください。
注意事項
このチュートリアルでは、必要なユーザー情報とウェブサイトのアクセス テストデータを提供します。
このチュートリアルのデータは、DataWorks のビッグデータ開発およびガバナンスプラットフォームでの実践的な演習のみを目的としています。すべてのデータは模擬データです。
このチュートリアルでは、データ変換に データ開発 (DataStudio) (新バージョン) を使用します。
MaxCompute 環境の準備
1. MaxCompute の有効化
このチュートリアルでは MaxCompute を使用します。まず、次のパラメーターを使用して、中国 (上海) リージョンで MaxCompute を有効化します。
リージョン: 中国 (上海)
仕様タイプ: 標準計算リソース。
2. MaxCompute プロジェクトの作成
標準の DataWorks ワークスペースには、2 つの MaxCompute プロジェクトが必要です。1 つは開発環境用、もう 1 つは本番環境用です。これらのプロジェクトは計算リソースとして機能します。
MaxCompute コンソールに移動します。左側のナビゲーションウィンドウで、 を選択します。
[プロジェクトの作成] をクリックして、2 つの MaxCompute プロジェクトを作成します。次の表に、このチュートリアルの主要なパラメーターを示します。記載されていないパラメーターはデフォルト値のままにしてください。
構成項目
構成
プロジェクト名
カスタム。グローバルに一意である必要があります。
このチュートリアルでは、以下を使用します:
本番環境: workshop2024_01
開発環境: workshop2024_01_dev
計算リソースの課金方法
このチュートリアルでは、従量課金制を使用します。
デフォルトクォータ
このチュートリアルでは、デフォルトの後払いクォータを使用します。
データ型
このチュートリアルでは、2.0 データ型 (推奨) を使用します。
暗号化
このチュートリアルでは、暗号化しないを使用します。
MaxCompute プロジェクトの作成方法の詳細については、「MaxCompute プロジェクトの作成」をご参照ください。
DataWorks 環境の準備
DataWorks を使用する前に、DataWorks サービスを有効化してください。
1. ワークスペースの作成
中国 (上海) リージョンに既にワークスペース (新バージョン) がある場合は、このステップをスキップして既存のワークスペースを使用できます。
DataWorks コンソールにログインします。上部のナビゲーションバーで、リージョンを [中国 (上海)] に設定します。左側のナビゲーションウィンドウで [ワークスペース] をクリックして、ワークスペースリストページに移動します。
[ワークスペースの作成] をクリックして [Data Studio (新バージョン) を使用] ワークスペースを作成し、[データ開発 (DataStudio) の新バージョンを使用] と [本番環境と開発環境を分離] を選択します。
説明2025 年 2 月 18 日以降、Alibaba Cloud アカウントが初めて DataWorks を有効化し、中国 (上海) リージョンにワークスペースを作成すると、デフォルトで新しいバージョンのデータ開発が有効になります。
ワークスペースの作成方法の詳細については、「ワークスペースの作成」をご参照ください。
2. Serverless リソースグループの作成
Serverless リソースグループを購入します。
このチュートリアルでは、データ同期とスケジューリングのために DataWorks Serverless リソースグループが必要です。まず、Serverless リソースグループを購入し、初期設定を完了する必要があります。
DataWorks - リソースグループリスト ページにログインします。上部のナビゲーションバーで、リージョンを [中国 (上海)] に設定します。左側のナビゲーションウィンドウで [リソースグループ] をクリックして、[リソースグループリスト] ページに移動します。
[リソースグループの作成] をクリックします。購入ページで、[リージョンとゾーン] を [中国 (上海)] に設定し、[リソースグループ名] を指定します。プロンプトに従って他のパラメーターを構成し、支払いを完了します。Serverless リソースグループの課金の詳細については、「Serverless リソースグループの課金」をご参照ください。
説明現在のリージョンで利用可能な VPC または vSwitch がない場合は、パラメーターの説明にあるコンソールリンクをクリックして作成します。VPC と vSwitch の詳細については、「仮想プライベートクラウド (VPC) とは」をご参照ください。
リソースグループを DataWorks ワークスペースにバインドします。
新しく購入した Serverless リソースグループは、使用する前にワークスペースにバインドする必要があります。
DataWorks - リソースグループリスト ページにログインし、上部のナビゲーションバーでリージョンを [中国 (上海)] に設定します。購入した Serverless リソースグループを見つけます。[アクション] 列で [ワークスペースのアタッチ] をクリックし、作成した DataWorks ワークスペースの横にある [アタッチ] をクリックします。
リソースグループのパブリックネットワークアクセスを構成します。
このチュートリアルのテストデータはインターネットから取得されます。デフォルトでは、リソースグループにはパブリックネットワークアクセスがありません。リソースグループにバインドされている VPC にインターネット NAT Gateway を構成し、EIP を追加してパブリックネットワークからデータを取得する必要があります。
VPC - インターネット NAT Gateway コンソールにログインします。上部のメニューバーで、リージョンを [中国 (上海)] に設定します。
[インターネット NAT Gateway の作成] をクリックして、パラメーターを構成します。次の表に、このチュートリアルの主要なパラメーターを示します。記載されていないパラメーターはデフォルト値のままにしてください。
パラメーター
値
リージョン
中国 (上海)。
ネットワークとゾーン
リソースグループにバインドされている VPC と vSwitch を選択します。
DataWorks コンソールに移動し、[中国 (上海)] リージョンに切り替えることができます。左側のナビゲーションウィンドウで、[リソースグループリスト] をクリックします。作成したリソースグループを見つけ、[アクション] 列の [ネットワーク設定] をクリックします。[データスケジューリング & データ統合] エリアで、[アタッチされた VPC] と [VSwitch] を表示します。VPC と vSwitch の詳細については、「仮想プライベートクラウド (VPC) とは」をご参照ください。
ネットワークタイプ
インターネット NAT Gateway。
Elastic IP アドレスインスタンス
Elastic IP アドレスの作成。
サービスリンクロールの作成
NAT Gateway を初めて作成するときは、サービスリンクロールを作成する必要があります。[サービスリンクロールの作成] をクリックします。
[今すぐ購入] をクリックし、サービス利用規約を選択してから [今すぐ有効化] をクリックして購入を完了します。
Serverless リソースグループの追加と使用方法の詳細については、「Serverless リソースグループの使用」をご参照ください。
3. 計算リソースとして MaxCompute をバインドする
作成した MaxCompute プロジェクトを計算リソースとして DataWorks ワークスペースにバインドする必要があります。その後、データ開発モジュール内で MaxCompute のデータを処理できます。
DataWorks - ワークスペースリストページに移動します。上部のナビゲーションバーで、リージョンを [中国 (上海)] に設定します。作成したワークスペースを見つけてその名前をクリックし、[ワークスペース詳細] ページを開きます。
左側のナビゲーションウィンドウで、[計算リソース] をクリックします。
[計算リソースのバインド] をクリックし、バインドする [計算リソースタイプ] を選択してから、パラメーターを構成します。
このチュートリアルでは、計算およびストレージリソースとして MaxCompute を使用します。計算リソースタイプとして [MaxCompute] を選択し、そのパラメーターを構成します。次の表に、主要なパラメーターを示します。他のパラメーターはデフォルト値のままにすることができます。
パラメーター
説明
MaxCompute プロジェクト
バインドする MaxCompute プロジェクトを選択します。このチュートリアルでは、ステップ 2 で作成した対応する MaxCompute プロジェクトを本番環境と開発環境にバインドします。
デフォルトのアクセス ID
現在のワークスペースから MaxCompute プロジェクトにアクセスするために使用される ID を定義します。
開発環境: [Executor] ID のみがサポートされます。
本番環境: 現在のログインアカウントに基づいてドロップダウンリストから選択します。このチュートリアルでは、[Alibaba Cloud アカウント] を使用します。
説明異なる ID でログインしている場合は、構成の詳細について、「新バージョンのデータ開発: MaxCompute 計算リソースのバインド」をご参照ください。
計算リソースインスタンス名
計算リソースを識別するためのカスタム名。この名前は、実行時にタスクの計算リソースを選択するために使用されます。
接続構成
MaxCompute 計算リソースへの接続に使用されるリソースグループ。作成して現在のワークスペースにバインドした Serverless リソースグループがここに表示されます。開発環境と本番環境の両方で接続性をテストする必要があります。
[確認] をクリックして、MaxCompute 計算リソースの構成を完了します。
計算リソースのバインド方法の詳細については、「計算リソースのバインド」をご参照ください。
次のステップ
環境の準備が整ったので、次のチュートリアルに進むことができます。次のチュートリアルでは、基本的なユーザー情報とユーザーのウェブサイトアクセスログを OSS に同期し、ODPS SQL ノードを使用してテーブルを作成し、同期されたデータをクエリする方法を学びます。詳細については、「データの同期」をご参照ください。