DataWorks による MaxCompute ユーザープロファイリングパイプラインの構築 - DataWorks

このチュートリアルでは、中国 (上海) リージョンでユーザープロファイルを構築する方法を説明します。DataWorks の生データセットを使用して、データ同期、変換、品質モニタリングの全プロセスをガイドします。事前に MaxCompute プロジェクトと DataWorks ワークスペースを準備し、データソース、コンピューティングリソース、ストレージリソースを設定する必要があります。

背景情報

より良いビジネス戦略を立てるには、ウェブサイトの動作に基づいて、ウェブサイトのユーザーグループに関する基本的なプロファイルデータ (地理的属性や社会的属性など) を取得する必要があります。これにより、スケジュールされた時間にプロファイル分析を実行し、詳細なウェブサイトのトラフィック運用を実装できます。

事前準備

このチュートリアルを進めるには、概要を読み、ユーザープロファイル分析実験について理解してください。

注意事項

このチュートリアルでは、必要なユーザー情報とウェブサイトアクセスのテストデータを提供します。
このチュートリアルのデータは、DataWorks でのハンズオン演習のみを目的としています。すべてのデータはモックデータです。
このチュートリアルでは、データ変換に Data Studio (新バージョン) を使用します。

MaxCompute 環境の準備

1. MaxCompute の有効化

このチュートリアルでは MaxCompute を使用します。まず、MaxCompute を有効化します。中国 (上海) リージョンで、以下のパラメーターを使用して設定します。

[リージョン]：中国 (上海)
[仕様タイプ]：スタンダード。

2. MaxCompute プロジェクトの作成

標準の DataWorks ワークスペースには、開発環境用と本番環境用に 2 つの MaxCompute プロジェクトが必要です。これらのプロジェクトはコンピューティングリソースとして機能します。

MaxCompute コンソールに移動します。左側のナビゲーションウィンドウで、[設定の管理] > [プロジェクト] を選択します。

[プロジェクトの作成] をクリックして、2 つの MaxCompute プロジェクトを作成します。次の表に、このチュートリアルの主要なパラメーターを示します。言及されていないパラメーターについては、デフォルト値をそのまま使用してください。

設定項目	設定
[プロジェクト名 (グローバルに一意)]	カスタム。グローバルに一意である必要があります。このチュートリアルでは、以下を使用します：本番環境： workshop2024_01 開発環境： workshop2024_01_dev
[課金方法]	このチュートリアルでは、従量課金を使用します。
デフォルトクォータ	このチュートリアルでは、os_PayAsYouGoQuota を使用します。
データ型エディション	このチュートリアルでは、2.0 データ型 (推奨) を使用します。
ストレージ暗号化	このチュートリアルでは、暗号化なしを使用します。

MaxCompute プロジェクトの作成方法の詳細については、「MaxCompute プロジェクトの作成」をご参照ください。

DataWorks 環境の準備

DataWorks を使用して開発を行う前に、DataWorks サービスが有効化されていることを確認してください。詳細については、「購入」をご参照ください。

1. ワークスペースの作成

中国 (上海) リージョンにすでにワークスペース (新バージョン) がある場合は、このステップをスキップして既存のワークスペースを使用できます。

DataWorks コンソールにログインします。上部のナビゲーションバーで、リージョンを [中国 (上海)] に設定します。左側のナビゲーションウィンドウで [ワークスペース] をクリックし、ワークスペースリストページに移動します。
[ワークスペースの作成] をクリックして [Data Studio (新バージョン) を使用] するワークスペースを作成し、[開発環境と本番環境を分離] を有効にします。
説明
2025 年 2 月 18 日以降、Alibaba Cloud アカウントが初めて DataWorks を有効化し、中国 (上海) リージョンにワークスペースを作成する際に、新しい Data Studio がデフォルトで有効になります。

ワークスペースの作成方法の詳細については、「ワークスペースの作成」をご参照ください。

2. サーバーレスリソースグループの作成

サーバーレスリソースグループの購入
このチュートリアルでは、データ同期とスケジューリングのために DataWorks のサーバーレスリソースグループが必要です。まず、サーバーレスリソースグループを購入し、初期設定を完了する必要があります。
1. DataWorks - リソースグループリストページにログインします。上部のナビゲーションバーで、リージョンを [中国 (上海)] に設定します。左側のナビゲーションウィンドウで [リソースグループ] をクリックし、リソースグループリストページに移動します。
2. [リソースグループの作成] をクリックします。購入ページで、[リージョンとゾーン] を [中国 (上海)] に設定し、[リソースグループ名] を指定します。プロンプトに従って他のパラメーターを設定し、支払いを完了します。サーバーレスリソースグループの課金の詳細については、「サーバーレスリソースグループの課金」をご参照ください。
  説明
  現在のリージョンで利用可能な VPC または vSwitch がない場合は、パラメーターの説明にあるコンソールリンクをクリックして作成してください。VPC と vSwitch の詳細については、「Virtual Private Cloud (VPC) とは」をご参照ください。
リソースグループを DataWorks ワークスペースにバインド
新しく購入したサーバーレスリソースグループは、使用する前にワークスペースにバインドする必要があります。
DataWorks - リソースグループリストページにログインし、上部のナビゲーションバーでリージョンを [中国 (上海)] に設定します。購入したサーバーレスリソースグループを探します。 [操作] 列で [ワークスペースの関連付け] をクリックし、作成した DataWorks ワークスペースの横にある [関連付け] をクリックします。

リソースグループのパブリックネットワークアクセスを設定

このチュートリアルのテストデータはインターネットから取得されます。デフォルトでは、リソースグループにはパブリックネットワークアクセスがありません。リソースグループにバインドされている VPC に Internet NAT Gateway を設定し、EIP を追加してパブリックネットワークからデータを取得する必要があります。

VPC - Internet NAT Gateway コンソールにログインします。上部のメニューバーで、リージョンを [中国 (上海)] に設定します。

[Internet NAT Gateway の作成] をクリックし、パラメーターを設定します。次の表に、このチュートリアルで使用する主要なパラメーターを示します。記載されていないパラメーターは、デフォルト値のままにしてください。

パラメーター	値
リージョン	中国 (上海)。
ネットワークとゾーン	リソースグループにバインドされている VPC と vSwitch を選択します。 DataWorks コンソールに移動し、中国 (上海) リージョンに切り替えることができます。左側のナビゲーションウィンドウで、[リソースグループ] をクリックします。作成したリソースグループを見つけ、[操作] 列の [ネットワーク設定] をクリックします。[データスケジューリング & データ統合] エリアで、関連付けられている [VPC] と [vSwitch] を表示します。VPC と vSwitch の詳細については、「VPC (Virtual Private Cloud) とは」をご参照ください。
ネットワークタイプ	インターネット NAT Gateway。
EIP	EIP を作成します。
サービスリンクロールの作成	初めて NAT Gateway を作成する場合、サービスリンクロールを作成する必要があります。[サービスリンクロールの作成] をクリックします。

[今すぐ購入] をクリックし、利用規約を選択してから [今すぐ有効化] をクリックして購入を完了します。

NAT Gateway インスタンスの購入が成功したら、コンソールに戻り、新しく購入した NAT Gateway インスタンスの SNAT エントリを作成します。

説明

この VPC を使用するリソースグループは、SNAT エントリが設定された後にのみインターネットにアクセスできます。

新しく購入したインスタンスを見つけ、[操作] 列の [管理] をクリックして対象の NAT Gateway インスタンスの管理ページに入り、[SNAT] タブに切り替えます。

[SNAT エントリリスト] セクションで、[SNAT エントリの作成] をクリックします。主要な設定は次のとおりです：

パラメーター	値
SNAT エントリ	[VPC の指定] を選択します。これにより、NAT Gateway が属する VPC 内のすべてのリソースグループが、設定された EIP を介してインターネットにアクセスできるようになります。
EIP の選択	現在の NAT Gateway インスタンスにバインドされている EIP を選択します。

パラメーターを設定した後、[OK] をクリックして SNAT エントリを作成します。

SNAT エントリリストで、新しく作成された SNAT エントリのステータスが [利用可能] に変わると、リソースグループにバインドされた VPC がインターネットアクセス機能を持つようになったことを示します。

サーバーレスリソースグループの追加と使用方法の詳細については、「サーバーレスリソースグループの使用」をご参照ください。

3. MaxCompute をコンピューティングリソースとしてバインド

作成した MaxCompute プロジェクトをコンピューティングリソースとして DataWorks ワークスペースにバインドする必要があります。これにより、Data Studio モジュール内で MaxCompute のデータを処理できるようになります。

DataWorks - ワークスペースリストページに移動します。上部のナビゲーションバーで、リージョンを [中国 (上海)] に設定します。作成したワークスペースを見つけ、その名前をクリックして [ワークスペース詳細] ページを開きます。
左側のナビゲーションウィンドウで、[コンピューティングリソース] をクリックします。

[コンピューティングリソースの関連付け] をクリックし、コンピューティングリソースタイプを選択してから、パラメーターを設定します。

このチュートリアルでは、コンピューティングおよびストレージリソースとして MaxCompute を使用します。コンピューティングリソースタイプとして [MaxCompute] を選択し、そのパラメーターを設定します。次の表に、主要なパラメーターを示します。他のパラメーターはデフォルト値のままにすることができます。

パラメーター	説明
MaxCompute プロジェクト	バインドする MaxCompute プロジェクトを選択します。このチュートリアルでは、ステップ 2 で作成した対応する MaxCompute プロジェクトを本番環境と開発環境にバインドします。
デフォルトのアクセス ID	現在のワークスペースから MaxCompute プロジェクトにアクセスするために使用される ID です。開発環境： Executor ID のみがサポートされています。本番環境：現在のログインアカウントに基づいてドロップダウンリストから選択します。このチュートリアルでは Alibaba Cloud アカウントを使用します。説明別の ID でログインしている場合は、構成の詳細について、「New Data Studio: MaxCompute コンピューティングリソースのバインド」をご参照ください。
コンピューティングリソースインスタンス名	コンピューティングリソースを識別するためのカスタム名です。この名前は、ランタイムでタスクのコンピューティングリソースを選択するために使用されます。
接続構成	MaxCompute コンピューティングリソースへの接続に使用されるリソースグループです。作成して現在のワークスペースにバインドした Serverless リソースグループがここに表示されます。開発環境と本番環境の両方で接続性をテストする必要があります。

[確認] をクリックして、MaxCompute コンピューティングリソースの設定を完了します。

コンピューティングリソースのバインド方法の詳細については、「コンピューティングリソースのバインド」をご参照ください。

次のステップ

環境の準備が整いましたので、次のチュートリアルに進むことができます。次のチュートリアルでは、基本的なユーザー情報とユーザーのウェブサイトアクセスログを OSS に同期し、ODPS SQL ノードを使用してテーブルを作成し、同期されたデータをクエリする方法を学びます。詳細については、「データの同期」をご参照ください。