EMR Serverless Spark パイプラインによるユーザープロファイル分析の構築 - DataWorks

このチュートリアルでは、ユーザープロファイル分析のケースを例に、中国 (上海) リージョンで DataWorks を使用したデータ同期、データ変換、品質モニタリングなどのエンドツーエンドの操作方法を説明します。このチュートリアルを完了するには、必要な E-MapReduce (EMR) Serverless Spark スペースと DataWorks ワークスペースを準備する必要があります。

ビジネスバックグラウンド

より良いビジネス戦略を策定するためには、Web サイトのユーザーグループの行動に基づいて、その基本的なプロファイルデータを取得する必要があります。このデータには、地理的および社会的属性が含まれます。これにより、定期的にプロファイル分析を実行し、きめ細かな Web サイトのトラフィック運用を実装できます。

事前準備

このチュートリアルを進めるには、「はじめに」をご参照いただき、ユーザープロファイル分析の実験についてご理解ください。

注意事項

このチュートリアルでは、必要なユーザー情報と Web サイトアクセスのテストデータが提供されます。
このチュートリアルのデータは、DataWorks での実践練習のみを目的としています。すべてのデータはモックデータです。
このチュートリアルでは、データ変換に Data Studio (新バージョン) を使用します。

OSS 環境の準備

Object Storage Service (OSS) バケットを作成する必要があります。ユーザー情報と Web サイトのアクセスログは、データモデリングと分析のためにこのバケットに同期されます。

OSS コンソールにログインします。
左側のナビゲーションウィンドウで、[バケットリスト] をクリックします。[バケットリスト] ページで、[バケットの作成] をクリックします。

[バケットの作成] ダイアログボックスで、パラメーターを設定し、[作成] をクリックします。パラメーターは次のとおりです：

パラメーター	値
バケット名	この例では、名前は `dw-spark-demo` です。
リージョン	中国 (上海) を選択します。
HDFS サービス	インターフェイスのプロンプトに従って HDFS サービスを有効にします。

[バケットリスト] ページで、バケット名をクリックして、[ファイル管理] ページを開きます。

EMR Serverless Spark ワークスペースの準備

このチュートリアルでは EMR Serverless Spark を使用します。Spark ワークスペースがあることを確認してください。ない場合は、ワークスペースを作成してください。パラメーターを次のように設定します：

パラメーター	値
リージョン	中国 (上海)
課金方法	従量課金。
ワークスペース名	カスタム名を入力します。
メタデータサービスとして DLF を使用	バインドする Data Lake Formation (DLF) データカタログを選択します。異なる EMR クラスター間でメタデータを完全に分離したい場合は、異なるカタログを選択します。重要 DLF および DLF-Legacy (インターフェイス上では DLF 1.0 と表示) バージョンがサポートされています。バージョンを選択した後、それに応じて Paimon または Hive テーブルを作成します。
ワークスペースのベースパス	ジョブのログファイルを保存する OSS バケットパスを選択します。

説明

Professional Edition：このワークスペースには、Basic Edition のすべての機能に加えて、高度な機能とパフォーマンスの向上が含まれています。大規模な抽出、変換、ロード (ETL) ジョブに最適です。
Basic Edition：このワークスペースには、すべての基本機能と高性能コンピューティングエンジンが含まれています。

DataWorks 環境の準備

DataWorks を使用して開発を行う前に、DataWorks サービスが有効化されていることを確認してください。詳細については、「購入」をご参照ください。

1. ワークスペースの作成

中国 (上海) リージョンにすでにワークスペース (新バージョン) がある場合は、このステップをスキップして既存のワークスペースを使用できます。

DataWorks コンソールにログインします。上部のナビゲーションバーで、リージョンを 中国 (上海) に設定します。左側のナビゲーションウィンドウで、ワークスペース をクリックしてワークスペースリストページに移動します。
[ワークスペースの作成] をクリックして [Data Studio (新バージョン) を使用] ワークスペースを作成し、[開発環境と本番環境の分離] を有効にします。
説明
2025年2月18日以降、Alibaba Cloud アカウントが初めて DataWorks を有効化し、中国 (上海) リージョンにワークスペースを作成する際、新しい Data Studio がデフォルトで有効になります。

ワークスペースの作成方法の詳細については、「ワークスペースの作成」をご参照ください。

2. サーバーレスリソースグループの作成

サーバーレスリソースグループの購入
このチュートリアルでは、データ同期とスケジューリングのために DataWorks サーバーレスリソースグループが必要です。まず、サーバーレスリソースグループを購入し、初期設定を完了する必要があります。
1. DataWorks - リソースグループリストページにログインします。上部のナビゲーションバーで、リージョンを 中国 (上海) に設定します。左側のナビゲーションウィンドウで、リソースグループ をクリックしてリソースグループリストページに移動します。
2. [リソースグループの作成] をクリックします。購入ページで、[リージョンとゾーン] を 中国 (上海) に設定し、[リソースグループ名] を指定します。プロンプトに従って他のパラメーターを設定し、支払いを完了します。サーバーレスリソースグループの課金の詳細については、「サーバーレスリソースグループの課金」をご参照ください。
  説明
  現在のリージョンで利用可能な VPC または vSwitch がない場合は、パラメーターの説明にあるコンソールリンクをクリックして作成します。VPC と vSwitch の詳細については、「Virtual Private Cloud (VPC) とは」をご参照ください。
リソースグループと DataWorks ワークスペースのバインド
新しく購入したサーバーレスリソースグループは、使用する前にワークスペースにバインドする必要があります。
DataWorks - リソースグループリストページにログインし、上部のナビゲーションバーでリージョンを 中国 (上海) に設定します。購入したサーバーレスリソースグループを見つけます。[操作] 列で、[ワークスペースの関連付け] をクリックし、作成した DataWorks ワークスペースの横にある [関連付け] をクリックします。

リソースグループのパブリックネットワークアクセスの設定

このチュートリアルのテストデータはインターネットから取得されます。デフォルトでは、リソースグループにはパブリックネットワークアクセスがありません。リソースグループにバインドされている VPC にインターネット NAT ゲートウェイを設定し、EIP を追加してパブリックネットワークからデータを取得する必要があります。

VPC - インターネット NAT ゲートウェイコンソールにログインします。上部のメニューバーで、リージョンを 中国 (上海) に設定します。

[インターネット NAT ゲートウェイの作成] をクリックし、パラメーターを設定します。次の表に、このチュートリアルの主要なパラメーターを示します。記載されていないパラメーターはデフォルト値のままにします。

パラメーター	値
リージョン	中国 (上海)。
ネットワークとゾーン	リソースグループにバインドされている VPC と vSwitch を選択します。 DataWorks コンソールに移動し、中国 (上海) リージョンに切り替えることができます。左側のナビゲーションウィンドウで、リソースグループをクリックします。作成したリソースグループを見つけ、[操作] 列の [ネットワーク設定] をクリックします。[データスケジューリング & データ統合] エリアで、関連付けられている VPC と VSwitch を表示します。VPC と vSwitch の詳細については、「Virtual Private Cloud (VPC) とは」をご参照ください。
ネットワークタイプ	インターネット NAT ゲートウェイ。
EIP	EIP の作成。
サービスリンクロールの作成	初めて NAT ゲートウェイを作成する場合、サービスリンクロールを作成する必要があります。[サービスリンクロールの作成] をクリックします。

[今すぐ購入] をクリックし、サービス利用規約を選択してから [今すぐ有効化] をクリックして購入を完了します。

サーバーレスリソースグループの追加と使用方法の詳細については、「サーバーレスリソースグループの使用」をご参照ください。

3. コンピューティングリソースとしての EMR Serverless Spark のバインド

DataWorks - ワークスペースリストページに移動します。上部のナビゲーションバーで、リージョンを 中国 (上海) に設定します。作成したワークスペースを見つけ、その名前をクリックして ワークスペースの詳細 ページを開きます。
左側のナビゲーションウィンドウで、コンピューティングリソース をクリックします。

[コンピューティングリソースの関連付け] をクリックし、コンピューティングリソースタイプを選択してから、パラメーターを設定します。

このチュートリアルでは、コンピューティングおよびストレージリソースとして EMR Serverless Spark を使用します。コンピューティングリソースタイプを EMR Serverless Spark に設定し、次の表で説明する主要なパラメーターを設定します。その他のパラメーターはデフォルト値のままにします。

パラメーター	説明
Spark ワークスペース	バインドする Spark ワークスペースを選択します。ドロップダウンリストから、EMR Serverless Spark ワークスペースを選択します。ドロップダウンリストの [作成] をクリックして EMR Serverless Spark コンソールに移動し、ワークスペースを作成することもできます。その後、DataWorks ワークスペースに戻り、新しい Spark ワークスペースを選択します。説明ワークスペースを作成した際に開発環境と本番環境を分離することを選択した場合、ここでは両方の環境に対して Spark ワークスペースを選択する必要があります。 Spark ワークスペースの作成方法の詳細については、「Spark ワークスペースの作成」をご参照ください。
デフォルトのエンジンバージョン	Data Studio で EMR Spark タスクを作成すると、ここで設定したエンジンバージョンとリソースキューがデフォルトで使用されます。
デフォルトのリソースキュー
デフォルトのアクセス ID	現在の DataWorks ワークスペースで Spark ワークスペースにアクセスするために使用される ID を定義します。開発環境：Executor ID のみがサポートされています。本番環境：Alibaba Cloud アカウント、RAM ユーザー、およびタスク所有者がサポートされています。
コンピューティングリソースインスタンス名	コンピューティングリソースを識別します。タスクの実行時に、インスタンス名を使用してタスクのコンピューティングリソースが選択されます。

[確認] をクリックして、サーバーレス Spark コンピューティングリソースの設定を完了します。

コンピューティングリソースのバインド方法の詳細については、「コンピューティングリソースのバインド」をご参照ください。

次のステップ

環境の準備が整ったので、次のチュートリアルに進むことができます。ユーザー情報と Web サイトのアクセスログを OSS に同期し、Spark SQL ノードを使用してテーブルを作成し、同期されたデータをクエリする方法を学びます。詳細については、「データの同期」をご参照ください。