新バージョンの Data Studio と EMR 計算リソースに基づくユーザープロファイル分析のための環境を準備する - DataWorks

このチュートリアルでは、ユーザープロファイル分析を実行する方法について説明します。このチュートリアルでは、DataWorks を使用してデータの同期、処理、品質の監視を行います。チュートリアルを想定どおりに完了するには、チュートリアルに必要な E-MapReduce (EMR) クラスタと DataWorks ワークスペースを作成し、環境を構成する必要があります。

ビジネス背景

効果的なビジネス管理戦略を策定するには、Web サイトでの活動に基づいて、Web サイトユーザーの基本的なプロファイルデータを取得する必要があります。基本的なプロファイルデータには、Web サイトユーザーの地理的属性と社会的属性が含まれます。プロファイルデータを時間と場所ごとに分析することで、Web サイトトラフィックの洗練された操作が可能になります。

使用上の注意

ユーザープロファイル分析実験の全プロセスを深く理解するには、「実験の概要」をご参照ください。これは、チュートリアルを想定どおりに完了するために必要です。

注意事項

このチュートリアルのテストに必要な、ユーザーの基本情報と Web サイトアクセスログが提供されています。
このチュートリアルのデータは DataWorks での実験操作にのみ使用でき、すべてのデータは手動のモックデータです。
このチュートリアルでは、データ開発 (Data Studio) (新バージョン) を使用してデータ変換を実行します。

EMR 環境の準備

このチュートリアルでは、EMR クラスタが必要です。これは DataWorks に登録する必要があります。これにより、DataWorks コンソールで EMR クラスタに基づいてデータ処理タスクを実行できます。次の表に、EMR クラスタ作成の主要なパラメータを示します。 EMR クラスタの作成方法については、「クラスタの作成」をご参照ください。

パラメータ	説明
リージョン	中国 (上海)。
ビジネスシナリオ	データレイク。
プロダクトバージョン	最新バージョンを選択します。
オプションサービス (少なくとも 1 つ選択)	ビジネス要件に基づいてコンポーネントを選択します。このチュートリアルでは、Hive コンポーネントと OSS-HDFS コンポーネントが必要です。
メタデータ	DLF 統合メタデータ。
クラスタのルートストレージディレクトリ	有効な OSS-HDFS バケットを選択します。ドロップダウンリストに OSS-HDFS バケットがない場合は、[OSS-HDFS バケットの作成] をクリックします。

説明

EMR クラスタのさまざまな構成に対する DataWorks のサポートはさまざまです。EMR クラスタを作成し、EMR クラスタに基づいて DataWorks で EMR タスクを開発する前に、「DataWorks で使用する EMR クラスタを構成するためのベストプラクティス」のトピックを読むことをお勧めします。

DataWorks 環境の準備

DataWorks でタスクを開発する前に、DataWorks をアクティブ化する必要があります。詳細については、「DataWorks のアクティブ化」をご参照ください。

ステップ 1: ワークスペースの作成

中国 (上海) リージョンに「新バージョンの DataStudio のパブリックプレビューに参加する」がオンになっているワークスペースが存在する場合は、このステップをスキップして既存のワークスペースを使用します。

DataWorks コンソールにログオンします。上部のナビゲーションバーで、[中国 (上海)] リージョンを選択します。左側のナビゲーションウィンドウで、[ワークスペース] をクリックして [ワークスペース] ページに移動します。
[ワークスペース] ページで、[ワークスペースの作成] をクリックして、標準モードでワークスペースを作成します。ワークスペースを作成するときに、[新バージョンの DataStudio のパブリックプレビューに参加する] をオンにします。標準モードのワークスペースの場合、開発環境は本番環境から分離されています。
説明
2025 年 2 月 18 日現在、Alibaba Cloud アカウントを使用して中国 (上海) リージョンで初めて DataWorks をアクティブ化し、ワークスペースを作成すると、新バージョンの Data Studio がデフォルトでアクティブになります。

ワークスペースの作成方法の詳細については、「ワークスペースの作成」をご参照ください。

ステップ 2: サーバーレスリソースグループの作成

サーバーレスリソースグループを購入します。
このチュートリアルでは、データの同期とスケジューリングにサーバーレスリソースグループが必要です。したがって、サーバーレスリソースグループを購入して構成する必要があります。
1. DataWorks コンソールにログオンします。上部のナビゲーションバーで、[中国 (上海)] リージョンを選択します。左側のナビゲーションウィンドウで、[リソースグループ] をクリックして [リソースグループ] ページに移動します。
2. [リソースグループ] ページで、[リソースグループの作成] をクリックします。購入ページで、[リージョンとゾーン] を [中国 (上海)] に設定し、[リソースグループ名] を指定し、画面の指示に従ってその他のパラメータを構成し、画面の指示に従ってリソースグループの料金を支払います。サーバーレスリソースグループの課金詳細については、「サーバーレスリソースグループの課金」をご参照ください。
  説明
  現在のリージョンに仮想プライベートクラウド (VPC) または vSwitch が存在しない場合は、パラメータの説明にあるリンクをクリックして VPC コンソールに移動し、作成します。 VPC と vSwitch の詳細については、「VPC とは」をご参照ください。
サーバーレスリソースグループを DataWorks ワークスペースに関連付けます。
購入したサーバーレスリソースグループは、サーバーレスリソースグループをワークスペースに関連付けた後にのみ、後続の操作で使用できます。
DataWorks コンソールにログオンします。上部のナビゲーションバーで、[中国 (上海)] リージョンを選択します。左側のナビゲーションウィンドウで、[リソースグループ] をクリックします。 [リソースグループ] ページで、購入したサーバーレスリソースグループを見つけ、[アクション] 列の [ワークスペースの関連付け] をクリックします。 [ワークスペースの関連付け] パネルで、サーバーレスリソースグループを関連付けるワークスペースを見つけ、[アクション] 列の [関連付け] をクリックします。

サーバーレスリソースグループがインターネットにアクセスできるようにします。

このチュートリアルで使用されるテストデータは、インターネット経由で取得する必要があります。デフォルトでは、サーバーレスリソースグループを使用してインターネットにアクセスすることはできません。サーバーレスリソースグループが関連付けられている VPC のインターネット NAT ゲートウェイを構成し、VPC のエラスティック IP アドレス (EIP) を構成して、VPC とテストデータのネットワーク環境間のネットワーク接続を確立する必要があります。これにより、サーバーレスリソースグループを使用してテストデータにアクセスできます。

VPC コンソールのインターネット NAT ゲートウェイページに移動します。上部のナビゲーションバーで、[中国 (上海)] リージョンを選択します。

[インターネット NAT ゲートウェイの作成] をクリックし、パラメータを構成します。次の表に、このチュートリアルで必要な主要なパラメータを示します。次の表に記載されていないパラメータについては、デフォルト値を保持できます。

パラメータ	説明
リージョン	中国 (上海) を選択します。
VPC	リソースグループが関連付けられている VPC と vSwitch を選択します。リソースグループが関連付けられている VPC と vSwitch を表示するには、次の操作を実行します。 DataWorks コンソールにログオンします。上部のナビゲーションバーで、[中国 (上海)] リージョンを選択します。左側のナビゲーションウィンドウで、[リソースグループ] をクリックします。 [リソースグループ] ページで、作成したリソースグループを見つけ、[アクション] 列の [ネットワーク設定] をクリックします。表示されるページの [VPC バインディング] タブの [データスケジューリングとデータ統合] セクションで、リソースグループが関連付けられている [VPC] と [vSwitch] を表示します。 VPC と vSwitch の詳細については、「VPC とは」をご参照ください。
VSwitch の関連付け
アクセスモード	SNAT 有効モードを選択します。
EIP	EIP の購入を選択します。
サービスリンクロール	NAT ゲートウェイを初めて作成する場合は、[サービスリンクロールの作成] をクリックしてサービスリンクロールを作成します。

[今すぐ購入] をクリックします。 [確認] ページで、サービス規約を読み、[サービス規約] のチェックボックスをオンにして、[今すぐアクティブ化] をクリックします。

サーバーレスリソースグループの作成と使用方法の詳細については、「サーバーレスリソースグループの作成と使用」をご参照ください。

ステップ 3: EMR 計算リソースをワークスペースに関連付ける

次の操作を実行して、作成したワークスペースに EMR 計算リソースを関連付けてデータを格納できます。

DataWorks コンソールにログオンします。上部のナビゲーションバーで、[中国 (上海)] リージョンを選択します。左側のナビゲーションウィンドウで、[ワークスペース] をクリックします。 [ワークスペース] ページで、目的のワークスペースを見つけ、ワークスペースの名前をクリックして [ワークスペースの詳細] ページに移動します。
[ワークスペースの詳細] ページの左側のナビゲーションウィンドウで、[計算リソース] をクリックします。
[計算リソース] ページで、[計算リソースの関連付け] をクリックします。 [計算リソースの関連付け] パネルで、[EMR] をクリックして [EMR 計算リソースの関連付け] パネルに移動します。
パネル。

[EMR 計算リソースの関連付け] パネルで、パラメータを構成します。次の表にパラメータを示します。

パラメータ	説明
クラスタが属する Alibaba Cloud アカウント	[現在の Alibaba Cloud アカウント] を選択します。
クラスタタイプ	[データレイク] を選択します。
クラスタ	EMR 環境の準備セクションで作成した EMR クラスタを選択します。
デフォルトのアクセス ID	現在のワークスペースで EMR クラスタにアクセスするために使用する ID。開発環境: [クラスタアカウント: Hadoop] を選択します。本番環境: [クラスタアカウント: Hadoop] を選択します。
プロキシユーザー情報の受け渡し	[渡さない] を選択します。
計算リソースインスタンス名	計算リソースインスタンスの名前。

[OK] をクリックします。
[計算リソース] ページで、作成した EMR 計算リソースを見つけ、右上隅にある [リソースグループの初期化] をクリックして、EMR 計算リソースとリソースグループ間のネットワーク接続をテストします。

計算リソースをワークスペースに関連付ける方法の詳細については、「計算リソースをワークスペースに関連付ける」をご参照ください。

次のステップ

環境の準備ができたので、次のチュートリアルに進むことができます。次のチュートリアルでは、ユーザーの基本情報と Web サイトアクセスログを OSS に同期する方法と、同期されたデータをクエリするために EMR Hive ノードにテーブルを作成する方法について学習します。