EMR と DataWorks によるユーザープロファイル分析パイプラインの構築 - E-MapReduce

このチュートリアルでは、ユーザープロファイル分析のチュートリアルシリーズに必要な E-MapReduce (EMR) と DataWorks の環境をセットアップする手順を説明します。このガイドを完了すると、以下の環境が構築されます：

DataWorks との連携用に設定された EMR クラスター。
中国 (上海) リージョンにある DataWorks ワークスペース。
パブリックネットワークアクセスが可能なサーバーレスリソースグループ。
DataWorks に登録され、タスクを実行できる状態の EMR クラスター。

このチュートリアルで作成するリソースは本番環境で実行され、料金が発生します。不要なコストを避けるため、チュートリアルシリーズ完了後にリソースを削除してください。

前提条件

開始する前に、以下をご確認ください：

EMR クラスター、DataWorks ワークスペース、および VPC リソースを作成する権限を持つ Alibaba Cloud アカウント。
DataWorks が有効化されていること。有効化手順については、「環境を準備する」をご参照ください。
ユーザープロファイル分析チュートリアルの概要を確認し、全体のワークフローを理解していること。

注意事項

このチュートリアルで使用する基本的なユーザー情報と Web サイトのアクセスログは、テストデータとして提供されます。
このチュートリアルのデータはすべて手動で作成されたモックデータであり、DataWorks での実験的な操作にのみ使用できます。
このチュートリアルでは、データ処理にデータ開発 (DataStudio) (旧バージョン) を使用します。

EMR クラスターのセットアップ

DataWorks が接続してデータ処理タスクを実行できる EMR クラスターを作成します。

「クラスターの作成」の手順に従って、新しいクラスターを作成します。以下の構成を使用します：

重要

クラスターを作成する前に、「EMR クラスター上での DataWorks の構成に関するベストプラクティス」を確認して、DataWorks がサポートするクラスター構成を確認してください。

パラメーター	値
リージョン	中国 (上海)
ビジネスシナリオ	データレイク
プロダクトバージョン	最新バージョン
オプションサービス	Hive コンポーネント、OSS-HDFS コンポーネント (いずれも必須) を最低限選択します。
メタデータ	DLF 統合メタデータ
クラスターのストレージルートパス	OSS-HDFS インスタンスを選択します。リストが空の場合は、 [OSS-HDFS インスタンスの作成] をクリックして作成します。

DataWorks 環境のセットアップ

ステップ 1：ワークスペースの作成

中国 (上海) リージョンにすでにワークスペースがある場合は、このステップをスキップしてください。

DataWorks コンソールにログインします。左上隅で、リージョンを [中国 (上海)] に切り替えます。
左側のナビゲーションウィンドウで、[ワークスペース] をクリックし、次に [ワークスペースの作成] をクリックします。本番環境および開発環境を分離する標準モードのワークスペースを作成します。詳細については、「ワークスペースの作成」をご参照ください。

ステップ 2：サーバーレスリソースグループの作成

このチュートリアルでは、データ同期とスケジューリングにサーバーレスリソースグループを使用します。サーバーレスリソースグループはクロスリージョン操作をサポートしていないため、中国 (上海) リージョンに作成します。

リソースグループの購入

DataWorks コンソールにログインします。上部のナビゲーションバーで [中国 (上海)] リージョンを選択します。左側のナビゲーションウィンドウで [リソースグループ] をクリックします。
[リソースグループの作成] をクリックします。購入ページで、[リージョンとゾーン] を China (Shanghai) に設定し、リソースグループの名前を入力し、プロンプトに従って購入を完了します。課金の詳細については、「サーバーレスリソースグループの課金」をご参照ください。

リソースグループの設定

[リソースグループ] ページで、作成したリソースグループを見つけ、[操作] 列の [ワークスペースの関連付け] をクリックします。ステップ 1 で作成したワークスペースに関連付けます。

リソースグループのパブリックネットワークアクセスを有効にします。このチュートリアルのテストデータは、パブリックインターネット経由で取得されます。デフォルトでは、リソースグループにはパブリックネットワークアクセスがありません。リソースグループに関連付けられている Virtual Private Cloud (VPC) のインターネット NAT ゲートウェイを設定し、Elastic IP アドレス (EIP) を割り当てることで、インターネット接続を有効にします。

VPC コンソールにログインし、インターネット NAT ゲートウェイのページに移動します。[中国 (上海)] リージョンを選択します。

[インターネット NAT ゲートウェイの作成] をクリックし、以下のパラメーターを設定します：

パラメーター	値
[リージョン]	中国 (上海)
[VPC]	リソースグループに関連付けられている VPC。確認方法：DataWorks コンソールで、[リソースグループ] に移動し、対象のリソースグループを見つけ、[操作] 列の [ネットワーク設定] をクリックし、[VPC バインディング] タブ > [データスケジューリング & データ統合] セクションで確認します。
[vSwitch の関連付け]	リソースグループに関連付けられている vSwitch (上記の VPC と同じ場所)
[アクセスモード]	SNAT 有効モード
EIP	EIP の購入
[サービスにリンクされたロールの作成]	[サービスにリンクされたロールの作成] をクリックします。インターネット NAT ゲートウェイを初めて作成する場合に必要です。

他のすべてのパラメーターはデフォルト値のままにします。

[今すぐ購入] をクリックします。確認ページで、サービス利用規約に同意し、[今すぐアクティベート] をクリックします。

詳細については、「サーバーレスリソースグループの作成と使用」をご参照ください。

ステップ 3：EMR クラスターの登録とリソースグループの初期化

EMR クラスターを DataWorks に登録して、クラスター上でタスクを実行できるようにします。

EMR クラスター登録ページへの移動

DataWorks コンソールにログインします。[中国 (上海)] リージョンに切り替えます。左側のナビゲーションウィンドウで、[その他] > [管理センター] をクリックします。ドロップダウンリストからワークスペースを選択し、[管理センターへ移動] をクリックします。
[設定センター] ページの左側のナビゲーションウィンドウで、[クラスター管理] をクリックします。[クラスター管理] ページで、[クラスターの登録] をクリックします。ダイアログボックスで、[E-MapReduce] をクリックします。[EMR クラスターの登録] ページが表示されます。

クラスターの登録

[EMR クラスターの登録] ページで、クラスターの詳細を入力します。以下のパラメーターを設定します：

パラメーター	値
クラスタ Alibaba Cloudアカウント	現在の Alibaba Cloud アカウント
クラスタータイプ	データレイク (datalake)
デフォルトアクセスID	クラスターアカウント：Hadoop
プロキシユーザー情報の転送	合格

リソースグループの初期化

[クラスター管理] ページで、登録済みのクラスターを見つけ、右上隅の [リソースグループの初期化] をクリックします。
初期化が必要なリソースグループの横にある [初期化] をクリックします。
初期化が完了したら、[確認] をクリックします。
重要
続行する前に、初期化が成功したことを確認してください。失敗した場合は、エラーメッセージを確認し、提案されたネットワーク接続診断を実行してください。初期化に失敗すると、後続のタスクも失敗します。

詳細については、「EMR クラスターを DataWorks に登録する」をご参照ください。

次のステップ

環境の準備が整ったら、次のチュートリアルに進み、ユーザープロファイルデータと Web サイトのアクセスログを Object Storage Service (OSS) に同期し、Apache Hive テーブルを作成し、EMR Hive ノードを使用してデータをクエリします。「データの同期」をご参照ください。