このチュートリアルでは、ユーザープロファイル分析のチュートリアルシリーズに必要な E-MapReduce (EMR) と DataWorks の環境をセットアップする手順を説明します。このガイドを完了すると、以下の環境が構築されます:
DataWorks との連携用に設定された EMR クラスター。
中国 (上海) リージョンにある DataWorks ワークスペース。
パブリックネットワークアクセスが可能なサーバーレスリソースグループ。
DataWorks に登録され、タスクを実行できる状態の EMR クラスター。
このチュートリアルで作成するリソースは本番環境で実行され、料金が発生します。不要なコストを避けるため、チュートリアルシリーズ完了後にリソースを削除してください。
前提条件
開始する前に、以下をご確認ください:
EMR クラスター、DataWorks ワークスペース、および VPC リソースを作成する権限を持つ Alibaba Cloud アカウント。
DataWorks が有効化されていること。有効化手順については、「環境を準備する」をご参照ください。
ユーザープロファイル分析チュートリアルの概要を確認し、全体のワークフローを理解していること。
注意事項
このチュートリアルで使用する基本的なユーザー情報と Web サイトのアクセスログは、テストデータとして提供されます。
このチュートリアルのデータはすべて手動で作成されたモックデータであり、DataWorks での実験的な操作にのみ使用できます。
このチュートリアルでは、データ処理に データ開発 (DataStudio) (旧バージョン) を使用します。
EMR クラスターのセットアップ
DataWorks が接続してデータ処理タスクを実行できる EMR クラスターを作成します。
「クラスターの作成」の手順に従って、新しいクラスターを作成します。以下の構成を使用します:
重要クラスターを作成する前に、「EMR クラスター上での DataWorks の構成に関するベストプラクティス」を確認して、DataWorks がサポートするクラスター構成を確認してください。
パラメーター 値 リージョン 中国 (上海) ビジネスシナリオ データレイク プロダクトバージョン 最新バージョン オプションサービス Hive コンポーネント、OSS-HDFS コンポーネント (いずれも必須) を最低限選択します。 メタデータ DLF 統合メタデータ クラスターのストレージルートパス OSS-HDFS インスタンスを選択します。リストが空の場合は、 [OSS-HDFS インスタンスの作成] をクリックして作成します。
DataWorks 環境のセットアップ
ステップ 1:ワークスペースの作成
中国 (上海) リージョンにすでにワークスペースがある場合は、このステップをスキップしてください。
DataWorks コンソールにログインします。左上隅で、リージョンを [中国 (上海)] に切り替えます。
左側のナビゲーションウィンドウで、[ワークスペース] をクリックし、次に [ワークスペースの作成] をクリックします。本番環境および開発環境を分離する標準モードのワークスペースを作成します。詳細については、「ワークスペースの作成」をご参照ください。
ステップ 2:サーバーレスリソースグループの作成
このチュートリアルでは、データ同期とスケジューリングにサーバーレスリソースグループを使用します。サーバーレスリソースグループはクロスリージョン操作をサポートしていないため、中国 (上海) リージョンに作成します。
リソースグループの購入
DataWorks コンソールにログインします。上部のナビゲーションバーで [中国 (上海)] リージョンを選択します。左側のナビゲーションウィンドウで [リソースグループ] をクリックします。
[リソースグループの作成] をクリックします。 購入ページで、[リージョンとゾーン] を China (Shanghai) に設定し、リソースグループの名前を入力し、プロンプトに従って購入を完了します。 課金の詳細については、「サーバーレスリソースグループの課金」をご参照ください。
リソースグループの設定
[リソースグループ] ページで、作成したリソースグループを見つけ、[操作] 列の [ワークスペースの関連付け] をクリックします。ステップ 1 で作成したワークスペースに関連付けます。
リソースグループのパブリックネットワークアクセスを有効にします。このチュートリアルのテストデータは、パブリックインターネット経由で取得されます。デフォルトでは、リソースグループにはパブリックネットワークアクセスがありません。リソースグループに関連付けられている Virtual Private Cloud (VPC) のインターネット NAT ゲートウェイを設定し、Elastic IP アドレス (EIP) を割り当てることで、インターネット接続を有効にします。
VPC コンソールにログインし、インターネット NAT ゲートウェイのページに移動します。[中国 (上海)] リージョンを選択します。
[インターネット NAT ゲートウェイの作成] をクリックし、以下のパラメーターを設定します:
パラメーター 値 [リージョン] 中国 (上海) [VPC] リソースグループに関連付けられている VPC。確認方法:DataWorks コンソールで、[リソースグループ] に移動し、対象のリソースグループを見つけ、[操作] 列の [ネットワーク設定] をクリックし、[VPC バインディング] タブ > [データスケジューリング & データ統合] セクションで確認します。 [vSwitch の関連付け] リソースグループに関連付けられている vSwitch (上記の VPC と同じ場所) [アクセスモード] SNAT 有効モード EIP EIP の購入 [サービスにリンクされたロールの作成] [サービスにリンクされたロールの作成] をクリックします。インターネット NAT ゲートウェイを初めて作成する場合に必要です。 他のすべてのパラメーターはデフォルト値のままにします。
[今すぐ購入] をクリックします。確認ページで、サービス利用規約に同意し、[今すぐアクティベート] をクリックします。
詳細については、「サーバーレス リソースグループの作成と使用」をご参照ください。
ステップ 3:EMR クラスターの登録とリソースグループの初期化
EMR クラスターを DataWorks に登録して、クラスター上でタスクを実行できるようにします。
EMR クラスター登録ページへの移動
DataWorks コンソールにログインします。[中国 (上海)] リージョンに切り替えます。左側のナビゲーションウィンドウで、[その他] > [管理センター] をクリックします。ドロップダウンリストからワークスペースを選択し、[管理センターへ移動] をクリックします。
[設定センター] ページの左側のナビゲーションウィンドウで、[クラスター管理] をクリックします。[クラスター管理] ページで、[クラスターの登録] をクリックします。ダイアログボックスで、[E-MapReduce] をクリックします。[EMR クラスターの登録] ページが表示されます。
クラスターの登録
[EMR クラスターの登録] ページで、クラスターの詳細を入力します。以下のパラメーターを設定します:
パラメーター 値 クラスタ Alibaba Cloudアカウント 現在の Alibaba Cloud アカウント クラスタータイプ データレイク (datalake) デフォルトアクセスID クラスターアカウント:Hadoop プロキシユーザー情報の転送 合格
リソースグループの初期化
[クラスター管理] ページで、登録済みのクラスターを見つけ、右上隅の [リソースグループの初期化] をクリックします。
初期化が必要なリソースグループの横にある [初期化] をクリックします。
初期化が完了したら、[確認] をクリックします。
重要続行する前に、初期化が成功したことを確認してください。失敗した場合は、エラーメッセージを確認し、提案されたネットワーク接続診断を実行してください。初期化に失敗すると、後続のタスクも失敗します。
詳細については、「EMR クラスターを DataWorks に登録する」をご参照ください。
次のステップ
環境の準備が整ったら、次のチュートリアルに進み、ユーザープロファイルデータと Web サイトのアクセスログを Object Storage Service (OSS) に同期し、Apache Hive テーブルを作成し、EMR Hive ノードを使用してデータをクエリします。「データの同期」をご参照ください。