EMR Serverless Spark 開発環境の構築 - DataWorks

このチュートリアルでは、ユーザーペルソナの例を使用して、DataWorks を使用して中国 (上海) リージョンのデータを同期、処理、および品質を監視する方法を説明します。このチュートリアルを完了するには、必要な EMR Serverless Spark および DataWorks ワークスペースを準備し、環境構成を完了する必要があります。

DataWorks プロダクトの準備

DataWorks を有効化していることを確認してください。DataWorks を有効化していない場合は、DataWorks ページで有効化できます。詳細については、「購入ガイド」をご参照ください。

EMR Serverless Spark ワークスペースの準備

このチュートリアルでは、計算資源として EMR Serverless Spark を使用します。Spark ワークスペースがあることを確認してください。Spark ワークスペースがない場合は、E-MapReduce コンソールに移動し、Spark を選択してワークスペースを作成します。

リージョン: 中国 (上海)。
課金方法: 従量課金。
ワークスペース名: カスタム名を入力します。
メタデータサービスとしての DLF: DLF データカタログを選択します。異なる EMR クラスター間でメタデータを完全に分離するには、異なるカタログを選択します。
ワークスペースベースパス: ジョブログファイルを保存する OSS バケットパスを選択します。
ワークスペースタイプ: このチュートリアルでは [Professional Edition] を選択します。
説明
- Professional Edition: このワークスペースには、Basic Edition のすべての機能に加えて、高度な機能とパフォーマンスの向上が含まれています。大規模な抽出・変換・書き出し (ETL) ジョブに適しています。
- Basic Edition: このワークスペースには、すべての基本機能が含まれており、強力なコンピュートエンジンを提供します。

プライベート OSS 環境の準備

このチュートリアルでは、OSS バケットを作成する必要があります。ユーザー情報とウェブサイトのアクセスログは、データモデリングと分析のためにこのバケットに同期されます。

OSS コンソールにログインします。
左側のナビゲーションウィンドウで、[バケット] をクリックします。[バケット] ページで、[バケットの作成] をクリックします。
[バケットの作成] ダイアログボックスで、パラメーターを設定し、[作成] をクリックします。
- バケット名: カスタム名を入力します。
- リージョン: [中国 (上海)] を選択します。
- HDFS サービス: UI のプロンプトに従って HDFS サービスを有効にします。
  パラメーターの詳細については、「コンソールでバケットを作成する」をご参照ください。
[バケット] ページで、[バケット] の名前をクリックして、バケットの [ファイル] ページに移動します。

DataWorks 環境の準備

DataWorks、EMR Serverless Spark ワークスペース、および OSS バケットを準備した後、DataWorks ワークスペースを作成し、Spark クラスターを登録し、データソースを作成する必要があります。これらのステップにより、データ同期とデータ処理のための環境が準備されます。

DataWorks ワークスペースの作成

DataWorks コンソールにログインします。
左側のナビゲーションウィンドウで、[ワークスペース管理] をクリックして、ワークスペースリストページに移動します。
[ワークスペースの作成] をクリックします。表示されるパネルで、[標準モード] でワークスペースを作成し、[開発環境と本番環境を分離] を有効にします。

説明

このチュートリアルのデータリソースは、中国 (Shanghai) リージョンにあります。他のリージョンからデータソースを追加する際のネットワーク接続の問題を回避するために、ワークスペースを中国 (Shanghai) リージョンに作成することをお勧めします。より簡単な設定にするには、[開発環境と本番環境を分離] パラメーターに [いいえ] を選択できます。

リソースグループの作成

DataWorks を使用する前に、データ同期とスケジューリングのためのリソースを提供するためにリソースグループを作成する必要があります。リソースグループと Serverless Spark ワークスペース間のネットワーク接続が安定していることを確認してください。

サーバーレスリソースグループを購入します。
1. DataWorks コンソールにログインします。対象のリージョンに切り替えます。左側のナビゲーションウィンドウで、[リソースグループ] をクリックして、リソースグループリストページに移動します。
2. [リソースグループの作成] をクリックします。リソースグループ購入ページで、[リージョンとゾーン] を [中国 (上海)] に設定し、[リソースグループ名] を指定します。他のパラメーターを設定し、プロンプトに従って支払いを完了します。サーバーレスリソースグループの課金の詳細については、「サーバーレスリソースグループの課金」をご参照ください。
  注
  このチュートリアルでは、[中国 (上海)] リージョンのサーバーレスリソースグループを例として使用します。サーバーレスリソースグループは、クロスリージョン操作をサポートしていません。

サーバーレスリソースグループを設定します。

DataWorks コンソールにログインします。対象のリージョンに切り替えます。左側のナビゲーションウィンドウで、[リソースグループ] をクリックして、リソースグループリストページに移動します。
購入したサーバーレスリソースグループを見つけます。[アクション] 列で、[ワークスペースのバインド] をクリックします。リソースグループを作成した DataWorks ワークスペースにバインドします。

リソースグループのインターネットアクセスを設定します。

VPC - インターネット NAT ゲートウェイコンソールにログインします。トップメニューバーで、[中国 (上海)] リージョンに切り替えます。

[NAT ゲートウェイの作成] をクリックします。パラメーターを設定します。

パラメーター	値
リージョン	中国 (上海)。
ネットワークとゾーン	リソースグループがアタッチされている VPC と vSwitch を選択します。 DataWorks コンソールに移動します。リージョンに切り替えます。左側のナビゲーションウィンドウで、[リソースグループリスト] をクリックします。作成したリソースグループを見つけます。[アクション] 列で、[ネットワーク設定] をクリックします。[データスケジューリング & データ統合] セクションで、[アタッチされた VPC] と [VSwitch] を表示します。VPC と vSwitch の詳細については、「VPC とは」をご参照ください。
ネットワークタイプ	インターネット NAT ゲートウェイ。
Elastic IP Address	新しい EIP を購入する。
サービスリンクロールの作成	初めて NAT ゲートウェイを作成する場合は、サービスリンクロールを作成する必要があります。[サービスリンクロールの作成] をクリックします。

注

表に記載されていないパラメーターは、デフォルト値のままにしてください。

[今すぐ購入] をクリックします。利用規約を選択し、[注文の確認] をクリックして購入を完了します。

EMR Serverless Spark クラスターの登録

ユーザーペルソナ分析のためのデータストレージとデータ処理は、EMR Serverless Spark クラスターで実行されます。使用する前に Spark クラスターを登録する必要があります。

SettingCenter ページに移動します。
DataWorks コンソールにログインします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、[その他] > [管理センター] を選択します。表示されたページで、ドロップダウンリストから目的のワークスペースを選択し、[管理センターへ移動] をクリックします。

左のナビゲーションウィンドウで、[クラスター管理] をクリックします。[クラスター管理] ページで、[クラスターの登録] をクリックします。開いたダイアログボックスで、[E-MapReduce] を選択して EMR Serverless Spark クラスターを設定します。
E-MapReduce クラスターを登録します。
- 表示名: カスタム名を入力します。
- クラスター用の Alibaba Cloud アカウント: 現在の Alibaba Cloud アカウントを選択します。
- クラスタータイプ: EMR Serverless Spark。
- E-MapReduce ワークスペース: 「EMR Serverless Spark ワークスペースの準備」セクションで準備したワークスペースを選択します。
- デフォルトのエンジンバージョン: このエンジンバージョンは、DataStudio で EMR Spark ノードを作成するときにデフォルトで使用されます。ノードごとに異なるエンジンバージョンを設定するには、Spark ノード編集ウィンドウの [詳細設定] で定義できます。
- デフォルトのリソースキュー: このリソースキューは、DataStudio で EMR Spark ノードを作成するときにデフォルトで使用されます。ノードごとに異なるリソースキューを設定するには、Spark ノード編集ウィンドウの [詳細設定] で定義できます。
- デフォルトの SQL コンピュート: この SQL コンピュートは、DataStudio で EMR Spark SQL ノードを作成するときにデフォルトで使用されます。ノードごとに異なる SQL コンピュートを設定するには、Spark ノード編集ウィンドウの [詳細設定] で定義できます。
- デフォルトのアクセス ID: 開発環境のデフォルト値は [Executor] です。本番環境では、[Alibaba Cloud アカウント]、[RAM ユーザー]、または [ノード所有者] を選択できます。
  説明
  このチュートリアルでは、上記の設定を使用します。シナリオが異なる場合は、「DataStudio (旧バージョン): EMR コンピュートエンジンをバインドする」をご参照ください。

データソースの作成

このチュートリアルでは、ユーザー情報を格納する MySQL データベースと、ユーザーログデータを格納する OSS バケットを提供します。データ同期に使用するには、DataWorks でそれらのデータソースを作成する必要があります。

説明

プラットフォームは、このチュートリアルに必要なテストデータとデータソースを提供します。テストデータにアクセスするには、データソースをワークスペースに追加します。
このチュートリアルで提供されるデータは、DataWorks での実践練習専用です。すべてのデータはモックデータであり、Data Integration モジュールからのみ読み取り可能です。
「非公開 OSS 環境を準備する」ステップで作成した OSS [バケット] は、MySQL データソースからのユーザー情報と HttpFile データソースからのログデータを受信するために使用されます。

MySQL データソースの作成

このチュートリアルでは、MySQL データソースのデータベースはプラットフォームによって提供されます。これは、データ統合タスクのデータソースとして機能し、ユーザー情報を提供します。

[SettingCenter] ページの左側のナビゲーションウィンドウで、[データソース] をクリックします。[データソース] ページ左上の [データソースの追加] をクリックします。
[データソースの追加] ダイアログボックスで、[MySQL] を選択します。

[MySQL データソースの追加] ページで、パラメーターを設定します。以下の表にパラメーターを示します。この例では、開発環境と本番環境でサンプル値が使用されます。

パラメーター	説明
データソース名	データソースの名前。この例では、user_behavior_analysis_mysql を使用します。
データソースの説明	データソースの説明。データソースは DataWorks のユースケース専用に提供され、提供されたテストデータにアクセスするためのバッチ同期タスクのソースとして使用されます。データソースは、データ同期シナリオでのデータ読み取り専用です。
設定モード	[接続文字列モード] を選択します。
接続アドレス	ホスト IP アドレス: `rm-bp1z69dodhh85z9qa.mysql.rds.aliyuncs.com` を入力します。ポート番号: `3306` を入力します。
データベース名	データベースの名前。この例では、`workshop` を使用します。
ユーザー名	ユーザー名。この例では、workshop を使用します。
パスワード	パスワード。この例では、workshop#2017 を使用します。
認証方法	認証なしを選択します。

目的のリソースグループを見つけ、[接続ステータス (開発環境)] と [接続ステータス (本番環境)] 列で [ネットワーク接続のテスト] をそれぞれクリックします。ネットワーク接続テストが成功すると、対応する列に [接続済み] が表示されます。
[作成の完了] をクリックします。

HttpFile データソースの作成

このチュートリアルでは、HttpFile データソースはプラットフォームによって提供される OSS バケットです。これは、データ統合タスクのソースとして機能し、ログデータを提供します。

データソースページに移動します。
1. DataWorks コンソールにログインします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、[その他] > [管理センター] を選択します。表示されたページで、ドロップダウンリストから目的のワークスペースを選択し、[管理センターへ移動] をクリックします。
2. SettingCenter ページの左側のナビゲーションウィンドウで、[データソース] をクリックします。
[データソース] ページの左上隅で、[データソースの追加] をクリックします。[データソースの追加] ダイアログボックスで、[HttpFile] をクリックします。

[HttpFile データソースの追加] ページで、パラメーターを設定します。このチュートリアルでは、開発環境と本番環境でサンプル値が使用されます。

パラメーター	説明
データソース名	データソースの名前。この例では、user_behavior_analysis_httpfile を使用します。
データソースの説明	データソースの説明。データソースは DataWorks のユースケース専用に提供され、提供されたテストデータにアクセスするためのバッチ同期タスクのソースとして使用されます。データソースは、データ同期シナリオでのデータ読み取り専用です。
URL	開発環境と本番環境の URL フィールドに `https://dataworks-workshop-2024.oss-cn-shanghai.aliyuncs.com` を入力します。

目的のリソースグループを見つけ、[接続ステータス (開発環境)] と [接続ステータス (本番環境)] 列で [ネットワーク接続のテスト] をそれぞれクリックします。ネットワーク接続テストが成功すると、対応する列に [接続済み] が表示されます。
重要
少なくとも 1 つのリソースグループが [接続可能] であることを確認してください。そうでない場合、コードレスユーザーインターフェース (UI) を使用してデータソースのデータ同期タスクを設定することはできません。
[作成の完了] をクリックします。

プライベート OSS データソースの追加

このチュートリアルでは、独自の OSS バケットを準備し、プライベート OSS データソースを作成する必要があります。このデータソースは、データ統合の宛先として機能し、ユーザー情報とログデータを受け取ります。

説明

プライベート OSS データソースは、独自の OSS バケットから作成された OSS データソースです。これは、MySQL データソースからインポートされたユーザー情報と、HttpFile データソースからインポートされたログデータを格納するために使用されます。MySQL と HttpFile の両方のデータソースは、DataWorks ドキュメントによって提供されます。

[管理センター] ページで、[データソース] > [データソースリスト] を選択し、[データソースの追加] をクリックします。
[データソースの追加] ダイアログボックスで、[OSS] を検索して選択します。

[OSS データソースの追加] ダイアログボックスで、パラメーターを設定します。

パラメーター	説明
データソース名	データソースの名前。この例では、test_g を使用します。
データソースの説明	データソースの簡単な説明。
エンドポイント	`http://oss-cn-shanghai-internal.aliyuncs.com` を入力します。
バケット	環境を準備したときに作成した OSS バケットの名前。例: dw-emr-demo。
アクセスモード	RAM ロール認証モード	DataWorks は、セキュリティトークンサービス (STS) を使用してデータソースにアクセスするためのロールを偽装できます。これにより、セキュリティが向上します。詳細については、「RAM ロール認証モードでデータソースを設定する」をご参照ください。
	AccessKey モード	AccessKey ID	現在のアカウントの AccessKey ID。セキュリティ情報管理ページに移動して AccessKey ID をコピーできます。
		AccessKey シークレット	現在のアカウントの AccessKey シークレットを入力します。重要 AccessKey シークレットは作成時にのみ表示されます。後で表示することはできません。機密を保持してください。AccessKey が漏洩または紛失した場合は、削除して新しい AccessKey を作成してください。

説明

[RAM ロール認証モード] または [AccessKey モード] のいずれかを選択します。

指定したリソースグループの [接続ステータス] 列で [接続のテスト] をクリックします。テストが完了し、ステータスが [接続可能] になるまで待ちます。
重要
少なくとも 1 つのリソースグループが [接続可能] 状態であることを確認してください。そうでない場合、コードレス UI を使用してこのデータソースの同期タスクを作成することはできません。
[完了] をクリックします。

その他の操作

環境の準備ができたので、次のチュートリアルに進むことができます。次のチュートリアルでは、基本的なユーザー情報とユーザーのウェブサイトアクセスログを OSS に同期する方法を学びます。次に、Spark SQL を使用して外部テーブルを作成し、プライベート OSS バケットに格納されているデータにアクセスします。詳細については、「データを同期する」をご参照ください。