このチュートリアルでは、ユーザーペルソナの例を使用して、DataWorks を使用して中国 (上海) リージョンのデータを同期、処理、および品質を監視する方法を説明します。このチュートリアルを完了するには、必要な EMR Serverless Spark および DataWorks ワークスペースを準備し、環境構成を完了する必要があります。
DataWorks プロダクトの準備
DataWorks を有効化していることを確認してください。DataWorks を有効化していない場合は、DataWorks ページで有効化できます。詳細については、「購入ガイド」をご参照ください。
EMR Serverless Spark ワークスペースの準備
このチュートリアルでは、計算資源として EMR Serverless Spark を使用します。Spark ワークスペースがあることを確認してください。Spark ワークスペースがない場合は、E-MapReduce コンソールに移動し、Spark を選択してワークスペースを作成します。
リージョン: 中国 (上海)。
課金方法: 従量課金。
ワークスペース名: カスタム名を入力します。
メタデータサービスとしての DLF: DLF データカタログを選択します。異なる EMR クラスター間でメタデータを完全に分離するには、異なるカタログを選択します。
ワークスペースベースパス: ジョブログファイルを保存する OSS バケットパスを選択します。
ワークスペースタイプ: このチュートリアルでは [Professional Edition] を選択します。
説明Professional Edition: このワークスペースには、Basic Edition のすべての機能に加えて、高度な機能とパフォーマンスの向上が含まれています。大規模な抽出・変換・書き出し (ETL) ジョブに適しています。
Basic Edition: このワークスペースには、すべての基本機能が含まれており、強力なコンピュートエンジンを提供します。
プライベート OSS 環境の準備
このチュートリアルでは、OSS バケットを作成する必要があります。ユーザー情報とウェブサイトのアクセスログは、データモデリングと分析のためにこのバケットに同期されます。
OSS コンソールにログインします。
左側のナビゲーションウィンドウで、[バケット] をクリックします。[バケット] ページで、[バケットの作成] をクリックします。
[バケットの作成] ダイアログボックスで、パラメーターを設定し、[作成] をクリックします。
バケット名: カスタム名を入力します。
リージョン: [中国 (上海)] を選択します。
HDFS サービス: UI のプロンプトに従って HDFS サービスを有効にします。
パラメーターの詳細については、「コンソールでバケットを作成する」をご参照ください。
[バケット] ページで、[バケット] の名前をクリックして、バケットの [ファイル] ページに移動します。
DataWorks 環境の準備
DataWorks、EMR Serverless Spark ワークスペース、および OSS バケットを準備した後、DataWorks ワークスペースを作成し、Spark クラスターを登録し、データソースを作成する必要があります。これらのステップにより、データ同期とデータ処理のための環境が準備されます。
DataWorks ワークスペースの作成
DataWorks コンソールにログインします。
左側のナビゲーションウィンドウで、[ワークスペース管理] をクリックして、ワークスペースリストページに移動します。
[ワークスペースの作成] をクリックします。表示されるパネルで、[標準モード] でワークスペースを作成し、[開発環境と本番環境を分離] を有効にします。
このチュートリアルのデータリソースは、中国 (Shanghai) リージョンにあります。他のリージョンからデータソースを追加する際のネットワーク接続の問題を回避するために、ワークスペースを中国 (Shanghai) リージョンに作成することをお勧めします。より簡単な設定にするには、[開発環境と本番環境を分離] パラメーターに [いいえ] を選択できます。
リソースグループの作成
DataWorks を使用する前に、データ同期とスケジューリングのためのリソースを提供するためにリソースグループを作成する必要があります。リソースグループと Serverless Spark ワークスペース間のネットワーク接続が安定していることを確認してください。
サーバーレスリソースグループを購入します。
DataWorks コンソールにログインします。対象のリージョンに切り替えます。左側のナビゲーションウィンドウで、[リソースグループ] をクリックして、リソースグループリストページに移動します。
[リソースグループの作成] をクリックします。リソースグループ購入ページで、[リージョンとゾーン] を [中国 (上海)] に設定し、[リソースグループ名] を指定します。他のパラメーターを設定し、プロンプトに従って支払いを完了します。サーバーレスリソースグループの課金の詳細については、「サーバーレスリソースグループの課金」をご参照ください。
注
このチュートリアルでは、[中国 (上海)] リージョンのサーバーレスリソースグループを例として使用します。サーバーレスリソースグループは、クロスリージョン操作をサポートしていません。
サーバーレスリソースグループを設定します。
DataWorks コンソールにログインします。対象のリージョンに切り替えます。左側のナビゲーションウィンドウで、[リソースグループ] をクリックして、リソースグループリストページに移動します。
購入したサーバーレスリソースグループを見つけます。[アクション] 列で、[ワークスペースのバインド] をクリックします。リソースグループを作成した DataWorks ワークスペースにバインドします。
リソースグループのインターネットアクセスを設定します。
VPC - インターネット NAT ゲートウェイコンソールにログインします。トップメニューバーで、[中国 (上海)] リージョンに切り替えます。
[NAT ゲートウェイの作成] をクリックします。パラメーターを設定します。
パラメーター
値
リージョン
中国 (上海)。
ネットワークとゾーン
リソースグループがアタッチされている VPC と vSwitch を選択します。
DataWorks コンソールに移動します。リージョンに切り替えます。左側のナビゲーションウィンドウで、[リソースグループリスト] をクリックします。作成したリソースグループを見つけます。[アクション] 列で、[ネットワーク設定] をクリックします。[データスケジューリング & データ統合] セクションで、[アタッチされた VPC] と [VSwitch] を表示します。VPC と vSwitch の詳細については、「VPC とは」をご参照ください。
ネットワークタイプ
インターネット NAT ゲートウェイ。
Elastic IP Address
新しい EIP を購入する。
サービスリンクロールの作成
初めて NAT ゲートウェイを作成する場合は、サービスリンクロールを作成する必要があります。[サービスリンクロールの作成] をクリックします。
注
表に記載されていないパラメーターは、デフォルト値のままにしてください。
[今すぐ購入] をクリックします。利用規約を選択し、[注文の確認] をクリックして購入を完了します。
EMR Serverless Spark クラスターの登録
ユーザーペルソナ分析のためのデータストレージとデータ処理は、EMR Serverless Spark クラスターで実行されます。使用する前に Spark クラスターを登録する必要があります。
SettingCenter ページに移動します。
DataWorks コンソールにログインします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、 を選択します。表示されたページで、ドロップダウンリストから目的のワークスペースを選択し、[管理センターへ移動] をクリックします。
左のナビゲーションウィンドウで、[クラスター管理] をクリックします。[クラスター管理] ページで、[クラスターの登録] をクリックします。開いたダイアログボックスで、[E-MapReduce] を選択して EMR Serverless Spark クラスターを設定します。
E-MapReduce クラスターを登録します。
表示名: カスタム名を入力します。
クラスター用の Alibaba Cloud アカウント: 現在の Alibaba Cloud アカウントを選択します。
クラスタータイプ: EMR Serverless Spark。
E-MapReduce ワークスペース: 「EMR Serverless Spark ワークスペースの準備」セクションで準備したワークスペースを選択します。
デフォルトのエンジンバージョン: このエンジンバージョンは、DataStudio で EMR Spark ノードを作成するときにデフォルトで使用されます。ノードごとに異なるエンジンバージョンを設定するには、Spark ノード編集ウィンドウの [詳細設定] で定義できます。
デフォルトのリソースキュー: このリソースキューは、DataStudio で EMR Spark ノードを作成するときにデフォルトで使用されます。ノードごとに異なるリソースキューを設定するには、Spark ノード編集ウィンドウの [詳細設定] で定義できます。
デフォルトの SQL コンピュート: この SQL コンピュートは、DataStudio で EMR Spark SQL ノードを作成するときにデフォルトで使用されます。ノードごとに異なる SQL コンピュートを設定するには、Spark ノード編集ウィンドウの [詳細設定] で定義できます。
デフォルトのアクセス ID: 開発環境のデフォルト値は [Executor] です。本番環境では、[Alibaba Cloud アカウント]、[RAM ユーザー]、または [ノード所有者] を選択できます。
説明このチュートリアルでは、上記の設定を使用します。シナリオが異なる場合は、「DataStudio (旧バージョン): EMR コンピュートエンジンをバインドする」をご参照ください。
データソースの作成
このチュートリアルでは、ユーザー情報を格納する MySQL データベースと、ユーザーログデータを格納する OSS バケットを提供します。データ同期に使用するには、DataWorks でそれらのデータソースを作成する必要があります。
プラットフォームは、このチュートリアルに必要なテストデータとデータソースを提供します。テストデータにアクセスするには、データソースをワークスペースに追加します。
このチュートリアルで提供されるデータは、DataWorks での実践練習専用です。すべてのデータはモックデータであり、Data Integration モジュールからのみ読み取り可能です。
「非公開 OSS 環境を準備する」ステップで作成した OSS [バケット] は、MySQL データソースからのユーザー情報と HttpFile データソースからのログデータを受信するために使用されます。
MySQL データソースの作成
このチュートリアルでは、MySQL データソースのデータベースはプラットフォームによって提供されます。これは、データ統合タスクのデータソースとして機能し、ユーザー情報を提供します。
[SettingCenter] ページの左側のナビゲーションウィンドウで、[データソース] をクリックします。[データソース] ページ左上の [データソースの追加] をクリックします。
[データソースの追加] ダイアログボックスで、[MySQL] を選択します。
[MySQL データソースの追加] ページで、パラメーターを設定します。以下の表にパラメーターを示します。この例では、開発環境と本番環境でサンプル値が使用されます。
パラメーター
説明
データソース名
データソースの名前。この例では、user_behavior_analysis_mysql を使用します。
データソースの説明
データソースの説明。データソースは DataWorks のユースケース専用に提供され、提供されたテストデータにアクセスするためのバッチ同期タスクのソースとして使用されます。データソースは、データ同期シナリオでのデータ読み取り専用です。
設定モード
[接続文字列モード] を選択します。
接続アドレス
ホスト IP アドレス:
rm-bp1z69dodhh85z9qa.mysql.rds.aliyuncs.comを入力します。ポート番号:
3306を入力します。
データベース名
データベースの名前。この例では、
workshopを使用します。ユーザー名
ユーザー名。この例では、workshop を使用します。
パスワード
パスワード。この例では、workshop#2017 を使用します。
認証方法
認証なしを選択します。
目的のリソースグループを見つけ、[接続ステータス (開発環境)] と [接続ステータス (本番環境)] 列で [ネットワーク接続のテスト] をそれぞれクリックします。ネットワーク接続テストが成功すると、対応する列に [接続済み] が表示されます。
[作成の完了] をクリックします。
HttpFile データソースの作成
このチュートリアルでは、HttpFile データソースはプラットフォームによって提供される OSS バケットです。これは、データ統合タスクのソースとして機能し、ログデータを提供します。
データソースページに移動します。
DataWorks コンソールにログインします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、 を選択します。表示されたページで、ドロップダウンリストから目的のワークスペースを選択し、[管理センターへ移動] をクリックします。
SettingCenter ページの左側のナビゲーションウィンドウで、[データソース] をクリックします。
[データソース] ページの左上隅で、[データソースの追加] をクリックします。[データソースの追加] ダイアログボックスで、[HttpFile] をクリックします。
[HttpFile データソースの追加] ページで、パラメーターを設定します。このチュートリアルでは、開発環境と本番環境でサンプル値が使用されます。
パラメーター
説明
データソース名
データソースの名前。この例では、user_behavior_analysis_httpfile を使用します。
データソースの説明
データソースの説明。データソースは DataWorks のユースケース専用に提供され、提供されたテストデータにアクセスするためのバッチ同期タスクのソースとして使用されます。データソースは、データ同期シナリオでのデータ読み取り専用です。
URL
開発環境と本番環境の URL フィールドに
https://dataworks-workshop-2024.oss-cn-shanghai.aliyuncs.comを入力します。目的のリソースグループを見つけ、[接続ステータス (開発環境)] と [接続ステータス (本番環境)] 列で [ネットワーク接続のテスト] をそれぞれクリックします。ネットワーク接続テストが成功すると、対応する列に [接続済み] が表示されます。
重要少なくとも 1 つのリソースグループが [接続可能] であることを確認してください。そうでない場合、コードレスユーザーインターフェース (UI) を使用してデータソースのデータ同期タスクを設定することはできません。
[作成の完了] をクリックします。
プライベート OSS データソースの追加
このチュートリアルでは、独自の OSS バケットを準備し、プライベート OSS データソースを作成する必要があります。このデータソースは、データ統合の宛先として機能し、ユーザー情報とログデータを受け取ります。
プライベート OSS データソースは、独自の OSS バケットから作成された OSS データソースです。これは、MySQL データソースからインポートされたユーザー情報と、HttpFile データソースからインポートされたログデータを格納するために使用されます。MySQL と HttpFile の両方のデータソースは、DataWorks ドキュメントによって提供されます。
[管理センター] ページで、 を選択し、[データソースの追加] をクリックします。
[データソースの追加] ダイアログボックスで、[OSS] を検索して選択します。
[OSS データソースの追加] ダイアログボックスで、パラメーターを設定します。
パラメーター
説明
データソース名
データソースの名前。この例では、test_g を使用します。
データソースの説明
データソースの簡単な説明。
エンドポイント
http://oss-cn-shanghai-internal.aliyuncs.comを入力します。バケット
環境を準備したときに作成した OSS バケットの名前。例: dw-emr-demo。
アクセスモード
RAM ロール認証モード
DataWorks は、セキュリティトークンサービス (STS) を使用してデータソースにアクセスするためのロールを偽装できます。これにより、セキュリティが向上します。詳細については、「RAM ロール認証モードでデータソースを設定する」をご参照ください。
AccessKey モード
AccessKey ID
現在のアカウントの AccessKey ID。セキュリティ情報管理ページに移動して AccessKey ID をコピーできます。
AccessKey シークレット
現在のアカウントの AccessKey シークレットを入力します。
重要AccessKey シークレットは作成時にのみ表示されます。後で表示することはできません。機密を保持してください。AccessKey が漏洩または紛失した場合は、削除して新しい AccessKey を作成してください。
説明[RAM ロール認証モード] または [AccessKey モード] のいずれかを選択します。
指定したリソースグループの [接続ステータス] 列で [接続のテスト] をクリックします。テストが完了し、ステータスが [接続可能] になるまで待ちます。
重要少なくとも 1 つのリソースグループが [接続可能] 状態であることを確認してください。そうでない場合、コードレス UI を使用してこのデータソースの同期タスクを作成することはできません。
[完了] をクリックします。
その他の操作
環境の準備ができたので、次のチュートリアルに進むことができます。次のチュートリアルでは、基本的なユーザー情報とユーザーのウェブサイトアクセスログを OSS に同期する方法を学びます。次に、Spark SQL を使用して外部テーブルを作成し、プライベート OSS バケットに格納されているデータにアクセスします。詳細については、「データを同期する」をご参照ください。