このチュートリアルでは、データ同期、変換、品質監視を含む、ユーザー プロファイル分析に DataWorks を使用する方法を紹介します。このチュートリアルを正しく実行するには、必要な EMR クラスタ、DataWorks ワークスペース、および環境構成を設定する必要があります。
ビジネス背景
効果的なビジネス管理戦略を策定するには、Web サイトでのアクティビティに基づいて、Web サイト ユーザーの基本的なプロファイル データを取得する必要があります。基本的なプロファイル データには、Web サイト ユーザーの地理的属性および社会的属性が含まれます。時間と場所に基づいてプロファイル データを分析し、基本的なユーザー プロファイル データを使用して Web サイト トラフィックに対して詳細な操作を実行できます。
使用上の注意
詳細については、「実験の概要」をご参照ください。ユーザー プロファイル分析実験のプロセス全体を深く理解してください。これにより、このチュートリアルを完了できます。
注意事項
この実験のテストに必要な、ユーザーの基本的なユーザー情報と Web サイト アクセスログが提供されます。
この実験のデータは DataWorks での実験操作にのみ使用でき、すべてのデータは手動のモックデータです。
-
このチュートリアルでは、データ変換に データ開発 (DataStudio) (旧バージョン) を使用します。
EMR 環境の準備
EMR クラスタを作成する
DataWorks プラットフォームでデータ処理タスクを有効にするには、DataWorks と統合する EMR クラスタを作成する必要があります。EMR クラスタの作成と設定の主要な構成は次のとおりです。
パラメーター | 値 |
リージョン | 中国 (上海)。 |
ビジネスシナリオ | データレイク。 |
プロダクトバージョン | 最新バージョンを選択します。 |
オプション サービス | 実際のニーズに基づいてコンポーネントを選択します。この場合、Hive コンポーネントと OSS-HDFS コンポーネントは必須です。 |
メタデータ | DLF 統合メタデータ。 |
クラスタ ストレージ ルートパス | OSS-HDFS インスタンスを選択します。ドロップダウンリストが空の場合は、[OSS-HDFS インスタンスの作成] をクリックします。 |
EMR クラスタの作成の詳細な手順については、「クラスタを作成する」をご参照ください。
DataWorks による EMR クラスタ構成のサポートはさまざまです。EMR クラスタを作成する前に、「EMR クラスタで DataWorks を構成するためのベストプラクティス」をご参照ください。
DataWorks 環境の準備
DataWorks でタスクを開発する前に、DataWorks をアクティブ化する必要があります。詳細については、「環境を準備する」をご参照ください。
ステップ 1: ワークスペースを作成する
中国 (上海) リージョンに既存のワークスペースがある場合は、それを使用し、このステップをスキップできます。
-
DataWorks コンソール にログインし、左上隅で [中国 (上海)] リージョンに切り替えます。
-
左側のナビゲーションウィンドウで [ワークスペース] をクリックして、スペースのリストにアクセスします。本番環境と開発環境を分離する標準モードでワークスペースを作成するには、[ワークスペースの作成] をクリックします。詳細については、「ワークスペースを作成する」をご参照ください。
ステップ 2: サーバーレス リソースグループを作成する
このチュートリアルでは、データ同期とスケジューリングのために DataWorks サーバーレス リソースグループが必要です。サーバーレス リソースグループを購入し、必要な設定を完了します。
-
サーバーレス リソースグループを購入します。
-
DataWorks コンソール にログオンします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、[リソースグループ] をクリックして、[リソースグループ] ページに移動します。
-
[リソースグループの作成] をクリックします。購入ページで、[リージョンとゾーン] を [中国 (上海)] として選択し、[リソースグループ名] を入力し、指示に従ってその他のパラメーターを設定します。完了したら、画面の指示に従って支払いを続行します。サーバーレス リソースグループの課金の詳細については、「サーバーレス リソースグループの課金」をご参照ください。
説明この例では、[中国 (上海)] リージョンにデプロイされたサーバーレス リソースグループを使用します。サーバーレス リソースグループはリージョン間の操作をサポートしていないことに注意してください。
-
-
サーバーレス リソースグループを構成します。
-
DataWorks コンソール にログオンします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、[リソースグループ] をクリックして、[リソースグループ] ページに移動します。
購入したサーバーレス リソースグループを見つけ、[アクション] 列の [ワークスペースの関連付け] をクリックし、プロンプトに従ってリソースグループを作成した DataWorks ワークスペースに関連付けます。
-
サーバーレス リソースグループのインターネットアクセスを有効にします。
このチュートリアルに必要なテストデータは、インターネット経由で取得する必要があります。デフォルトでは、前のステップで確立されたリソースグループにはインターネットアクセス機能がありません。データ取得を有効にするには、関連付けられた VPC にパブリック NAT ゲートウェイを構成し、EIP を追加して、パブリックデータネットワークに接続します。
VPC コンソール にログオンし、インターネット NAT ゲートウェイ ページに移動します。上部のナビゲーションバーで、[中国 (上海)] リージョンを選択します。
[インターネット NAT ゲートウェイの作成] をクリックします。次の表に示すパラメーターを構成します。
パラメーター
説明
リージョン
中国 (上海) を選択します。
VPC
リソースグループが関連付けられている仮想プライベートクラウド (VPC) と vSwitch を選択します。
リソースグループが関連付けられている VPC と vSwitch を取得するには、次の手順を実行します。DataWorks コンソール にログオンします。上部のナビゲーションバーで、リージョンを選択します。左側のナビゲーションウィンドウで、[リソースグループ] をクリックします。[リソースグループ] ページで、作成したリソースグループを見つけ、[アクション] 列の [ネットワーク設定] をクリックします。[VPC バインディング] タブの [データスケジューリングとデータ統合] セクションで、リソースグループが関連付けられている [VPC] と [vswitch] を表示します。VPC と vSwitch の詳細については、「VPC とは」をご参照ください。
Vswitch の関連付け
アクセスモード
SNAT 有効モードを選択します。
EIP
EIP の購入を選択します。
サービスロールの作成
[サービスロールの作成] をクリックして、サービスロールを作成します。インターネット NAT ゲートウェイを初めて作成する場合は、このステップが必要です。
説明前の表で説明されていないその他のパラメーターについては、デフォルト値を保持します。
[今すぐ購入] をクリックします。[確認] ページで、サービス条件を読み、[サービス条件] チェックボックスをオンにして、[今すぐアクティブ化] をクリックします。
-
サーバーレス リソースグループの作成と使用方法の詳細については、「サーバーレス リソースグループの作成と使用」をご参照ください。
ステップ 3: EMR クラスタを登録し、リソースグループの初期化を完了する
プラットフォーム内で使用するには、EMR クラスタを DataWorks に登録します。
-
EMR クラスタ登録ページに移動します。
-
管理センター ページにアクセスします。
DataWorks コンソール にログオンします。リージョンを [中国 (上海)] に切り替えた後、左側のナビゲーションウィンドウで をクリックします。ドロップダウンボックスから目的のワークスペースを選択し、[管理センターに移動] をクリックします。
-
SettingCenter ページの左側のナビゲーションウィンドウで、SettingCenter ページの左側のナビゲーション ウィンドウで、[クリック][クラスタ管理]クラスタ管理 をクリックします。。 [[クラスタ管理]クラスタ管理 ページで、 ページで、[クリック] [クラスタの登録]クラスタを登録 をクリックします。[クラスタタイプの選択] ダイアログボックスで、[クラスタの種類の選択] ダイアログボックスで、[[e-mapreduce]E-MapReduce をクリックします。。[EMR クラスタの登録] ページが表示されます。
-
-
EMR クラスタを登録します。
[e-mapreduce クラスタの登録] ページで、クラスタ情報を構成できます。構成の主要なパラメーターを以下に詳述します。
パラメーター
値
クラスタ Alibaba Cloud アカウント
現在の Alibaba Cloud アカウント。
クラスタタイプ
データレイク (datalake)。
デフォルトのアクセス ID
クラスタアカウント: Hadoop。
プロキシユーザー情報の受け渡し
受け渡し。
-
リソースグループを初期化します。
-
[クラスタ管理] ページで、登録済みの EMR クラスタを見つけ、右上隅の [リソースグループの初期化] をクリックします。
-
初期化する必要があるリソースグループの横にある [初期化] をクリックします。
-
完了後、[確認] をクリックします。
重要リソースグループの初期化が成功したことを確認します。失敗した場合、リソースグループに依存するタスクが正しく実行されない可能性があります。失敗した場合は、提案されているようにネットワーク接続の問題を診断します。
-
EMR クラスタの登録に関する包括的なガイドについては、「EMR クラスタを DataWorks に登録する」をご参照ください。
次のステップ
環境を準備したので、次のチュートリアルに進むことができます。次のチュートリアルでは、ユーザーの基本的なユーザー情報と Web サイト アクセスログを OSS に同期する方法と、同期されたデータをクエリするために EMR Hive ノードにテーブルを作成する方法について学習します。