すべてのプロダクト
Search
ドキュメントセンター

E-MapReduce:環境を準備する

最終更新日:Mar 20, 2025

このチュートリアルでは、データ同期、変換、品質監視を含む、ユーザー プロファイル分析に DataWorks を使用する方法を紹介します。このチュートリアルを正しく実行するには、必要な EMR クラスタ、DataWorks ワークスペース、および環境構成を設定する必要があります。

ビジネス背景

効果的なビジネス管理戦略を策定するには、Web サイトでのアクティビティに基づいて、Web サイト ユーザーの基本的なプロファイル データを取得する必要があります。基本的なプロファイル データには、Web サイト ユーザーの地理的属性および社会的属性が含まれます。時間と場所に基づいてプロファイル データを分析し、基本的なユーザー プロファイル データを使用して Web サイト トラフィックに対して詳細な操作を実行できます。

使用上の注意

詳細については、「実験の概要」をご参照ください。ユーザー プロファイル分析実験のプロセス全体を深く理解してください。これにより、このチュートリアルを完了できます。

注意事項

  • この実験のテストに必要な、ユーザーの基本的なユーザー情報と Web サイト アクセスログが提供されます。

  • この実験のデータは DataWorks での実験操作にのみ使用でき、すべてのデータは手動のモックデータです。

  • このチュートリアルでは、データ変換に データ開発 (DataStudio) (旧バージョン) を使用します。

EMR 環境の準備

EMR クラスタを作成する

DataWorks プラットフォームでデータ処理タスクを有効にするには、DataWorks と統合する EMR クラスタを作成する必要があります。EMR クラスタの作成と設定の主要な構成は次のとおりです。

パラメーター

リージョン

中国 (上海)

ビジネスシナリオ

データレイク

プロダクトバージョン

最新バージョンを選択します。

オプション サービス

実際のニーズに基づいてコンポーネントを選択します。この場合、Hive コンポーネントと OSS-HDFS コンポーネントは必須です。

メタデータ

DLF 統合メタデータ

クラスタ ストレージ ルートパス

OSS-HDFS インスタンスを選択します。ドロップダウンリストが空の場合は、[OSS-HDFS インスタンスの作成] をクリックします。

EMR クラスタの作成の詳細な手順については、「クラスタを作成する」をご参照ください。

説明

DataWorks による EMR クラスタ構成のサポートはさまざまです。EMR クラスタを作成する前に、「EMR クラスタで DataWorks を構成するためのベストプラクティス」をご参照ください。

DataWorks 環境の準備

DataWorks でタスクを開発する前に、DataWorks をアクティブ化する必要があります。詳細については、「環境を準備する」をご参照ください。

ステップ 1: ワークスペースを作成する

中国 (上海) リージョンに既存のワークスペースがある場合は、それを使用し、このステップをスキップできます。

  1. DataWorks コンソール にログインし、左上隅で [中国 (上海)] リージョンに切り替えます。

  2. 左側のナビゲーションウィンドウで [ワークスペース] をクリックして、スペースのリストにアクセスします。本番環境と開発環境を分離する標準モードでワークスペースを作成するには、[ワークスペースの作成] をクリックします。詳細については、「ワークスペースを作成する」をご参照ください。

ステップ 2: サーバーレス リソースグループを作成する

このチュートリアルでは、データ同期とスケジューリングのために DataWorks サーバーレス リソースグループが必要です。サーバーレス リソースグループを購入し、必要な設定を完了します。

  1. サーバーレス リソースグループを購入します。

    1. DataWorks コンソール にログオンします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、[リソースグループ] をクリックして、[リソースグループ] ページに移動します。

    2. [リソースグループの作成] をクリックします。購入ページで、[リージョンとゾーン][中国 (上海)] として選択し、[リソースグループ名] を入力し、指示に従ってその他のパラメーターを設定します。完了したら、画面の指示に従って支払いを続行します。サーバーレス リソースグループの課金の詳細については、「サーバーレス リソースグループの課金」をご参照ください。

      説明

      この例では、[中国 (上海)] リージョンにデプロイされたサーバーレス リソースグループを使用します。サーバーレス リソースグループはリージョン間の操作をサポートしていないことに注意してください。

  2. サーバーレス リソースグループを構成します。

    1. DataWorks コンソール にログオンします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、[リソースグループ] をクリックして、[リソースグループ] ページに移動します。

    2. 購入したサーバーレス リソースグループを見つけ、[アクション] 列の [ワークスペースの関連付け] をクリックし、プロンプトに従ってリソースグループを作成した DataWorks ワークスペースに関連付けます。

    3. サーバーレス リソースグループのインターネットアクセスを有効にします。

      このチュートリアルに必要なテストデータは、インターネット経由で取得する必要があります。デフォルトでは、前のステップで確立されたリソースグループにはインターネットアクセス機能がありません。データ取得を有効にするには、関連付けられた VPC にパブリック NAT ゲートウェイを構成し、EIP を追加して、パブリックデータネットワークに接続します。

      1. VPC コンソール にログオンし、インターネット NAT ゲートウェイ ページに移動します。上部のナビゲーションバーで、[中国 (上海)] リージョンを選択します。

      2. [インターネット NAT ゲートウェイの作成] をクリックします。次の表に示すパラメーターを構成します。

        パラメーター

        説明

        リージョン

        中国 (上海) を選択します。

        VPC

        リソースグループが関連付けられている仮想プライベートクラウド (VPC) と vSwitch を選択します。

        リソースグループが関連付けられている VPC と vSwitch を取得するには、次の手順を実行します。DataWorks コンソール にログオンします。上部のナビゲーションバーで、リージョンを選択します。左側のナビゲーションウィンドウで、[リソースグループ] をクリックします。[リソースグループ] ページで、作成したリソースグループを見つけ、[アクション] 列の [ネットワーク設定] をクリックします。[VPC バインディング] タブの [データスケジューリングとデータ統合] セクションで、リソースグループが関連付けられている [VPC][vswitch] を表示します。VPC と vSwitch の詳細については、「VPC とは」をご参照ください。

        Vswitch の関連付け

        アクセスモード

        SNAT 有効モードを選択します。

        EIP

        EIP の購入を選択します。

        サービスロールの作成

        [サービスロールの作成] をクリックして、サービスロールを作成します。インターネット NAT ゲートウェイを初めて作成する場合は、このステップが必要です。

        説明

        前の表で説明されていないその他のパラメーターについては、デフォルト値を保持します。

      3. [今すぐ購入] をクリックします。[確認] ページで、サービス条件を読み、[サービス条件] チェックボックスをオンにして、[今すぐアクティブ化] をクリックします。

サーバーレス リソースグループの作成と使用方法の詳細については、「サーバーレス リソースグループの作成と使用」をご参照ください。

ステップ 3: EMR クラスタを登録し、リソースグループの初期化を完了する

プラットフォーム内で使用するには、EMR クラスタを DataWorks に登録します。

  1. EMR クラスタ登録ページに移動します。

    1. 管理センター ページにアクセスします。

      DataWorks コンソール にログオンします。リージョンを [中国 (上海)] に切り替えた後、左側のナビゲーションウィンドウで [その他] > [管理センター] をクリックします。ドロップダウンボックスから目的のワークスペースを選択し、[管理センターに移動] をクリックします。

    2. SettingCenter ページの左側のナビゲーションウィンドウで、SettingCenter ページの左側のナビゲーション ウィンドウで、[クリック][クラスタ管理]クラスタ管理 をクリックします。。 [[クラスタ管理]クラスタ管理 ページで、 ページで、[クリック] [クラスタの登録]クラスタを登録 をクリックします。[クラスタタイプの選択] ダイアログボックスで、[クラスタの種類の選択] ダイアログボックスで、[[e-mapreduce]E-MapReduce をクリックします。[EMR クラスタの登録] ページが表示されます。

  2. EMR クラスタを登録します。

    [e-mapreduce クラスタの登録] ページで、クラスタ情報を構成できます。構成の主要なパラメーターを以下に詳述します。

    パラメーター

    クラスタ Alibaba Cloud アカウント

    現在の Alibaba Cloud アカウント

    クラスタタイプ

    データレイク (datalake)

    デフォルトのアクセス ID

    クラスタアカウント: Hadoop

    プロキシユーザー情報の受け渡し

    受け渡し

  3. リソースグループを初期化します。

    1. [クラスタ管理] ページで、登録済みの EMR クラスタを見つけ、右上隅の [リソースグループの初期化] をクリックします。

    2. 初期化する必要があるリソースグループの横にある [初期化] をクリックします。

    3. 完了後、[確認] をクリックします。

    重要

    リソースグループの初期化が成功したことを確認します。失敗した場合、リソースグループに依存するタスクが正しく実行されない可能性があります。失敗した場合は、提案されているようにネットワーク接続の問題を診断します。

EMR クラスタの登録に関する包括的なガイドについては、「EMR クラスタを DataWorks に登録する」をご参照ください。

次のステップ

環境を準備したので、次のチュートリアルに進むことができます。次のチュートリアルでは、ユーザーの基本的なユーザー情報と Web サイト アクセスログを OSS に同期する方法と、同期されたデータをクエリするために EMR Hive ノードにテーブルを作成する方法について学習します。