すべてのプロダクト
Search
ドキュメントセンター

E-MapReduce:環境の準備

最終更新日:Mar 27, 2026

このチュートリアルでは、ユーザープロファイル分析のチュートリアルシリーズに必要な E-MapReduce (EMR) と DataWorks の環境をセットアップする手順を説明します。このガイドを完了すると、以下の環境が構築されます:

  1. DataWorks との連携用に設定された EMR クラスター。

  2. 中国 (上海) リージョンにある DataWorks ワークスペース。

  3. パブリックネットワークアクセスが可能なサーバーレスリソースグループ。

  4. DataWorks に登録され、タスクを実行できる状態の EMR クラスター。

このチュートリアルで作成するリソースは本番環境で実行され、料金が発生します。不要なコストを避けるため、チュートリアルシリーズ完了後にリソースを削除してください。

前提条件

開始する前に、以下をご確認ください:

  • EMR クラスター、DataWorks ワークスペース、および VPC リソースを作成する権限を持つ Alibaba Cloud アカウント。

  • DataWorks が有効化されていること。有効化手順については、「環境を準備する」をご参照ください。

  • ユーザープロファイル分析チュートリアルの概要を確認し、全体のワークフローを理解していること。

注意事項

  • このチュートリアルで使用する基本的なユーザー情報と Web サイトのアクセスログは、テストデータとして提供されます。

  • このチュートリアルのデータはすべて手動で作成されたモックデータであり、DataWorks での実験的な操作にのみ使用できます。

  • このチュートリアルでは、データ処理に データ開発 (DataStudio) (旧バージョン) を使用します。

EMR クラスターのセットアップ

DataWorks が接続してデータ処理タスクを実行できる EMR クラスターを作成します。

  1. クラスターの作成」の手順に従って、新しいクラスターを作成します。以下の構成を使用します:

    重要

    クラスターを作成する前に、「EMR クラスター上での DataWorks の構成に関するベストプラクティス」を確認して、DataWorks がサポートするクラスター構成を確認してください。

    パラメーター
    リージョン中国 (上海)
    ビジネスシナリオデータレイク
    プロダクトバージョン最新バージョン
    オプションサービスHive コンポーネント、OSS-HDFS コンポーネント (いずれも必須) を最低限選択します。
    メタデータDLF 統合メタデータ
    クラスターのストレージルートパスOSS-HDFS インスタンスを選択します。リストが空の場合は、 [OSS-HDFS インスタンスの作成] をクリックして作成します。

DataWorks 環境のセットアップ

ステップ 1:ワークスペースの作成

中国 (上海) リージョンにすでにワークスペースがある場合は、このステップをスキップしてください。

  1. DataWorks コンソールにログインします。左上隅で、リージョンを [中国 (上海)] に切り替えます。

  2. 左側のナビゲーションウィンドウで、[ワークスペース] をクリックし、次に [ワークスペースの作成] をクリックします。本番環境および開発環境を分離する標準モードのワークスペースを作成します。詳細については、「ワークスペースの作成」をご参照ください。

ステップ 2:サーバーレスリソースグループの作成

このチュートリアルでは、データ同期とスケジューリングにサーバーレスリソースグループを使用します。サーバーレスリソースグループはクロスリージョン操作をサポートしていないため、中国 (上海) リージョンに作成します。

リソースグループの購入

  1. DataWorks コンソールにログインします。上部のナビゲーションバーで [中国 (上海)] リージョンを選択します。左側のナビゲーションウィンドウで [リソースグループ] をクリックします。

  2. [リソースグループの作成] をクリックします。 購入ページで、[リージョンとゾーン]China (Shanghai) に設定し、リソースグループの名前を入力し、プロンプトに従って購入を完了します。 課金の詳細については、「サーバーレスリソースグループの課金」をご参照ください。

リソースグループの設定

  1. [リソースグループ] ページで、作成したリソースグループを見つけ、[操作] 列の [ワークスペースの関連付け] をクリックします。ステップ 1 で作成したワークスペースに関連付けます。

  2. リソースグループのパブリックネットワークアクセスを有効にします。このチュートリアルのテストデータは、パブリックインターネット経由で取得されます。デフォルトでは、リソースグループにはパブリックネットワークアクセスがありません。リソースグループに関連付けられている Virtual Private Cloud (VPC) のインターネット NAT ゲートウェイを設定し、Elastic IP アドレス (EIP) を割り当てることで、インターネット接続を有効にします。

    1. VPC コンソールにログインし、インターネット NAT ゲートウェイのページに移動します。[中国 (上海)] リージョンを選択します。

    2. [インターネット NAT ゲートウェイの作成] をクリックし、以下のパラメーターを設定します:

      パラメーター
      [リージョン]中国 (上海)
      [VPC]リソースグループに関連付けられている VPC。確認方法:DataWorks コンソールで、[リソースグループ] に移動し、対象のリソースグループを見つけ、[操作] 列の [ネットワーク設定] をクリックし、[VPC バインディング] タブ > [データスケジューリング & データ統合] セクションで確認します。
      [vSwitch の関連付け]リソースグループに関連付けられている vSwitch (上記の VPC と同じ場所)
      [アクセスモード]SNAT 有効モード
      EIPEIP の購入
      [サービスにリンクされたロールの作成][サービスにリンクされたロールの作成] をクリックします。インターネット NAT ゲートウェイを初めて作成する場合に必要です。

      他のすべてのパラメーターはデフォルト値のままにします。

    3. [今すぐ購入] をクリックします。確認ページで、サービス利用規約に同意し、[今すぐアクティベート] をクリックします。

詳細については、「サーバーレス リソースグループの作成と使用」をご参照ください。

ステップ 3:EMR クラスターの登録とリソースグループの初期化

EMR クラスターを DataWorks に登録して、クラスター上でタスクを実行できるようにします。

EMR クラスター登録ページへの移動

  1. DataWorks コンソールにログインします。[中国 (上海)] リージョンに切り替えます。左側のナビゲーションウィンドウで、[その他] > [管理センター] をクリックします。ドロップダウンリストからワークスペースを選択し、[管理センターへ移動] をクリックします。

  2. [設定センター] ページの左側のナビゲーションウィンドウで、[クラスター管理] をクリックします。[クラスター管理] ページで、[クラスターの登録] をクリックします。ダイアログボックスで、[E-MapReduce] をクリックします。[EMR クラスターの登録] ページが表示されます。

クラスターの登録

  1. [EMR クラスターの登録] ページで、クラスターの詳細を入力します。以下のパラメーターを設定します:

    パラメーター
    クラスタ Alibaba Cloudアカウント現在の Alibaba Cloud アカウント
    クラスタータイプデータレイク (datalake)
    デフォルトアクセスIDクラスターアカウント:Hadoop
    プロキシユーザー情報の転送合格

リソースグループの初期化

  1. [クラスター管理] ページで、登録済みのクラスターを見つけ、右上隅の [リソースグループの初期化] をクリックします。

  2. 初期化が必要なリソースグループの横にある [初期化] をクリックします。

  3. 初期化が完了したら、[確認] をクリックします。

    重要

    続行する前に、初期化が成功したことを確認してください。失敗した場合は、エラーメッセージを確認し、提案されたネットワーク接続診断を実行してください。初期化に失敗すると、後続のタスクも失敗します。

詳細については、「EMR クラスターを DataWorks に登録する」をご参照ください。

次のステップ

環境の準備が整ったら、次のチュートリアルに進み、ユーザープロファイルデータと Web サイトのアクセスログを Object Storage Service (OSS) に同期し、Apache Hive テーブルを作成し、EMR Hive ノードを使用してデータをクエリします。「データの同期」をご参照ください。