EMR 計算リソースの関連付け

DataWorks で E-MapReduce (EMR) タスクを開発および管理するには、ご利用の EMR クラスターを DataWorks の EMR 計算リソースとして関連付けてください。クラスターを関連付けた後は、DataWorks 内でデータ同期、開発などの操作にこの計算リソースを利用できます。

前提条件

DataWorks ワークスペースが作成済みであり、操作を実行する RAM ユーザーがワークスペースに追加され、ワークスペース管理者ロールが割り当てられていること。
EMR クラスターが作成済みであること。
- サポート対象のクラスタータイプ：
- この計算リソースは、[Data Studio (新バージョン) を使用] を使用しているワークスペースでのみ関連付けられます。
  
  説明
  Use [Data Studio (新バージョン) を使用] を使用していないワークスペースでは、クラスター管理 からリソースを関連付けることができます。詳細については、「EMR 計算リソースの関連付け (レガシバージョン)」をご参照ください。
ワークスペースに関連付けられたリソースグループがあり、ネットワーク接続が確立されていること。
- サーバーレスリソースグループを使用する場合は、EMR 計算リソースがサーバーレスリソースグループに接続できることを確認してください。
- レガシ専用リソースグループを使用する場合は、EMR 計算リソースが該当のユースケース向けの 専用スケジューリングリソースグループ に接続できることを確認してください。

制限事項

製品に関する制限事項：
- Kerberos 認証が有効になっている EMR クラスターの場合、セキュリティグループで、リソースグループに関連付けられた vSwitch CIDR ブロックからの UDP インバウンドトラフィックを許可する必要があります。
  
  説明
  EMR クラスターの Basic information セクションで、Cluster Security Group の横にあるアイコンをクリックして、セキュリティグループの詳細 タブに移動します。アクセスルール > 受信をクリックし、Added Manually を選択し、プロトコルタイプ を カスタム UDP に設定します。ポート範囲 については、EMR クラスター上の /etc/krb5.conf ファイルで KDC ポートを確認してください。Authorized object をリソースグループに関連付けられた vSwitch CIDR ブロックに設定します。
- DataLake クラスターまたはカスタムクラスターのメタデータを DataWorks で管理するには、クラスター側で EMR-HOOK を構成するか、Spark パラメーターの構成時に設定できます。EMR-HOOK が構成されていない場合、DataWorks ではリアルタイムでのメタデータ表示、監査ログの生成、リネージの表示が行えず、EMR 関連のガバナンスタスクも実行できません。現在、EMR Hive および EMR Spark SQL サービスのみが EMR-HOOK 構成をサポートしています。詳細については、「Hive 用 EMR-HOOK の構成」および「Spark SQL 用 EMR-HOOK の構成」をご参照ください。
  説明
  - 「Hive 用 EMR-HOOK の構成」は E-MapReduce コンソールで完了できます。構成完了後、リソースグループを再初期化する必要はありません。
  - 「Spark SQL 用 EMR-HOOK の構成」は以下の 2 つの方法で行えます。
    
    E-MapReduce コンソールで構成します。この場合、リソースグループを再初期化する必要があります。
    
    計算リソース内で Spark プロパティーパラメーターを設定して構成します。この場合、リソースグループを再初期化する必要はありません。
リージョンに関する制限事項：中国 (杭州)、中国 (上海)、中国 (北京)、中国 (深セン)、中国 (成都)、中国 (香港)、日本 (東京)、シンガポール、マレーシア (クアラルンプール)、インドネシア (ジャカルタ)、ドイツ (フランクフルト)、イギリス (ロンドン)、米国 (シリコンバレー)、および米国 (バージニア)。

権限に関する制限事項：

オペレーター	必要な権限
Alibaba Cloud アカウント	追加の権限付与は不要です。
RAM ユーザーまたは RAM ロール	オペレーターまたはワークスペース管理者ロールが割り当てられているワークスペースメンバー、または `AliyunDataWorksFullAccess` 権限を持つユーザーのみが、計算リソースを作成できます。詳細については、「ユーザーにワークスペース管理者ロールを割り当てる」をご参照ください。

注意事項

DataWorks でサポートされている Hadoop クラスター (レガシデータレイク) の EMR バージョンは次のとおりです。

EMR-3.38.2、EMR-3.38.3、EMR-4.9.0、EMR-5.6.0、EMR-3.26.3、EMR-3.27.2、EMR-3.29.0、EMR-3.32.0、EMR-3.35.0、EMR-4.3.0、EMR-4.4.1、EMR-4.5.0、EMR-4.5.1、EMR-4.6.0、EMR-4.8.0、EMR-5.2.1、および EMR-5.4.3。
Hadoop クラスター (レガシデータレイク) は非推奨です。できるだけ早く DataLake クラスターへ移行してください。詳細については、「Hadoop クラスターから DataLake クラスターへの移行」をご参照ください。

計算リソース一覧ページへの移動

DataWorks コンソールにログインします。左側のナビゲーションウィンドウで目的のリージョンに切り替え、More > 管理センター をクリックします。ドロップダウンリストからご利用のワークスペースを選択し、Go to Management Center をクリックします。
左側のナビゲーションウィンドウで、Computing Resources をクリックして、計算リソース一覧ページを開きます。

計算リソース一覧ページで、EMR 計算リソースを構成および関連付けます。

関連付ける計算リソースのタイプを選択します。
1. コンピューティングリソースのバインド をクリックして、コンピューティングリソースのバインド ページに移動します。
2. コンピューティングリソースのバインド ページで、計算リソースタイプを EMR に設定して、Associate EMR Computing Resource 構成ページに移動します。

EMR 計算リソースを構成します。

Associate EMR Computing Resource 構成ページで、以下のパラメーターを設定します。

パラメーター	説明
クラスターが属するクラウドアカウント	Current Alibaba Cloud Account または Another Alibaba Cloud Account を選択できます。説明 Another Alibaba Cloud Account を選択する場合は、「Alibaba Cloud アカウント間での EMR クラスターの利用」の手順に従って関連アカウントの権限付与を行い、その後、画面の指示に従って必要なパラメーターを設定してください。
Cluster Type	ビジネス要件に応じてクラスタータイプを選択します。説明サポート対象のクラスタータイプ： DataLake クラスター (新データレイク)：EMR on ECS カスタムクラスター：EMR on ECS Hadoop クラスター (レガシデータレイク)：EMR on ECS Spark クラスター：EMR on ACK
Cluster	該当のクラスタータイプの下で、利用したい EMR クラスターを選択します。
Default Access Identity	開発環境：クラスターアカウント `hadoop` を使用するか、タスクエグゼキュータにマッピングされたクラスターアカウントを使用できます。本番環境：クラスターアカウント `hadoop` を使用するか、タスクオーナー、Alibaba Cloud アカウント、または RAM ユーザーにマッピングされたクラスターアカウントを使用できます。説明デフォルトアクセス ID をタスクオーナー、Alibaba Cloud アカウント、または RAM ユーザーにマッピングされたクラスターアカウントに設定する場合は、「DataWorks と EMR 間のアカウントマッピングの構成」を参照して、DataWorks テナントメンバーと EMR クラスターアカウント間のマッピングを手動で構成してください。EMR タスクは、DataWorks でマッピングされたクラスターアカウントを使用して実行されます。DataWorks テナントメンバーとクラスターアカウント間にマッピングが構成されていない場合、DataWorks は次のように処理します。 RAM ユーザー (サブアカウント) がタスクを実行する場合：DataWorks は、デフォルトで現在のオペレーターと同じ名前の EMR クラスターシステムアカウントを使用します。クラスターで LDAP または Kerberos 認証が有効になっている場合、タスクは失敗します。 Alibaba Cloud アカウントがタスクを実行する場合：DataWorks タスクはエラーを返します。
プロキシユーザー情報を渡す	プロキシユーザ情報の引き渡しを行うかどうかを指定します。説明 LDAP、Kerberos、または他の認証方式が有効になっている場合、クラスターは一般ユーザごとに認証情報を発行します。ユーザ権限を一元的に管理するために、スーパーユーザ (実ユーザ) を使用して一般ユーザ (プロキシユーザ) の認証を代理できます。この場合、プロキシユーザがクラスターにアクセスすると、スーパーユーザの認証情報が使用されます。ユーザをプロキシユーザとして追加するだけで済みます。 Pass：EMR クラスター上でタスクを実行する際、データアクセス権限はプロキシユーザに基づいて検証および制御されます。 Data Studio および Data Analysis：タスクエグゼキュータの Alibaba Cloud アカウント名が動的にプロキシユーザ情報として引き渡されます。 Operation Center：クラスター登録時に構成されたデフォルトアクセス ID の Alibaba Cloud アカウント名が固定のプロキシユーザ情報として引き渡されます。 Do not pass：EMR クラスター上でタスクを実行する際、データアクセス権限はクラスター登録時に構成されたアカウント認証方式に基づいて検証および制御されます。プロキシユーザ情報の引き渡し方法は、EMR タスクのタイプによって異なります。 EMR Kyuubi タスク：情報は `hive.server2.proxy.user` 設定項目を通じて引き渡されます。 JDBC モード以外の EMR Spark タスクおよび EMR Spark SQL タスク：情報は `-proxy-user` 設定項目を通じて引き渡されます。
設定ファイル	クラスタータイプを HADOOP に設定する場合、EMR コンソールから設定ファイルを取得できます。詳細については、「EMR クラスター設定ファイルのエクスポート」をご参照ください。ファイルをエクスポートした後、構成ページの指示に従ってファイル名を変更してください。また、EMR クラスターにログインして、以下のパスから設定ファイルを取得することもできます。 `/etc/ecm/hadoop-conf/core-site.xml /etc/ecm/hadoop-conf/hdfs-site.xml /etc/ecm/hadoop-conf/mapred-site.xml /etc/ecm/hadoop-conf/yarn-site.xml /etc/ecm/hive-conf/hive-site.xml /etc/ecm/spark-conf/spark-defaults.conf /etc/ecm/spark-conf/spark-env.sh`
Computeリソースインスタンス名	計算リソースインスタンスの名前をカスタマイズします。タスク実行時に、この名前で計算リソースを選択できます。

Confirm をクリックして、EMR 計算リソースの構成を完了します。

リソースグループの初期化

クラスターを初めて登録する場合、クラスターサービスの構成を変更する場合、または コンポーネントバージョンをアップグレードする場合 (例：core-site.xml の変更) は、ネットワーク接続構成を通じてリソースグループが EMR クラスターに正常にアクセスできるように、リソースグループを初期化する必要があります。

Computing Resources 一覧ページで、作成した EMR 計算リソースを見つけ、右上隅の リソースグループの初期化 をクリックします。
目的のリソースグループの横にある Initialize をクリックします。リソースグループの初期化が完了したら、Determine をクリックします。

(オプション) YARN リソースキューの構成

Computing Resources 一覧ページで、関連付けた EMR クラスターを見つけ、YARNリソースキュー タブで Edit YARN Resource Queue をクリックして、異なるモジュールのタスク向けに YARN リソースキューを構成します。

(オプション) Spark パラメーターの構成

異なるモジュールのタスク向けに専用の Spark プロパティーパラメーターを構成します。

Computing Resources 一覧ページで、関連付けた EMR クラスターを見つけます。
SPARKパラメータ タブをクリックし、続いて Sparkパラメーターの編集 をクリックして、EMR クラスターの Spark パラメーター編集ページに移動します。
モジュールの下にある Add をクリックし、Sparkプロパティ名 および対応する Spark属性値 を入力して、異なるモジュールのタスク向けに Spark プロパティーパラメーターを構成します。

次のステップ

Kyuubi 接続情報の構成：カスタムアカウントおよびパスワードを使用して Kyuubi にログインし、タスクを実行したい場合は、このドキュメントを参照して Kyuubi 接続情報をカスタマイズしてください。
EMR 計算リソースを構成した後は、Data Studio 内の EMR 関連ノードを使用してデータ開発操作を実行できます。