DataWorks (DataWorks) で EMR Serverless Spark (EMR Serverless Spark) タスクを開発および管理するには、EMR Serverless Spark ワークスペースを DataWorks に関連付ける必要があります。これにより、ワークスペースはデータ開発用のコンピューティングリソースとして利用可能になります。
前提条件
EMR Serverless Spark ワークスペースが作成済みであること。
DataWorks ワークスペースが「ワークスペースが作成されました」。この操作を実行した RAM ユーザーは、ワークスペースに追加され、ワークスペース管理者ロールが割り当てられました。
重要サポートされるのは、新しいバージョンのData Development (Data Studio) を使用する に設定されたワークスペースのみです。
サーバーレスリソースグループが作成済みであり、ターゲット DataWorks ワークスペースに関連付けられていること。
制限事項
対応リージョン: この機能は、以下のリージョンで利用可能です。中国 (杭州)、中国 (上海)、中国 (北京)、中国 (深セン)、中国 (成都)、中国 (香港)、日本 (東京)、シンガポール、インドネシア (ジャカルタ)、ドイツ (フランクフルト)、米国 (シリコンバレー)、米国 (バージニア)。
権限:
ユーザー/ロール
必要な権限
Alibaba Cloud アカウント
追加の権限は不要です。
RAM ユーザーまたは RAM ロール
DataWorks 管理権限: [運用保守] または [ワークスペース管理者] ロールを持つワークスペースメンバー、または
AliyunDataWorksFullAccessポリシーを持つメンバーのみが、コンピューティングリソースを作成できます。詳細については、「ユーザーにワークスペース管理者ロールを付与する」をご参照ください。EMR Serverless Spark サービス権限:
AliyunEMRServerlessSparkFullAccessポリシー。EMR Serverless Spark ワークスペースの
Owner権限。 詳細については、「ユーザーとロールを管理する」をご参照ください。
ステップ1: コンピューティングリソースページを開く
-
DataWorks コンソールにログインします。
-
ターゲットリージョンに切り替えます。
-
左側のナビゲーションウィンドウで、を選択します。
-
ワークスペースを選択し、[管理センターへ移動] をクリックします。
-
左側のナビゲーションウィンドウで、[コンピューティングリソース] をクリックします。
サーバーレス Spark コンピューティングリソースの関連付け
コンピューティングリソースページで、Serverless Spark コンピューティングリソースを構成し、関連付けます。
コンピューティングリソースタイプを選択します。
[コンピューティングリソースの関連付け] をクリックすると、[コンピューティングリソースの関連付け] ページが開きます。
「[コンピューティングリソースの関連付け]」ページで、リソースタイプとして [Serverless Spark] を選択します。これにより、「[Serverless Spark コンピューティングリソースの関連付け]」構成ページが開きます。
Serverless Spark コンピューティングリソースを構成します。
[サーバーレス Spark コンピューティングリソースの関連付け] ページで、以下のパラメーターを設定します。
パラメーター
説明
Spark ワークスペース
関連付けたい Spark ワークスペースを選択します。また、ドロップダウンリストで [作成] をクリックして、Spark ワークスペースを作成する こともできます。
デフォルトエンジンバージョン
使用するエンジンバージョンを選択します。
Data Studio で EMR Spark タスクを作成すると、このエンジンバージョンがデフォルトで使用されます。
異なるタスクに異なるエンジンバージョンを設定するには、Spark タスクの詳細設定で定義します。
デフォルトリソースキュー
使用するリソースキューを選択します。また、ドロップダウンリストで [作成] をクリックして、キューを追加することができます。
Data Studio で EMR Spark タスクを作成すると、このリソースキューがデフォルトで使用されます。
異なるタスクに異なるリソースキューを設定するには、Spark タスクの詳細設定で定義します。
デフォルト Kyuubi ゲートウェイ
オプション。Kyuubi ゲートウェイ構成は、以下のタスクの実行方法に影響します。
Kyuubi ゲートウェイが構成されている場合:
Kyuubi ゲートウェイは、EMR Spark SQL/Kyuubi や Serverless Spark SQL/Kyuubi など、関連するすべてのタスクを実行します。
Kyuubi ゲートウェイが構成されていない場合:
DataWorks は、
spark-submitを使用して EMR Spark SQL および Serverless Spark SQL タスクを実行します。EMR Kyuubi および Serverless Kyuubi タスクは失敗します。
ゲートウェイを設定するには、 に移動して Kyuubi ゲートウェイを作成し、トークンを作成します。
Kerberos が有効になっていない場合: Kyuubi ゲートウェイの名前をクリックして、JDBC URL とトークンを取得します。それらを組み合わせて完全な接続文字列を形成します。
Kerberos が有効になっている場合: Kerberos 構成に基づいて Beeline 接続文字列を取得します。詳細については、「Kyuubi ゲートウェイで Kerberos を使用する」をご参照ください。
# Example of a standard connection string jdbc:hive2://kyuubi-cn-hangzhou-internal.spark.emr.aliyuncs.com:80/;transportMode=http;httpPath=cliservice/token/<token> # Example of a Kerberos-enabled connection string (Note: Do not omit the principal for the kyuubi service) jdbc:hive2://ep-xxxxxxxxxxx.epsrv-xxxxxxxxxxx.cn-hangzhou.privatelink.aliyuncs.com:10009/;principal=kyuubi/_HOST@EMR.C-DFD43*****7C204.COM
デフォルトアクセス ID
DataWorks がこの Spark ワークスペースにアクセスするために使用する ID です。
開発環境: [Executor] ID のみがサポートされています。
本番環境: Alibaba Cloudアカウント、RAMユーザー、およびタスク所有者のアイデンティティがサポートされています。
コンピューティングリソースインスタンス名
コンピューティングリソースを識別する名前を指定します。ランタイム時に、この名前はタスクのコンピューティングリソースを選択するために使用されます。
構成を完了するには、[OK] をクリックします。
グローバル Spark パラメーターの構成
DataWorks では、ワークスペースレベルで各モジュールの Spark パラメーターを設定できます。また、これらのグローバルパラメーターが Data Studio などの特定のモジュール内で構成されたパラメーターよりも優先されるかどうかを定義することもできます。設定を保存すると、タスクはこれらのパラメーターをデフォルトで使用します。以下の表は、パラメーターの構成方法について説明しています。
スコープ | 構成方法 |
グローバル構成 | ワークスペースレベルで DataWorks モジュールのグローバル Spark パラメーターを構成して、EMR タスクを実行できます。また、これらのグローバル Spark パラメーターが特定のモジュール内で構成された Spark パラメーターよりも優先されるかどうかを定義することもできます。詳細については、「グローバル Spark パラメーターを構成する」をご参照ください。 |
ノード固有の構成 | Data Studio では、個々のノードの編集ページで Spark プロパティを構成できます。その他のプロダクトモジュールでは、このタイプのノード固有の構成はサポートされていません。 |
権限
以下のユーザーとロールのみが、グローバル Spark パラメーターを構成できます。
Alibaba Cloud アカウント。
AliyunDataWorksFullAccessポリシーを持つ RAM ユーザーまたは RAM ロール。ワークスペース管理者ロールを持つ RAM ユーザー。
グローバル Spark パラメーターの構成
以下の手順に従って、グローバル Spark パラメーターを構成します。Serverless Spark コンピューティングリソースの Spark パラメーターの構成方法の詳細については、「ジョブ構成」をご参照ください。
コンピューティングリソースページに移動し、関連付けた Serverless Spark コンピューティングリソースを見つけます。
[Spark 関連パラメータ] をクリックすると構成ペインが開き、そこでグローバル Spark パラメータ設定を確認できます。
グローバル Spark パラメーターを設定します。
Cick [Spark関連パラメーターの編集] をクリックして、グローバル Spark パラメーターおよび各モジュールにおけるそれらの優先順位を設定します。
説明これはワークスペースレベルのグローバル構成です。続行する前に、正しいワークスペースが選択されていることを確認してください。
パラメーター
アクション
Spark プロパティ
Serverless Spark タスクを実行するための Spark プロパティを構成します。
下の[追加]ボタンをクリックし、[Spark プロパティ名]と対応する[Spark プロパティ値]を入力して Spark プロパティを設定できます。
サポートされている Spark プロパティのリストについては、「Spark Configuration」および「カスタム Spark Conf パラメーター」をご参照ください。
グローバル設定を優先
このオプションを選択すると、グローバル構成がプロダクトモジュール内の構成をオーバーライドします。その後、タスクはグローバル Spark プロパティを使用して実行されます。
グローバル構成: サーバーレス Spark コンピューティングリソースの [Spark パラメーター] ページで構成される Spark プロパティを指します ( 内)。
現在、グローバル Spark パラメーターは Data Studio、オペレーションセンター、およびデータ分析でのみ設定できます。
プロダクトモジュール内の構成:
DataStudio: EMR Spark、EMR Kyuubi、EMR Spark SQL、EMR Spark Streaming、Serverless Spark バッチ、Serverless Spark SQL、および Serverless Kyuubi ノードについて、ノード編集ページの Run Configuration タブまたは [スケジューリング] タブで、シングルノード向けの Spark プロパティを設定できます。
その他のプロダクトモジュール: これらのモジュール内で Spark プロパティを設定することはサポートされていません。
[OK] をクリックして、グローバル Spark パラメーターを保存します。
クラスターアカウントマッピングの構成
DataWorks メンバーの Alibaba Cloud アカウントを特定の EMR クラスター ID に手動でマッピングできます。これにより、メンバーはマッピングされた ID を使用して EMR Serverless Spark でタスクを実行できます。
この機能は、サーバーレスリソースグループでのみ利用可能です。2025年8月15日より前にサーバーレスリソースグループを購入し、この機能を使用したい場合は、リソースグループをスペックアップするためにチケットを送信する必要があります。
コンピューティングリソースページに移動し、関連付けた Serverless Spark コンピューティングリソースを見つけます。
[アカウント マッピング] をクリックして、[アカウント マッピング] 構成ペインを開きます。
[アカウントマッピングの編集] をクリックして、クラスターアカウントマッピングを設定します。選択した [マッピングタイプ] に基づいてパラメーターを設定できます。
マッピングタイプ
タスク実行
構成
システムアカウントへのマッピング
[デフォルトアクセスID] と同じ名前のクラスターアカウントを使用して、EMR Spark、EMR Spark SQL、EMR Kyuubi、および ノートブック の各ノードを実行します。
同名マッピングがデフォルトで使用されます。異なるアカウントを使用する必要がある場合は、異なるマッピングを手動で構成できます。
OpenLDAP アカウントへのマッピング
[デフォルトアクセスID] を使用して、EMR Spark タスクおよび EMR Spark SQL タスクを実行します。
デフォルトアクセス ID にマッピングされた OpenLDAP アカウントを使用して、EMR Kyuubi および ノートブックノードを実行します。
Kyuubi Gateway の LDAP 認証を設定して有効にした場合、対応するタスクを実行するには、[Alibaba Cloud アカウント] と OpenLDAP アカウント ([LDAP アカウント]、[LDAP パスワード]) とのマッピングを設定する必要があります。
重要DataWorks タスクの実行に必要な Alibaba Cloud アカウントがアカウントマッピングリストにない場合、タスクは失敗します。
Kerberos アカウントへのマッピング
[デフォルトアクセスID] を使用して、EMR Spark および EMR Spark SQL タスクを実行します。
デフォルトアクセス ID にマッピングされた Kerberos アカウントを使用して、EMR Kyuubi ノードを実行します。
EMR Serverless Spark クラスター用に構成されている Kerberos サービスの krb5.conf ファイルをアップロードします。
デフォルトアクセス ID として指定された Alibaba Cloud アカウントについて、Kerberos 認証に必要なプリンシパルと keytab を構成します。
[OK] をクリックして、クラスターアカウントマッピング構成を保存します。
次のステップ
Serverless Spark コンピューティングリソースを関連付けた後、Data Studio でタスクを開発するためにそれを使用できます。詳細については、以下のノードタイプのドキュメントをご参照ください: EMR Spark、EMR Spark SQL、EMR Spark Streaming、EMR Kyuubi、Serverless Spark バッチノード、Serverless Spark SQL、および Serverless Kyuubi。