SQL セッションの作成 - E-MapReduce

セッションとは、E-MapReduce（EMR）Serverless Spark のワークスペースで使用可能な Spark セッションのことです。 SQL クエリを実行してデータの科学的分析を実行するには、SQL セッションにアクセスする必要があります。このトピックでは、SQL セッションを作成する方法について説明します。

SQL セッションを作成する

SQL セッションを作成した後、SQL ジョブを作成するときにセッションを選択できます。

セッションページに移動します。
1. EMR コンソールにログオンします。
2. 左側のナビゲーションウィンドウで、[EMR Serverless] > [Spark] を選択します。
3. [Spark] ページで、管理するワークスペースの名前をクリックします。
4. [EMR Serverless Spark] ページの左側のナビゲーションウィンドウで、[オペレーションセンター] > [セッション] を選択します。
[SQL セッション] タブで、[SQL セッションの作成] をクリックします。

[SQL セッションの作成] ページで、パラメータを構成し、[作成] をクリックします。次の表にパラメータを示します。

重要

リソースキューの [最大同時実行数] パラメータを、ノートブックセッションに必要な計算ユニット（CU）の数以上の値に設定することをお勧めします。[最大同時実行数] パラメータ値は、EMR コンソールで確認できます。

パラメータ	説明
名前	SQL セッションの名前。名前は 1 ～ 64 文字で、文字、数字、ハイフン（-）、アンダースコア（_）、およびスペースを含めることができます。
リソースキュー	SQL セッションがデプロイされるリソースキュー。ドロップダウンリストからリソースキューを選択します。開発環境で使用可能なリソースキューと、開発環境と本番環境の両方で使用可能なリソースキューのみがドロップダウンリストに表示されます。リソースキューの詳細については、「リソースキューの管理」をご参照ください。
エンジンバージョン	SQL セッションで使用されるエンジンのバージョン。エンジンバージョンの詳細については、「エンジンバージョン」をご参照ください。
Fusion アクセラレーションの使用	Fusion アクセラレーションを有効にするかどうかを指定します。Fusion エンジンは、Spark ワークロードの処理を高速化し、ジョブの全体的なコストを削減するのに役立ちます。課金の詳細については、「課金」をご参照ください。Fusion エンジンの詳細については、「Fusion エンジン」をご参照ください。
自動停止	デフォルトでは、このスイッチはオンになっています。SQL セッションが非アクティブになった後、SQL セッションを自動的に停止する時刻を構成できます。
ネットワーク接続	仮想プライベートクラウド（VPC）内のデータソースまたは外部サービスにアクセスするために使用されるネットワーク接続。ネットワーク接続の作成方法については、「VPC を介した EMR Serverless Spark とデータソース間のネットワーク接続の構成」をご参照ください。
spark.driver.cores	Spark アプリケーションのドライバーが使用する CPU コアの数。デフォルト値：1 CPU。
spark.driver.memory	Spark アプリケーションのドライバーが使用できるメモリのサイズ。デフォルト値：3.5 GB。
spark.executor.cores	各エグゼキュータが使用できる CPU コアの数。デフォルト値：1 CPU。
spark.executor.memory	各エグゼキュータが使用できるメモリのサイズ。デフォルト値：3.5 GB。
spark.executor.instances	Spark アプリケーションに割り当てられるエグゼキュータの数。デフォルト値：2。
動的割り当て	デフォルトでは、この機能は無効になっています。この機能を有効にした後、次のパラメータを構成する必要があります。最小エグゼキュータ数：デフォルト値：2。最大エグゼキュータ数：spark.executor.instances が設定されていない場合、デフォルト値は 10 です。
その他のメモリ構成	spark.driver.memoryOverhead：各ドライバーが使用できる非ヒープメモリ。このパラメータが設定されていない場合、Spark はデフォルト値に基づいて自動的にメモリを割り当てます。デフォルト値は `max（384MB, 10% × spark.driver.memory）` です。 spark.executor.memoryOverhead：各エグゼキュータが使用できる非ヒープメモリ。このパラメータが設定されていない場合、Spark はデフォルト値に基づいて自動的にメモリを割り当てます。デフォルト値は `max（384MB, 10% × spark.executor.memory）` です。 spark.memory.offHeap.size：Spark が使用できるオフヒープメモリのサイズ。デフォルト値：1 GB。このパラメータは、`spark.memory.offHeap.enabled` が `true` に設定されている場合にのみ有効になります。デフォルトでは、Fusion エンジンが使用されている場合、spark.memory.offHeap.enabled パラメータは true に設定され、spark.memory.offHeap.size パラメータは 1 GB に設定されます。
Spark 構成	Spark 構成。`spark.sql.catalog.paimon.metastore dlf` のように、構成をスペースで区切ります。

デフォルトでは、SQL セッションは自動的に開始状態になります。SQL セッションのステータスが [開始中] から [実行中] に変わると、SQL セッションは正常に作成されます。ビジネス要件に基づいて、SQL セッションを停止、変更、または削除できます。

特定のセッションを使用して実行されたジョブを表示する

セッションページで、特定のセッションを使用して実行されたジョブを表示できます。手順：

[セッション] ページで、目的のセッションの名前をクリックします。
表示されるページで、[実行レコード] タブをクリックします。
[実行レコード] タブで、実行 ID や開始時刻など、ジョブの詳細を表示し、[Spark UI] 列のリンクをクリックして Spark UI にアクセスできます。

参照

リソースキューに関連する操作については、「リソースキューの管理」をご参照ください。
セッションでサポートされているロールと権限については、「ユーザーとロールの管理」をご参照ください。
SQL ジョブを開発する方法については、「SQL ジョブの概要」をご参照ください。