セッションは、EMR Serverless Spark ワークスペースで利用可能な Spark セッションです。ノートブックセッションは、ノートブック開発に使用できます。このトピックでは、ノートブックセッションの作成方法について説明します。
ノートブックセッションの作成
ノートブックセッションを作成すると、ノートブック開発でこのセッションを選択できるようになります。
Notebook Session ページに移動します。
EMR コンソールにログインします。
左側のナビゲーションウィンドウで、 を選択します。
Spark ページで、対象のワークスペースの名前をクリックします。
EMR Serverless Spark ページで、左側のナビゲーションウィンドウから Sessions を選択します。
Notebook Session タブをクリックします。
Notebook Session ページで、Create Notebook Session をクリックします。
[ノートブックセッションの作成] ページで、パラメーターを設定し、Create をクリックします。
重要選択したデプロイメントキューの最大同時実行数を、ノートブックセッションで必要なリソースサイズ以上の値に設定してください。具体的な値はコンソールに表示されます。
パラメーター
説明
Name
新しいノートブックセッションの名前。
名前の長さは 1~64 文字で、使用できる文字は、英字、数字、ハイフン (-)、アンダースコア (_)、スペースのみです。
Resource Queue
セッションをデプロイするキューを選択します。開発キュー、または開発環境と本番環境で共有されるキューのみを選択できます。
キューの詳細については、「リソースキューの管理」をご参照ください。
Engine Version
現在のセッションのエンジンバージョン。エンジンバージョンの詳細については、「エンジンバージョン」をご参照ください。
Use Fusion Acceleration
Fusion Engine は Spark ワークロードを高速化し、タスクの総コストを削減できます。課金情報については、「課金」をご参照ください。Fusion Engine の詳細については、「Fusion Engine」をご参照ください。
Runtime Environment
Runtime Environments ページで作成したカスタム環境を選択します。ノートブックセッションが開始されると、選択した環境に基づいて関連ライブラリがプリインストールされます。
説明準備完了状態のランタイム環境のみを選択できます。
Automatic Stop
デフォルトで有効になっています。非アクティブなノートブックセッションが自動的に停止するまでのカスタム時間を設定します。
Network Connection
Mount Integrated File Directory
この機能はデフォルトで無効になっています。この機能を使用するには、まず Integrated File Directory タブの Files ページでファイルディレクトリを追加する必要があります。詳細については、「統合ファイルディレクトリ」をご参照ください。
有効にすると、統合ファイルディレクトリがセッションリソースにマウントされます。これにより、ノートブックセッション内から直接ディレクトリ内のファイルの読み書きが可能になります。
マウント操作は、一定量のドライバーの計算リソースを消費します。消費されるリソースは、次の 2 つの値のうち大きい方です:
固定リソース:0.3 CPU コア + 1 GB メモリ。
動的リソース:
spark.driverリソースの 10% (つまり、0.1 × spark.driverコアとメモリ)。
たとえば、
spark.driverが 4 CPU コアと 8 GB のメモリで構成されている場合、動的リソースは 0.4 CPU コア + 0.8 GB メモリです。この場合、実際に消費されるリソースはmax(0.3 Core + 1GB, 0.4 Core + 0.8GB)、つまり 0.4 CPU コア + 1 GB メモリです。説明マウントを有効にすると、デフォルトではディレクトリはドライバーにのみマウントされます。エグゼキュータにもディレクトリをマウントするには、エグゼキュータへのマウント を有効にします。
重要統合 NAS ファイルディレクトリをマウントした後は、ネットワーク接続を構成する必要があります。ネットワーク接続の VPC は、NAS マウントポイントが存在する VPC と同じである必要があります。
エグゼキュータへのマウント
有効にすると、統合ファイルディレクトリがセッションエグゼキュータにマウントされます。これにより、ノートブックセッションのエグゼキュータから直接ディレクトリ内のファイルの読み書きが可能になります。
マウント操作はエグゼキュータのリソースを消費します。消費されるリソースの割合は、マウントされたディレクトリ内のファイルの使用状況によって異なります。
spark.driver.cores
Spark アプリケーションのドライバープロセスが使用する CPU コアの数。デフォルト値は 1 CPU です。
spark.driver.memory
Spark アプリケーションのドライバープロセスが使用できるメモリ量。デフォルト値は 3.5 GB です。
spark.executor.cores
各エグゼキュータプロセスが使用できる CPU コアの数。デフォルト値は 1 CPU です。
spark.executor.memory
各エグゼキュータプロセスが使用できるメモリ量。デフォルト値は 3.5 GB です。
spark.executor.instances
Spark によって割り当てられるエグゼキュータの数。デフォルト値は 2 です。
Dynamic Resource Allocation
この機能はデフォルトで無効になっています。この機能を有効にした後、次のパラメーターを設定します:
Minimum Number of Executors:デフォルト値は 2 です。
Maximum Number of Executors:spark.executor.instances が設定されていない場合、デフォルト値は 10 です。
その他のメモリ構成
spark.driver.memoryOverhead:各ドライバーで利用可能な非ヒープメモリ。このパラメーターが設定されていない場合、Spark はデフォルトの数式
max(384 MB, 10% × spark.driver.memory)に基づいて値を自動的に割り当てます。spark.executor.memoryOverhead:各エグゼキュータで利用可能な非ヒープメモリ。このパラメーターが設定されていない場合、Spark はデフォルトの数式
max(384 MB, 10% × spark.executor.memory)に基づいて値を自動的に割り当てます。spark.memory.offHeap.size:Spark で利用可能なオフヒープメモリのサイズ。デフォルト値は 1 GB です。
このパラメーターは、
spark.memory.offHeap.enabledがtrueに設定されている場合にのみ有効です。デフォルトでは、Fusion Engine を使用すると、この機能が有効になり、非ヒープメモリは 1 GB に設定されます。
Spark 構成
Spark の構成情報を入力します。構成はスペースで区切ります。例:
spark.sql.catalog.paimon.metastore dlf。
関連ドキュメント
キュー操作の詳細については、「リソースキューの管理」をご参照ください。
セッションのロールと権限の詳細については、「ユーザーとロールの管理」をご参照ください。
ノートブック開発プロセスの完全な例については、「ノートブック開発のクイックスタート」をご参照ください。