デフォルトでは、Matplotlib、NumPy、および Pandas がノートブックセッションにインストールされています。他のサードパーティライブラリを使用する場合は、ランタイム環境を作成できます。
前提条件
ワークスペースが作成されていること。詳細については、「ワークスペースの管理」をご参照ください。
ランタイム環境の作成
ランタイム環境ページに移動します。
E-MapReduce(EMR)コンソール にログインします。
左側のナビゲーションウィンドウで、
を選択します。[spark] ページで、目的のワークスペースを見つけ、ワークスペースの名前をクリックします。
[EMR Serverless Spark] ページの左側のナビゲーションウィンドウで、[ランタイム環境] をクリックします。
[ランタイム環境の作成] をクリックします。
[ランタイム環境の作成] ページで、パラメーターを構成します。次の表にパラメーターを示します。
パラメーター
必須
説明
名前
はい
ランタイム環境の名前。
説明
いいえ
ランタイム環境の説明。
環境初期化用のキュー
はい
ランタイム環境の初期化に使用するキュー。ランタイム環境を作成した後、1 CPU コアと 4 GB のメモリを使用してランタイム環境が初期化されます。ランタイム環境が初期化された後、リソースは自動的に解放されます。
ネットワーク接続
いいえ
ソースアドレスが Alibaba Cloud ソースアドレスではない PyPI ライブラリを追加する場合、ランタイム環境の作成時にソースアドレスにアクセスするためのネットワーク接続を選択する必要があります。
ネットワーク接続の作成方法については、「VPC 間の EMR Serverless Spark とデータソース間のネットワーク接続を構成する」をご参照ください。
ライブラリを追加します。
[ライブラリの追加] セクションで [ライブラリの追加] をクリックします。
[ライブラリの作成] ダイアログボックスで、[ソースタイプ] パラメーターとその他のパラメーターを構成し、[OK] をクリックします。
パラメーター
説明
PyPI
Pypi パッケージ: [ソースタイプ] パラメーターを PyPI に設定する場合、[pypi パッケージ] パラメーターを構成する必要があります。[pypi パッケージ] フィールドに、ライブラリの名前とバージョンを入力します。ライブラリバージョンを指定しない場合は、最新バージョンがインストールされます。デフォルトでは、パッケージをダウンロードするために Alibaba Cloud によって提供されるソースアドレス が使用されます。
例:
Plotly
またはPlotly==4.9.0
。パッケージソース: PyPI パッケージのソースアドレス。このパラメーターを構成しない場合は、Alibaba Cloud ソースアドレスが使用されます。カスタムソースアドレスを使用する場合は、[ネットワーク接続] パラメーターを構成する必要があります。
ワークスペースリソース
[ソースタイプ] パラメーターをワークスペースリソースに設定する場合は、[ワークスペースリソース] パラメーターを構成する必要があります。[ワークスペースリソース] ドロップダウンリストからファイルリソースを選択します。使用可能なリソースがない場合は、[ファイル] ページにファイルリソースをアップロードします。
次のファイルタイプがサポートされています:
.zip
、.tar
、.whl
、.tar.gz
、.jar
および.txt
。説明ファイルタイプが
.txt
の場合、システムは requirements.txt に従って、txt ファイルの内容に従って指定された Python ライブラリとバージョンをインストールします。OSS リソース
[ソースタイプ] パラメーターを OSS リソースに設定する場合は、[OSS リソース] パラメーターを構成する必要があります。[OSS リソース] フィールドに、Object Storage Service(OSS)バケット内のオブジェクトのパスを入力します。
次のファイルタイプがサポートされています:
.zip
、.tar
、.whl
、.tar.gz
、.jar
および.txt
。説明ファイルタイプが
.txt
の場合、システムは requirements.txt に従って、txt ファイルの内容に従って指定された Python ライブラリとバージョンをインストールします。
[作成] をクリックします。
ランタイム環境を作成すると、ランタイム環境が初期化されます。
ランタイム環境の変更
ランタイム環境を変更して、ランタイム環境に追加したライブラリを更新できます。
[ランタイム環境] ページで、変更するランタイム環境を見つけ、[アクション] 列の [編集] をクリックします。
[ランタイム環境の変更] ページで、ランタイム環境の構成項目を変更します。
[変更の保存] をクリックします。
変更を保存すると、新しい構成に基づいてランタイム環境が再初期化されます。
説明ランタイム環境が再初期化された後、変更はランタイム環境を使用するノートブックセッションですぐに有効になるわけではありません。変更をノートブックセッションに適用するには、ノートブックセッションを再起動します。
ランタイム環境の使用
ランタイム環境が [準備完了] 状態になると、データ開発またはノートブックセッションでランタイム環境を使用できます。
PySpark バッチジョブ: PySpark ジョブが開始されると、システムは選択されたランタイム環境に基づいて指定されたライブラリをプリインストールします。
ワークフロー: ワークフローにノートブックノードを追加するときに、ランタイム環境を指定できます。
ノートブックセッション: ノートブックセッションが開始されると、システムは選択されたランタイム環境に基づいて指定されたライブラリをプリインストールします。
Livy ゲートウェイ: Livy ゲートウェイを使用してジョブを送信するときに、指定されたランタイム環境に基づいてジョブの実行に必要なリソースが事前に構成されます。
Spark Submit、Apache Airflow、または Livy を使用してジョブを送信する場合、
--conf spark.emr.serverless.environmentId=<Runtime environment ID>
を構成してランタイム環境を指定できます。