EMR Serverless Spark的Python環境已預設安裝matplotlib、numpy和pandas。如果您需要使用其他第三方庫,可以建立運行環境。
前提條件
已建立工作空間,詳情請參見管理工作空間。
建立運行環境
進入運行環境管理頁面。
在左側導覽列,選擇。
在Spark頁面,單擊目標工作空間名稱。
在EMR Serverless Spark頁面,選擇左側導覽列中的運行環境管理。
單擊建立運行環境。
在建立運行環境頁面,配置以下參數。
參數
是否必填
說明
名稱
是
填寫運行環境的名稱。
描述
否
填寫該環境的描述。
初始化環境隊列
是
選擇初始化環境所需的隊列。建立運行環境時,將佔用該隊列1 Core 4 GB資源用於初始化環境,初始化完成後,資源將自動釋放。
網路連接
否
如果需要添加阿里雲源地址外的PyPI庫,請選擇合適的網路連接,建立運行環境的時候將使用該網路連接來訪問源地址。
建立網路連接的具體操作,請參見EMR Serverless Spark與其他VPC間網路互連。
Python版本
是
預設使用Python 3.8,可以根據業務需求選擇其他版本。
請確保所選Python版本與目標Python庫相容,避免因版本不匹配導致打包失敗或運行異常。
添加庫資訊。
單擊添加庫。
在建立庫中,選擇來源類型,配置相關的參數,然後單擊確定。
參數
說明
PyPI
PyPI Package:填寫PyPI庫的名稱及版本,不指定版本時,預設安裝最新版本。預設使用阿里雲源地址。
例如,
Plotly或Plotly==4.9.0。Package 來源:指定PyPI Package的來源地址,不填寫時預設使用阿里雲源地址。如果使用自訂來源地址,請確保已選擇合適的網路連接。
工作空間資源
在工作空間資源下拉式清單中,選擇當前工作空間的檔案資源。如果沒有可選的資源,請在檔案管理頁面上傳。
支援的檔案類型:
.zip、.tar、.whl、.tar.gz、.jar、.txt。說明其中檔案類型為
.txt時,將按照requirements.txt方式根據txt檔案中的內容,安裝指定的Python庫及版本。OSS資源
在OSS資源中,填寫在阿里雲OSS中儲存的檔案路徑。
支援的檔案類型:
.zip、.tar、.whl、.tar.gz、.jar、.txt。說明其中檔案類型為
.txt時,將按照requirements.txt方式根據txt檔案中的內容,安裝指定的Python庫及版本。
單擊建立。
建立後將開始初始化環境。
編輯運行環境
如果您需要更新執行環境,可以使用編輯功能對運行環境中包含的庫進行更新。
在運行環境管理頁面,單擊目標運行環境操作列的編輯。
在編輯運行環境頁面,您可以更新執行環境配置項。
單擊儲存更改。
儲存更改後將基於當前配置重新初始化環境。
說明重新初始化環境後,變更不會立即在已使用該環境的Notebook會話中生效。如需在Notebook會話中使用最新的運行環境,請重啟Notebook會話資源。
使用運行環境
一旦建立的運行環境處於就緒狀態,即可在資料開發或相應的會話中使用該運行環境。
PySpark批任務:任務啟動時,系統會根據所選的運行環境預裝必要的庫。
任務編排:當在工作流程中添加Notebook節點時,可以選擇相應的運行環境。
Notebook會話:Notebook會話啟動時將按照所選環境預裝庫。
Livy Gateway:通過Livy Gateway提交任務時,任務運行所需的資源將根據所選環境進行預配置。
在使用Spark Submit、Apache Airflow和Livy提交任務時,可以通過配置參數
--conf spark.emr.serverless.environmentId=<運行環境id>來指定運行環境。