會話是指EMR Serverless Spark工作空間中可用的Spark Session。您需要使用Notebook會話來進行Notebook開發。 本文主要為您介紹如何建立Notebook會話。
建立Notebook會話
Notebook會話建立完成後,您可以在進行Notebook開發時選擇此會話。
進入Notebook會話頁面。
在左側導覽列,選擇。
在Spark頁面,單擊目標工作空間名稱。
在EMR Serverless Spark頁面,選擇左側導覽列中的会话管理。
單擊Notebook 会话頁簽。
在Notebook 会话頁面,單擊创建 Notebook 会话。
在建立Notebook會話頁面,配置以下資訊,單擊创建。
重要建議將所選部署隊列的並發上限至少設定為Notebook會話所需的資源大小,具體數值請以控制台展示為準。
參數
說明
名称
建立Notebook會話的名稱。
長度限制為1~64個字元,僅支援字母、數字、短劃線(-)、底線(_)和空格。
部署队列
請選擇合適的開發隊列部署會話。僅支援選擇開發或者開發和生產公用的隊列。
隊列更多資訊,請參見管理資源隊列。
引擎版本
當前會話使用的引擎版本。引擎版本號碼含義等詳情請參見引擎版本介紹。
使用 Fusion 加速
Fusion可加速Spark負載的運行並降低任務的總成本。有關計費資訊,請參見產品計費。有關Fusion引擎介紹,請參見Fusion引擎。
运行环境
可以選擇在运行环境管理頁面建立的自訂環境,Notebook會話啟動時將根據所選環境預裝相關庫。
說明僅支援選擇已就緒的運行環境。
自动停止
預設開啟。支援您自訂設定Notebook會話在不活動後的自動停止時間。
网络连接
選擇已建立的網路連接,以便直接存取VPC內的資料來源或外部服務。有關建立網路連接的具體操作,請參見EMR Serverless Spark與其他VPC間網路互連。
挂载纳管文件目录
預設情況下,該功能處於關閉狀態。如果需要使用該功能,請先在文件管理的纳管文件目录頁簽新增檔案目錄,詳情請參見納管檔案目錄。
開啟後,系統會將納管檔案目錄掛載到會話資源中,從而允許在Notebook會話中直接讀取和寫入該目錄下的檔案。
掛載操作會佔用一定的Driver計算資源。預設佔用的資源為以下兩者的較大值:
固定資源:0.3核心(Core)+ 1 GB記憶體。
動態資源:
spark.driver資源的10%(即0.1 × spark.driver的核心數和記憶體)。
例如,
spark.driver配置為4核心(Core)和8 GB記憶體,則動態資源為0.4核心 + 0.8 GB記憶體。此時,實際佔用資源為max(0.3 Core + 1GB, 0.4 Core + 0.8GB),即0.4核心 + 1 GB記憶體。說明開啟掛載後,預設只掛載到Driver,如需同時掛載至Executor,需要開啟掛載到 Executor。
重要掛載納管NAS檔案目錄後,必須配置網路連接,網路連接的VPC必須和NAS的掛載點在同一VPC下。
掛載到 Executor
開啟後,系統會將納管檔案目錄掛載到會話 Executor中,從而允許在Notebook會話 Executor中直接讀取和寫入該目錄下的檔案。
掛載將佔用 Executor 資源,具體佔用資源佔比隨掛載檔案使用方式浮動。
spark.driver.cores
用於指定Spark應用程式中Driver進程所使用的CPU核心數量。預設值為1 CPU。
spark.driver.memory
用於指定Spark應用程式中Driver進程可以使用的記憶體量。預設值為3.5 GB。
spark.executor.cores
用於指定每個Executor進程可以使用的CPU核心數量。預設值為1 CPU。
spark.executor.memory
用於指定每個Executor進程可以使用的記憶體量。預設值為3.5 GB。
spark.executor.instances
Spark分配的執行器(Executor)數量。預設值為2。
动态资源分配
預設關閉。開啟後,需要配置以下參數:
executors 数量下限:預設為2。
executors 数量上限:如果未設定spark.executor.instances,則預設值為10。
更多記憶體配置
spark.driver.memoryOverhead:每個Driver可利用的非堆記憶體。如果未設定該參數,Spark會根據預設值自動分配,預設值為
max(384MB, 10% × spark.driver.memory)。spark.executor.memoryOverhead:每個Executor可利用的非堆記憶體。如果未設定該參數,Spark會根據預設值自動分配,預設值為
max(384MB, 10% × spark.executor.memory)。spark.memory.offHeap.size:Spark可用的堆外記憶體大小。預設值為1 GB。
僅在
spark.memory.offHeap.enabled設定為true時生效。預設情況下,當採用Fusion Engine時,該功能將處於啟用狀態,其非堆記憶體預設設定為1 GB。
Spark配置
填寫Spark配置資訊,預設以空格符分隔,例如,
spark.sql.catalog.paimon.metastore dlf。
查看運行記錄
在資料開發工作單位執行完成後,您可以通過會話管理頁面查看任務的運行記錄。具體操作步驟如下:
在會話列表頁面,單擊會話名稱。
單擊運行記錄頁簽。
在該頁面中,您可以查看任務的詳細運行資訊,包括運行ID,啟動時間,Spark UI等資訊。

相關文檔
隊列相關的操作,請參見管理資源隊列。
會話支援的角色及許可權,請參見系統管理使用者和角色。
Notebook完整的開發流程樣本,請參見Notebook開發快速入門。