全部產品
Search
文件中心

E-MapReduce:管理Notebook會話

更新時間:May 10, 2025

會話是指EMR Serverless Spark工作空間中可用的Spark Session。您需要使用Notebook會話來進行Notebook開發。 本文主要為您介紹如何建立Notebook會話

建立Notebook會話

Notebook會話建立完成後,您可以在進行Notebook開發時選擇此會話。

  1. 進入Notebook會話頁面。

    1. 登入E-MapReduce控制台

    2. 在左側導覽列,選擇EMR Serverless > Spark

    3. Spark頁面,單擊目標工作空間名稱。

    4. EMR Serverless Spark頁面,選擇左側導覽列中的會話管理

    5. 單擊Notebook會話頁簽。

  2. Notebook會話頁面,單擊建立Notebook會話

  3. 在建立Notebook會話頁面,配置以下資訊,單擊建立

    重要

    建議將所選部署隊列的並發上限至少設定為Notebook會話所需的資源大小,具體數值請以控制台展示為準。

    參數

    說明

    名稱

    建立Notebook會話的名稱。

    長度限制為1~64個字元,僅支援字母、數字、短劃線(-)、底線(_)和空格。

    部署隊列

    請選擇合適的開發隊列部署會話。僅支援選擇開發或者開發和生產公用的隊列。

    隊列更多資訊,請參見管理資源隊列

    引擎版本

    當前會話使用的引擎版本。引擎版本號碼含義等詳情請參見引擎版本介紹

    使用Fusion加速

    Fusion可加速Spark負載的運行並降低任務的總成本。有關計費資訊,請參見產品計費。有關Fusion引擎介紹,請參見Fusion引擎

    運行環境

    可以選擇在運行環境管理頁面建立的自訂環境,Notebook會話啟動時將根據所選環境預裝相關庫。

    說明

    僅支援選擇已就緒的運行環境。

    自動停止

    預設開啟。支援您自訂設定Notebook會話在不活動後的自動停止時間。

    網路連接

    選擇已建立的網路連接,以便直接存取VPC內的資料來源或外部服務。有關建立網路連接的具體操作,請參見EMR Serverless Spark與其他VPC間網路互連

    掛載納管檔案目錄

    預設情況下,該功能處於關閉狀態。如果需要使用該功能,請先在檔案管理納管檔案目錄頁簽新增檔案目錄,詳情請參見納管檔案目錄

    開啟後,系統會將納管檔案目錄掛載到會話資源中,從而允許在Notebook會話中直接讀取和寫入該目錄下的檔案。

    掛載操作會佔用一定的計算資源。預設佔用的資源為以下兩者的較大值:

    • 固定資源:0.3核心(Core)+ 1 GB記憶體。

    • 動態資源:spark.driver資源的10%(即0.1 × spark.driver的核心數和記憶體)。

    例如,spark.driver配置為4核心(Core)和8 GB記憶體,則動態資源為0.4核心 + 0.8 GB記憶體。此時,實際佔用資源為max(0.3 Core + 1GB, 0.4 Core + 0.8GB),即0.4核心 + 1 GB記憶體。

    說明
    • 納管檔案目錄當前僅支援掛載到Driver,不支援掛載到Executor。

    • 在添加納管檔案目錄後,具有工作空間檔案編輯許可權的成員可以通過檔案管理介面對檔案及檔案夾進行編輯;而擁有資料開發相關許可權的成員則可以通過Notebook進行檔案及檔案夾的讀寫操作。

    spark.driver.cores

    用於指定Spark應用程式中Driver進程所使用的CPU核心數量。預設值為1 CPU。

    spark.driver.memory

    用於指定Spark應用程式中Driver進程可以使用的記憶體量。預設值為3.5 GB。

    spark.executor.cores

    用於指定每個Executor進程可以使用的CPU核心數量。預設值為1 CPU。

    spark.executor.memory

    用於指定每個Executor進程可以使用的記憶體量。預設值為3.5 GB。

    spark.executor.instances

    Spark分配的執行器(Executor)數量。預設值為2。

    動態資源分派

    預設關閉。開啟後,需要配置以下參數:

    • executors數量下限:預設為2。

    • executors數量上限:如果未設定spark.executor.instances,則預設值為10。

    更多記憶體配置

    • spark.driver.memoryOverhead:每個Driver可利用的非堆記憶體。如果未設定該參數,Spark會根據預設值自動分配,預設值為 max(384MB, 10% × spark.driver.memory)

    • spark.executor.memoryOverhead:每個Executor可利用的非堆記憶體。如果未設定該參數,Spark會根據預設值自動分配,預設值為 max(384MB, 10% × spark.executor.memory)

    • spark.memory.offHeap.size:Spark可用的堆外記憶體大小。預設值為1 GB。

      僅在spark.memory.offHeap.enabled設定為true時生效。預設情況下,當採用Fusion Engine時,該功能將處於啟用狀態,其非堆記憶體預設設定為1 GB。

    Spark配置

    填寫Spark配置資訊,預設以空格符分隔,例如,spark.sql.catalog.paimon.metastore dlf

查看運行記錄

在資料開發工作單位執行完成後,您可以通過會話管理頁面查看任務的運行記錄。具體操作步驟如下:

  1. 在會話列表頁面,單擊會話名稱。

  2. 單擊運行記錄頁簽。

    在該頁面中,您可以查看任務的詳細運行資訊,包括運行ID,啟動時間,Spark UI等資訊。

    image

相關文檔