全部產品
Search
文件中心

E-MapReduce:2025-11-12版本

更新時間:Dec 20, 2025

本文為您介紹2025年11月12日發布的EMR Serverless Spark的功能變更。

概述

2025年11月12日,我們正式對外發布 Serverless Spark 新版本,包括平台管理、效能最佳化以及引擎能力。

平台側

功能分類

功能更新說明

相關文檔

AI 中心(Beta)

新增支援AI Function功能,提供開箱即用的Qwen大模型能力,能夠有效調用大模型處理海量資料。

AI Function 介紹

新增模型服務管理功能,支援註冊外部模型服務,並在Serverless Spark中調用登入的外部模型服務。

EMR Serverless Spark 對接外部模型服務實踐教程

資料開發

  • 流式任務支援日誌滾動查看。

  • 流任務支援配置任務失敗後的自動重試策略及稍候再試時間。

批任務或流任務開發

SparkSQL 任務編輯器新增近3天運行記錄與執行結果展示。

SparkSQL開發

資料目錄

單工作空間支援同時添加使用HMS、DLF 1.0、DLF(原DLF 2.5)資料目錄。

管理資料目錄

資源管理

隊列支援同時分配按量配額與訂用帳戶配額的混合計費模式,提供結合隨用隨付的靈活性與訂用帳戶的成本效益的計費策略。

管理資源隊列

訂用帳戶配額支援下調。

管理工作空間

資源觀測支援按天粒度查詢,可查看最近7天及30天資源用量消耗趨勢。

資源觀測

Gateway

Kyuubi Application支援查看任務概覽、日誌探查。

管理Kyuubi Gateway

Livy Gateway支援限制單使用者建立的Session數量。

Livy Gateway配置樣本

組態管理

  • Spark配置模板新增逾時時間配置項。

  • Kyuubi Gateway、Livy Gateway支援從Spark配置模板載入配置。

管理Spark配置模板

最佳實務

通過Serverless Spark進行MinHash-LSH文本去重。

基於 MinHash-LSH 的大規模文本去重方案

支援在 SparkSQL 中註冊和使用 Python UDF。

使用UDF函數

引擎側

版本號碼

說明

引擎 esr-5.0.0 (Spark 4.0.1, Scala 2.13)

引擎 esr-4.6.0 (Spark 3.5.2, Scala 2.12)

引擎 esr-3.5.0 (Spark 3.4.4, Scala 2.12)

引擎 esr-2.9.0 (Spark 3.3.1, Scala 2.12)

  • Fusion加速

    • 支援shiftrightunsigned。

    • str_to_map支援last_win。

    • Parquet Write最佳化。

    • Commit最佳化。

    • Json Datasource最佳化。

    • Sort運算元最佳化。

  • 湖格式

    • 【DLF】最佳化讀寫表。

    • 【DLF】支援免密訪問pvfs。

    • 【DLF】支援Lance檔案格式。

    • 【Paimon】支援Parquet免密。

    • 【Paimon】支援行級血緣。

    • 【Paimon】最佳化merge into。

    • 【Paimon】最佳化compaction。

  • Spark架構

    • 支援Spark4.0。

    • 支援Python UDF。

    • MC Connector支援max_pt, map_agg。

    • 支援Fast Fail。

    • 提升與Hive的相容性。

    • 提供distcp功能。

  • DataWorks

    • 支援RDD血緣。

  • DuckDB

    • 支援讀寫OSS。

Celeborn

  • 穩定性最佳化

    • 最佳化Shuffle Read重試機制。

    • 最佳化Shuffle 資源分派。