EMR Serverless Spark是一款面向Data+AI的高效能Lakehouse產品。該產品為企業提供了一站式的資料平台服務,包括任務開發、調試、調度及營運等功能,顯著簡化了資料處理與模型訓練的全流程。同時,它100%相容開源Spark生態,能夠無縫整合到客戶現有的資料平台。通過使用EMR Serverless Spark,企業可以更加專註於資料處理分析及模型訓練的最佳化,從而提升工作效率。
產品架構
EMR Serverless Spark的架構分為以下四層:
應用情境層
EMR Serverless Spark致力於滿足多樣化的資料需求。針對資料倉儲和BI分析情境,通過SQL編輯器提供低門檻的資料查詢與報表開發功能,同時相容傳統資料倉儲的使用習慣情境。在人工智慧與資料科學領域,整合了支援Python環境管理和互動式機器學習開發的Notebook功能。其設計理念是打造一個統一平台,融合多種應用情境,讓使用者無需切換工具即可高效完成從資料分析到模型訓練的全流程工作。
平台能力層
該系統主要為上層情境提供支撐,通過工作流程編排實現批處理、Realtime Compute以及人工智慧作業的多情境混合調度。無論是ETL任務、即時分析還是機器學習訓練,均可在同一管道中完成編排,從而避免多系統割裂所帶來的問題。同時,所有操作均可通過RAM認證和鑒權進行管理,細粒度地控制對資源、資料及功能的存取權限,以確保企業級安全。此外,SQL和Notebook開發分別最佳化了資料倉儲和人工智慧開發的體驗,而Notebook、Kyuubi以及Livy服務則為開發人員提供了靈活的編程介面和任務提交服務。
核心引擎層
Fusion引擎:專為CPU密集型情境設計,提供基於C++的向量化SQL引擎。與JVM相比,Fusion引擎能夠更充分地利用SIMD指令集,不僅提高了CPU的利用率,還降低了記憶體開銷。
Celeborn:企業級Remote Shuffle Service,支援IO密集型情境的多租戶隔離和資源彈性。
湖倉儲存層
基於開放資料湖格式Paimon和Iceberg,在保留資料湖靈活性的同時,賦予了傳統資料倉儲關鍵能力,如ACID事務、高效的資料Upsert以及完整的血緣記錄等。
產品優勢
雲原生極速計算引擎
內建Fusion Engine (Spark Native Engine):相對開源版本效能提升300%,顯著加速巨量資料計算任務。通過向量化引擎和批量資料處理技術最佳化計算效率,同時減少記憶體佔用,大幅提升整體效能。
內建Celeborn(Remote Shuffle Service):支援PB級Shuffle資料處理,大幅提高大Shuffle任務的穩定性和效能。計算節點無需配置大規格雲端硬碟,充分利用Spark的動態資源伸縮能力,降低儲存成本,計算資源總成本最高下降30%。
靈活擴充與資源高效利用
按需Auto Scaling:支援計算與儲存分離架構,計算資源可實現秒級Auto Scaling,最小粒度為1核,精細化按任務或隊列層級進行資源計量。儲存採用隨用隨付模式,避免資源浪費,大幅降低企業營運成本。
無縫遷移與相容性:對接OSS-HDFS,完全相容HDFS的雲上儲存,支援使用者業務平滑遷移上雲。通過DLF實現湖倉中繼資料全面打通,確保資料訪問一致性與許可權管理完整性,助力企業輕鬆構建現代化資料湖倉架構。
生態無縫相容
全面相容開源Spark:無需修改代碼即可直接運行,提供用法相容的
spark-submit和spark-sql工具,降低遷移門檻。深度整合主流湖倉格式:全面支援Apache Paimon、Iceberg、Delta、Hudi等主流湖倉格式,滿足多樣化資料存放區需求。
調度系統與安全能力:支援與Apache Airflow、Apache DolphinScheduler等主流調度系統對接;能夠對接外部Kerberos/LDAP開啟身份認證,並通過Apache Ranger實現資料鑒權,保障資料安全。
機器學習適配:內建SparkML環境與Notebook,支援Python三方庫全生命週期管理。
一站式的開發體驗
全流程開發支援:提供從任務開發、調試、發布到調度的一站式開發體驗,滿足企業級開發與發布的高標準需求。內建版本管理功能,完整記錄每次發布歷史,支援源碼與配置差異對比,確保變更可追溯。
高效協作與穩定性保障:開發與生產環境嚴格隔離,保障業務穩定性,助力團隊高效協作與穩定交付。
Serverless的資源平台
開箱即用:無需手動管理和複雜的基礎設施搭建,即可快速啟動任務開發。
秒級彈性:基於Spark任務的資源需求,動態拉取資源啟動Pod,運算完畢後立即釋放資源,計費僅針對實際使用的資源量,進一步降低計算總成本。
成本預估:提供任務層級的資源計量與成本預估,協助企業實現精細化營運。
產品計費
支援的計費方式如下:
如何使用
EMR Serverless Spark控制台:互動式操作的Web服務頁面。
API:支援GET和POST請求的RPC風格API。關於API介面詳情,請參見API參考。以下為調用API常用開發人員工具:
OpenAPI開發人員門戶:提供快速檢索介面、線上調用API和動態產生SDK範例程式碼等服務。
阿里雲SDK:提供Java、Python、PHP等多種程式設計語言的SDK。