MaxCompute Spark是MaxCompute提供的相容開源的Spark計算服務。它在統一的計算資源和資料集許可權體系之上,提供Spark計算架構,支援使用者以熟悉的開發使用方式提交運行Spark作業,以滿足更豐富的資料處理分析情境。
關鍵特性
支援原生多版本Spark作業
社區原生Spark運行在MaxCompute裡,完全相容Spark的API,支援多個Spark版本。
統一的計算資源
MaxCompute Spark與MaxCompute SQL/MR等任務類型相同,運行在MaxCompute專案開通的統一計算資源中。
統一的資料和許可權管理
遵循MaxCompute專案的許可權體系,在使用者權限範圍內安全地查詢資料。
與開源系統相同的使用體驗
提供原生的開源即時Spark UI和查詢歷史日誌的功能。
支援功能
目前MaxCompute Spark支援以下功能:
離線計算:GraphX、Mllib、RDD、Spark-SQL、PySpark等。
讀寫MaxCompute表資料。
引用MaxCompute中的檔案資源。
訪問阿里雲VPC環境下的服務。
訪問阿里雲OSS非結構化儲存。
讀MaxCompute OSS外部表格。
DataWorks Notebook
使用限制
目前MaxCompute Spark暫不支援以下情境:
不支援互動式類需求,如Spark-Shell、Spark-SQL-Shell、PySpark-Shell等。
不支援訪問MaxCompute內建函數和自訂函數(MaxCompute UDF)。
不支援訪問MaxCompute除OSS外部表格之外的外部表格。