為了更好地融入巨量資料生態,並支援外部引擎訪問MaxCompute中的資料,MaxCompute提供了開放儲存(Storage API)。第三方主Realtime Compute引擎可通過調用Storage API直接存取MaxCompute的底層儲存,從而顯著提升資料訪問和互動效率(本功能處於公測階段)。
開放儲存介紹
開放儲存(Storage API)是一種資料服務介面,提供了高效、低延遲、安全的資料讀方式,支援第三方主Realtime Compute引擎(Spark on EMR、StarRocks、Presto、PAI)直接存取MaxCompute的底層儲存系統,提升了MaxCompute與開源計算引擎的機器學習引擎的整合度和資料處理效率。其中,Spark on EMR、StarRocks和Presto還可通過Connector直接讀取MaxCompute的資料,更加簡化了讀取資料的過程,提高了資料訪問效能。架構圖如下:

應用情境
開放儲存(Storage API)可應用於資料開放與多引擎計算情境,當企業或開發人員需要在不同的計算架構間靈活切換,或者利用特定引擎的特性處理MaxCompute中的資料時,Storage API可以作為橋樑促進資料流通和處理的多樣化。
關鍵特性
高吞吐:具備列級高效讀取的能力,支援在資料轉送前通過謂詞下推來過濾資料,同時支援Arrow格式。
安全易用:提供Table語義直讀底層儲存,屏蔽儲存細節,同時滿足專案隔離、許可權控制、資料加密等安全性原則。
生態融合:Spark on EMR和StarRocks可通過Connector直接讀取MaxCompute的資料,簡化了計算引擎的整合過程。
使用限制
第三方引擎訪問MaxCompute時,支援讀取普通表、分區表、聚簇表、Delta Table和物化視圖;不支援讀取MaxCompute的外部表格、邏輯視圖。
不支援讀JSON資料類型。
開放儲存(隨用隨付)每個租戶的請求並發數限制預設為1000個,並且每個並發傳輸速率為10 MB/s。
資料轉送資源
第三方引擎通過MaxCompute開放儲存進行資料轉送任務時,可選擇使用Data Transmission Service獨享資源群組(訂用帳戶)資源。詳細介紹如下。
資源群組名稱 | 費用說明 | 支援地區 | 使用說明 |
Data Transmission Service獨享資源群組(訂用帳戶) | 訂用帳戶,按購買並發數的數量計費,詳情請參見資料轉送獨享資源費用(訂用帳戶)。 |
|
您可以在資源觀測頁面,查看Data Transmission Service獨享資源群組(訂用帳戶)的使用詳情,請參見資源觀測。
使用樣本
通過Connector訪問MaxCompute,詳情請參見:
通過SDK訪問MaxCompute,詳情請參見: