MaxFrame API包含兩大類,一類是為了方便使用者進行資料處理,用於相容各類標準庫(如Pandas)的API,另一類是為了任務的分布式執行而引入的MaxFrame特有API。使用MaxFrame的API開發作業,您可以享受到與標準資料庫類似的資料操作體驗,並將大規模資料處理任務高效地運行在MaxFrame平台上。
MaxFrame特有API
API類型 | API名稱 | 描述 |
任務會話 | MaxFrame作業以會話模式執行,通過在指令碼開始位置調用new_session方法初始化整個任務的執行,後續的資料處理會使用初始化構造的Session對象與後端服務進行互動。 | |
IO | 基於整個MaxCompute表、部分分區或部分列的資料構建DataFrame對象。 | |
基於MaxCompute SQL語句的查詢結果構建DataFrame對象。 | ||
將DataFrame資料寫入MaxCompute表中。 | ||
任務執行 | MaxFrame採用延遲計算模型,只有當調用execute方法時才會觸發執行。該介面允許將資料轉換操作延遲到流水線末端,使多個操作能夠在單個任務中批量執行,並減少用戶端與資料庫之間的資料轉送,以提高效能。 | |
任務結果拉取 | 計算後的結果不會直接傳輸到用戶端,可以減少資料轉送量,並減輕用戶端壓力。為了檢查部分結果資料,可在execute後調用fetch方法檢索結果資料以便查驗。 |
MaxFrame For Pandas
DataFrame
API類型
API詳情
Constructor
屬性
數學計算
過濾/投影/抽樣
排序
串連/合并
使用者自訂函數/彙總/視窗
轉換
Series
API類型
API詳情
Constructor
數學計算
過濾/投影/抽樣
排序
使用者自訂函數/彙總/視窗
Index
API類型
API詳情
Constructor
過濾/投影/抽樣
轉換
MaxFrame對Pandas API的支援情況
DataFrame
Series
Index
支援了所有參數的API:drop_duplicates
支援了部分參數的API:
astype:暫不支援astype('category')。