全部產品
Search
文件中心

MaxCompute:情境實踐

更新時間:Jan 10, 2026

系統性展示 MaxFrame 架構在實際開發中的關鍵能力與最佳實務,協助開發人員快速理解並掌握 MaxFrame 核心功能。通過可啟動並執行範例程式碼和情境化說明,降低使用門檻,提升開發效率。

常用功能與核心能力

功能模組

核心能力

典型應用情境

優勢特點

apply / apply_chunk 運算元

支援使用者自訂函數(UDF)在 DataFrame 或分塊資料上並存執行

使用者複雜的計算邏輯,需要構建自訂函數(UDF),同時資料處理規模較大,需要多行輸入平行處理

支援 Python 函數原生調用,自動分布式調度,支援 batch 進行並發處理,極大提高處理效率

GU 資源使用

支援 CPU、GPU 混合調度,異構計算

深度學習推理、多模態資料處理

異構資源(CU+GU)統一管理,可在一個作業 Pipline 中構建完整處理流程

AI Function On GU

支援內建大模型、使用者自訂模型,可基於 GU 資源調用 AI Function 介面進行大模型推理

批量模型推理,如結構化抽取、文本翻譯、資料打標、映像分類、語音辨識、向量化等情境

內建 Qwen3、DeepSeek 等主流大模型,提供 generatetask等調用介面,自動載入模型至 GU,低延遲、高並發執行

OSS 掛載與訪問

支援直接掛載 OSS ,實現對 OSS 上的海量資料直接讀寫、操作

多模態資料集載入

支援 OSS 免下載掛載,流式讀取,相容標準檔案介面

具體情境

apply 與 apply_chunk 運算元使用實踐

注意結合實際資料量及資源情況控制 batch_rows ,避免 OOM。

功能說明

  • apply 用於在 MaxFrame DataFrame 行/列上應用一個自訂函數,支援對整個行/列進行向量化操作;

  • apply_chunk  MaxFrame 提供的特有的底層介面,用於在 MaxFrame DataFrame 每個資料分塊(chunk) 上並行應用一個自訂函數。它適用於需要對分布式儲存的 DataFrame 的物理分區直接操作的進階情境,常用於效能最佳化或自訂計算邏輯。

樣本情境

  • 使用 apply 實現欄位標準化(如手機號脫敏)。

  • 使用 apply_chunk 平行處理百萬級圖片路徑,提取元資訊。

實踐教程

MaxFrame apply_chunk運算元使用實踐

MaxFrame GU 資源使用

功能說明

在複雜資料處理、加工作業 Pipline 構建時,通過需要在不同計算節點使用 CPU 或 GPU 資源, MaxFrame 支援 CU、GU 資源混合調度、計算,可在 MaxFrame 自訂函數(UDF)中通過資源標籤方式申請 GU Quota 資源,用於高效能運算任務。

樣本情境

  • 圖片 / 視訊框架抽幀與編碼

  • 複雜資料處理

實踐教程

AI Function On GU 開發實踐

請根據使用的大模型參數量選擇併購買對應顯存的 GPU 卡。

功能說明

MaxFrame AI Function 是阿里雲 MaxCompute 平台針對大模型離線推理情境的端到端解決方案,核心功能包括:

  • 無縫整合資料處理與 AI 能力

    • 持通過 MaxFrame DataFrame 與 LLM(如 Qwen3-4B)直接互動。

    • 提供generatetask介面平衡靈活性與易用性。

  • GPU 資源調度(GU)

    • 通過 gu_quota_name 申請 GPU 資源,適配不同規模模型(如 4B 模型需 2 GU)。

  • 託管大模型調用

    • 內建模型庫(如 Qwen3-4B-Instruct-2507-FP8),支援參數調優(temperature、max_tokens 等)。

    • 支援大規模並發調度,最佳化批量推理效能。

樣本情境

  • 知識問答

    • 情境描述:回答自然科學、歷史、技術等領域的問題,支援多語言和複雜推理。

    • 典型應用:

      • 科學計算:"地球與太陽的平均距離是多少?"

      • 歷史事件:"美國獨立戰爭開始於哪一年?"

      • 技術原理:"Transformer模型的核心機制是什嗎?"

  • 文本翻譯

    • 情境描述:跨語言翻譯,支援中英互譯及專業領域術語處理。

    • 典型應用:

      • 中文→英文:"如何緩解頭痛?" → "How to relieve a headache?"

      • 法律/醫學文本翻譯:"患者需每日服用一片阿司匹林。"

  • 結構化資料幫浦

    • 情境描述:從非結構化文本中提取關鍵實體、屬性或關係。

    • 典型應用:

      • 實體抽取:

        • 輸入:"iPhone 15 Pro 是蘋果公司最新發行的旗艦手機。"

        • 輸出:{"product": "iPhone 15 Pro", "brand": "蘋果", "type": "旗艦手機"}

      • 簡曆解析:

        • 輸入:"張三,5年Java開發經驗,擅長Spring Boot架構。"

        • 輸出:{"name": "張三", "skills": ["Java", "Spring Boot"], "experience": 5}

實踐教程

OSS 掛載及使用實踐

建議結合apply_chunk實現並行讀取,提高效能。

功能說明

在巨量資料分析情境中,常常需要將 MaxFrame 作業與持久化Object Storage Service(如 OSS)結合使用。例如:

  • 從 OSS 載入未經處理資料進行清洗或處理;

  • 將中間結果寫入 OSS 供下遊任務消費;

  • 共用訓練後的模型檔案、設定檔等靜態資源。

傳統的讀寫方式(如 pd.read_csv("oss://..."))受限於 SDK 效能和網路開銷,在分布式環境下效率較低。而通過檔案系統級掛載(FS Mount),可以在 MaxCompute 中像操作本地磁碟一樣訪問 OSS 檔案,極大提升開發效率。

樣本情境

  • 掛載 OSS bucket 目錄oss://maxframe-datasets/images/ 到 MaxCompute 本地 /data/imgs,進行後續處理。

實踐教程