AI 中心是 EMR Serverless Spark 專為巨量資料與 AI 融合情境打造的一站式智能引擎,通過 AI Function 與模型服務兩大核心能力,讓您無需編寫複雜代碼,僅憑熟悉的 SQL 即可在海量資料處理流程中無縫整合大模型能力。
用量限制
當前 AI 中心(Beta)為公測階段,每個阿里雲主帳號與 RAM 子帳號共用 100 萬 Tokens 免費使用額度。當累計調用消耗的 Token 總量超過該額度後,AI Function 將返回調用失敗。
AI 中心預計於 2026 年 4 月 8 日開啟商業化收費,詳情請參見EMR Serverless Spark AI中心商業化公告。
核心優勢
AI 能力 SQL 化,零代碼開發
內建
ai_query及情感分析、向量化等專用函數,無需編寫 Python/Java 代碼或管理 SDK。開發人員僅需通過標準 SQL 即可直接調用大模型,將複雜 AI 推理無縫嵌入現有 ETL 流程,極大降低技術門檻與開發成本。統一服務註冊,屏蔽異構差異
AI Function 預設直接調用阿里雲最新 Qwen3.5-Plus 大模型,開箱即用,享受業界領先的推理能力。同時支援靈活的業務擴充:使用者可通過模型服務功能,一鍵註冊 阿里雲百鍊、PAI-EAS 或自建私人模型。系統通過統一接入層屏蔽底層異構差異(如介面協議、鑒權邏輯),實現“一次註冊、SQL 通用”。
資料不出湖,全鏈路智能閉環
無需搬運海量資料即可原地執行大規模向量化產生與批量模型推理,實現"資料清洗—AI 特徵工程—結果回寫"的一站式閉環,在確保資料不出域安全合規的同時,徹底消除異構系統間的資料流轉成本,大幅簡化多模態資料處理架構。
應用情境
內容理解
輿情與反饋分析:自動識別評論情感(正/負),對海量使用者反饋進行分級處理。
工單智能路由:基於常值內容自動分類(投訴/諮詢/建議),精準分發至對應部門。
跨境業務支援:端到端多語言翻譯,快速產生多語種報表或適配海外市場文案。
通用摘要產生:利用 Qwen 大模型批量產生長文檔摘要,提煉關鍵資訊。
資料結構化提取
關鍵資訊抽取:從合約、日誌或評論中精準提取預定義欄位(如甲方名稱、金額、日期),直接輸出 JSON 格式入庫。
文案自動潤色:在資料匯出或報告產生前,自動糾正語法錯誤與用詞不當,確保對外輸出專業性。
非結構化轉結構化:將自然語言描述的商務規則轉換為標準資料記錄,便於後續 SQL 分析。
語義檢索與 RAG
RAG 向量庫構建:將海量文檔切片轉化為語義向量(Embedding),為構建企業知識庫提供底層資料支撐。
智能問答匹配:計算使用者提問與知識庫問題的語義相似性,實現高準確率的自動回複與召回。
資料智能去重:識別內容相同但表述不同的冗餘資料(如重複的新聞、相似的客服記錄),淨化資料集。
資料安全與合規
資料脫敏:自動掃描文本資料,識別姓名、社會安全號碼、手機號、銀行卡號等個人敏感資訊,並進行掩碼或替換處理,確保資料安全。
隱私合規審計:批量分析歷史資料資產,發現未脫敏的敏感欄位。
SQL 開發提效
作業平滑遷移:自動將 HiveQL 文法轉換為 Spark SQL 相容文法,解決 UDF 適配與視窗函數標準化問題。
查詢效能調優:AI 自動分析 SQL 邏輯,給出謂詞下推、分桶策略及 Join 順序最佳化建議,提升執行效率。
代碼注釋與建議:為複雜 SQL 指令碼自動產生注釋說明,輔助開發人員快速理解遺留代碼邏輯。